刺猬公社 发布时间:19-08-02 北京小猬信息科技有限公司
作者 | 石灿 金木叶 编辑 | 铁林
今天的文章,我们从三张图开始。
某购物平台上的女郎内衣服装图。
是不是觉得这几张图不该出现在我们的文章里?别着急关掉,我们可没别的意思。
我们想说明一个问题,这些图的含义会在不同时间、场景产生不同变化。
购物平台女郎内衣服装图出现在在购物平台上无可厚非,《掷铁饼的人》图出现在博物馆里再正常不过了,你要是在剧院里看到舞蹈演员跳天鹅湖,会持欣赏态度去赞赏。
他们自身的意义被人赋予,人会受到周遭环境的影响而产生不同判断。就在我们以为各种内容位居其位时,它们实际上正发生根本性改变。
每年我们生产出800万首新歌,200万本新书,1.6万部新电影,300亿个博客帖子,1820亿条推特信息,4万件新产品。
凯文·凯利在他那本著名《必然》中如此写道。
技术进步,将人类的产生新观点、制作新事物的生产力完全从工具的枷锁中释放出来,“今天制作一个简单的视频要比10年前容易10倍,写作并出版一本图书要比1000年前容易1000倍。”
而且技术还在不断降维,人类的内容生产力还在持续提升。
就以图片为例,全球每年新增的图片数,2013年是0.6万亿张,2017年是1.4万亿张,短短4年足足翻了一倍。
1.4万亿张意味着什么,意味着每天上传一张,得上传38亿年。要知道,地球年龄的最佳估计值也就45.5亿年而已。
信息大爆炸,带来的一个巨大挑战就是如何过滤。《必然》一书的副标题叫“理解将塑造我们未来的12种技术力量”,其中一种,就是过滤。
“过滤”势必会成为未来深刻影响我们生活的一种技术。
凯文·凯利也认识到,虽然传统的过滤机制仍在发挥着作用,“但在处理未来10年急剧增长的各种选择时,我们就要发明出更多类型的过滤方法。”
“过滤”首先承担的是“守门人”的角色,这是它必须坚守的底线和构建的壁垒。近来年,无论中外,互联网世界都始终笼罩在被“黑产”和“灰产”侵扰的阴影中,色情、暴力、赌博、迷信、恐怖言论、种族歧视、诈骗、虚假广告……它们就像四处蔓延的污水,侵蚀着一个个平台。
如果纯靠人工审核,这是难以估算的工作量。
就以今日头条为例,每天用户上传的文章数量达60万篇。如果每个内容都要人工审核,审核团队规模可能得10万人起步。
这就像电话出现的早期,不同线路都需要接线员处理。美国电话公司曾惊讶地发现,按照电话普及的速度,几年后,所有美国女性都当电话接线员还不够。
很显然是不可能的,技术将改变这一切。技术也将承担第一层“过滤”机制,充当第一道门的“守门人”。放眼全球,所有互联网公司,多多少少都会依赖技术来解决第一道门的“守门人”问题。不管是国外的Facebook、谷歌,还是国内的微信、今日头条,都是如此。
但目前来看,在国内,今日头条是较多愿意对外展示他们的技术审核机制的,这也得以让外界管窥这个以算法和内容著称的公司,是如何通过技术的手段,在海量信息时代提供第一层把关的解决方案。
7月30日,今日头条发布“灵犬3.0”。“灵犬”的全称“灵犬反低俗助手”,2018年3月发布1.0,经过三次迭代,目前同时支持图片和文本识别。
“灵犬3.0”发布的同时,今日头条还举办了一场“算法如何反低俗”的沟通会,由字节跳动人工智能实验室总监王长虎分享“灵犬”背后的反低俗技术原理。
虽然是技术男,但不得不说,王长虎的分享做了很好的降维处理,非常深入浅出。
相比于人,机器的优势自不待言:
比如计算快,一秒钟能执行百亿次计算;比如存储大,轻松存储千亿以上汉字;比如稳定,不会因心情、状态等影响处理结果。
但机器也有机器的局限,尤其是面对文字这种博大精深的对象物。在早期,机器还没那么“聪明”的时候,它的工作原理更像是word文档里的“查找”功能,需要匹配相应的词汇库。用王长虎的话就是,“机器将信息转化成二进制的0和1存储下来,以此为基础,表达文字、图片。人编写程序,即一组指令,机器按照顺序执行,对既定的一段存储做操作,最终输出结果。”
这种把关机制就像“马奇诺防线”,可以轻松绕开。早期互联网用户很多都有这种经历:在输入内容的时候,只要把其中一些词改成拼音,或在中间空上一格,就轻轻松松地避开了机器审核。
但现在,僵化的“马奇诺防线”已经不存在了,过去十年里,技术领域出现了最大的技术进步:机器学习。“这样一来,人不需要写出具体的指令序列,也能让机器做很多的事情……在机器学习的状态下,人只需要提供充分、具体的样本,机器经过训练就能总结出一套判断准则。”
王长虎说,灵犬正是机器学习反低俗的产物。
那如何才能让机器像人一样思考呢?接下来就是非常“硬核”的部分了,估计看到本文的绝大部分人都不懂其中的原理。
王长虎介绍说:
第一版灵犬,采用的是词向量与CNN技术。词向量是让词蕴含语义信息;CNN是卷曲神经网络的缩写,这种技术架构性能好、速度快。
第二版灵犬,用的是LSTM和 Attention技术。LSTM是“长短期记忆”的缩写,这种神经网络可以很好地对序列进行建模,对长句的识别非常好。Attention是注意力机制,可以结合词与词之间的信息,对句子有更全面的了解。
最新的版本,用的技术是Bert技术与半监督技术,Bert是当前最先进的自然语言理解技术,是这个领域进展的集大成者。Bert开展了新的更大规模的网络结构,并且使用半监督学习技术,可以利用天然的超大规模的语料库进行训练,使得对语义的刻画更精准。
什么是半监督?
半监督是相对于监督机制来说的,监督机制是用标注数据来训练模型,半监督既用有标注的数据,也利用一些没有标注、更大规模的数据来训练。半监督技术的好处,是可以用更大规模的语料库来训练模型,效果更好。
灵犬1.0到3.0,文本识别的准确率从79%提升到91%。
这还只是文本识别,对比之下,图片识别就更麻烦了。“灵犬3.0”的新系统可识别图片,这是灵犬的一大里程碑。
王长虎说,图片识别的难度在于:
文章由段落构成,段落由句子构成,句子由字词构成;两段低俗的话,可能运用了某个相同的词,而字、词作为段落的最小单位,是可以被分割出来,并一一加以识别的。但两张低俗的图片,构成的特征千差万别,与文本不一样的是,图像识别的特征提取,无论是初级特征的形状、颜色、纹理,还是高级特征里的语义,其数量是无限的,不可穷举。
而灵犬运用的解决方案,不仅是“机器学习”,而且是机器“深度学习”。深度学习有三个要素:一是数据量,二是算力,三是模型。王长虎说,灵犬在数据层面累积了上千万级别的训练数据,在模型层面,针对许多困难样本做了模型结构调优。
至于算力,这就只能期待NVIDIA等大厂的进化了,王长虎说,灵犬也在利用分布式训练算法以及GPU训练集群,加速模型的训练和调试,利用模型压缩技术,提升模型的预测速度。
那为什么还需要人工判断呢?
不信你看看下面这两张图,你说它们是不是低俗的。
机器遇到这种情况就很难搞了,它还是要根据具体的情况来判定。
事实上,世界上大的互联网公司,包括Facebook和谷歌,都组建有人数众多的人工审核团队。
原因肯定还在于,机器虽然聪明,仍然有拿不准的时候。就像3.0版本的灵犬,文本识别准确率虽然提升至了91%,但还有差不多十分之一的内容没法做出判断,这一比例已然放在海量内容面前,已经非常巨大。
王长虎也说,没有算法是完美的,灵犬也还在不断地提升和迭代。另一方面,反低俗这个问题,其实是比较复杂和比较困难的。
他说,至少在一些方面,现阶段还有赖于人工判断。
机器只是把文字当成符号,从表面去理解它。就像盖房子的砖块一样,机器只能把这些砖块罗列和堆积起来,不完全知道某些砖块可能比另一些砖块更为重要,有些砖块需要转换一下角度来看,或者跟别的砖块搭配在一起看才合理。
这让我想起了网上流传的所谓汉语八级考试中的一道题:
领导:你这是什么意思?
小明:没什么意思,意思意思。
领导:你这就不够意思了。
小明:小意思,小意思。
领导:你这人真有意思。
小明:其实也没有别的意思。
领导:那我就不好意思了。
小明:是我不好意思。
让机器来理解上面的“意思”分别是什么意思,估计要疯。
图片也是如此,王长虎说:
从图片的角度,技术同样存在“一刀切”的局限。例如色情内容,机器通过识别肌肤裸露面积来判定是否违规,而这个会让一些具有历史意义和艺术性的照片受到波及。
他介绍,Facebook 曾经因为“裸露”,误伤了一张著名的越战新闻照片,照片里一位小女孩遭到汽油弹炸伤、浑身赤裸奔跑。今日头条也有过类似的情况。很早的时候,头条平台下架了一张关于吴哥窟塑像的图片,塑像虽然“露点”,但其实是名胜古迹。再比如芭蕾舞蹈。一些拍摄芭蕾舞的图片,以机器的视角来看,它很类似于裙底偷拍。
另一方面,技术还很难搞定的是,由于使用场景、人群、时间而导致标准变动的内容。王长虎在这一部分举了两个很有说服力的例子:
在八十年代早期,邓丽君的歌曲曾被认为是“靡靡之音”。1982年,人民音乐出版社出版了《怎样鉴别黄色歌曲》,里面就批判了邓丽君歌曲。但时至今日,邓丽君演唱的歌曲,已经成为了华语经典歌曲的一部分。
不得不说,身在一个以运营内容著称的公司,技术男也有了很好的内容理解力和创作力。
灵犬解决不了所有问题,所以今日头条的反低俗系统,远不止于灵犬。今日头条目前除投入近万人的专业审核团队外,还搭建了反色情、反低俗、反标题党、反虚假信息、反低质模型数百个,结合人工、技术手段,提升内容安全的效率和准确度。
至于灵犬,自去年3月推出第一代以来,到今年6月为止,使用人次已经超过了300万。
灵犬背后的今日头条的反低俗系统,自2012年建设以来,支撑着这个信息平台24小时平稳运作,每天都在迭代。对于它,王长虎用这样一句话来总结:可能是全球最实用的反低俗系统。
你有想过吗?
“灵犬”背后,可能隐藏了今日头条真正的生产力——技术自我进化的能力,以此来推动生产关系发生变革。
评论