作者:Joe Carmichael 机器之心编译出品
编译:吴攀 一年前的今天,Facebook 推出了「那年今天」功能。Inverse 与 Facebook 的计算机视觉研究负责人 Manohar Paluri 谈论了人工智能、机器学习和计算机视觉是如何让这一功能更有意义的——以及这些领域的研究和开发将如何在今后几年中继续提高 Facebook 的用户体验。
即使你自己没使用过「那年今天」功能,你也在你的动态消息中见到过这些帖子;你已经见过一个好友重新分享了他或她过去的 Facebook 帖子。还记得那位魔术师在帽子里拉出一只兔子吗?不敢相信已经过去了三年。同时还搭配着一张那魔术师和那只兔子以及那顶帽子的照片——就是类似这样的。而今天,Facebook 分享了它自己的记忆。在一年前的今天,Facebook 推出了「那年今天」。(现在,「那年今天」自称每日访问量已经超过了 6000 万,而且有 1.55亿用户订阅了它的通知。)

「那年今天」的新外观,Facebook 的社交记忆辅助。
但是,对于 Facebook 而言,这种记忆更多的是里程碑意义,而少了一些怀旧的多愁善感。Facebook不断在推出新功能,而且这些功能也在不断地被检查和调整。有时候是人类做这些事,如 Paluri 及其团队;其它时候则是人工智能——尽管大部分时候两种都会用到。Facebook 就像是一个半机械人,而这个半机械人有一个存在的理由:让你的 Facebook 体验尽可能愉悦。
如果你愿意,Facebook 的计算机视觉、内容理解和人工智能小队可以被看作是半机械人的主板。按照这个比喻,Paluri 就该算作是主板上的中央处理器。过去十年来,Paluri 一直在计算机视觉上工作,而且他可不是个小角色:他从 SRI 开始,转到了 IBM 沃森实验室,然后再从那里跳到了谷歌。现在他在 Menlo Park 的 Facebook 总部工作。他说,当他加入的时候,他在视觉识别上的实习项目跃升成为了 Facebook 的图像和识别理解技术的「主干」。而且视觉识别引擎对 Facebook 而言也变得越来越中心化。
「如果你看看 Facebook 随时间变化的使用情况——而这也是 Mark [Zuckerberg] 常常举的例子——你可以看见分享的媒体越来越丰富,人们用其来连接。」Paluri 说,「你从文本开始,变成了照片;从照片又变成了视频;然后现在从视频我们正变成虚拟现实。随着通信媒介变得越来越丰富,工具跟上也是非常重要的,以及那些能够理解这些内容是什么的工具。除非我们有那样的工具,(否则)我们就不能在动态消息排序上做到更好,我们就不能在搜索结果检索中做到更好,我们就不能在为盲人描述照片内容上做到更好,我们就不能开发出更好的人口密度图。」
Paluri 说,人工智能相对较新的中心,机器学习和计算机视觉是有一点「战略下注」的感觉——但这是一个让他兴奋的赌注。之前他工作过的每一个地方在研究和工程之间都没有如此紧密的反馈和响应回路。「通过集中关注,我们处理最先进的技术,我们推动技术前沿,然后产品团队和公司的其它部门就可以使用它。」他说。现在,Paluri 管理着计算机视觉团队,「这个团队的高层次目标是让机器能以人类的方式去看见,」Paluri 解释说,「并且超越,实际上——超越人类所能做到的,比如在非常细节的识别上。我们在顶级会议上发表我们的发现,我们撰写技术博客,而且我们对我们正在工作的内容非常开放。总体而言,我们的主要目标是将计算机视觉技术带入到 Facebook 的其它产品组。」
而最早利用 Paluri 团队的成果的产品刚好就是「那年今天」。

「那年今天」的老版设计
在简洁天真的面纱背后,「那年今天」有一个复杂的能够精确调控你的记忆体验的人工智能和计算机视觉系统。Paluri——再次说明他与「那年今天」只有一点点交集——解释了为什么重温社交网络记忆可以是一件好事。
「怀旧是一种非常正面的现象。所以,比如以一种即兴的方式查看你的婚礼照片——当你不是专门浏览它时,但它就在你的动态消息中出现了——是一种非常让人愉悦的体验。尤其是当你在浏览的时候,一种积极的记忆就从过去涌现了出来。」
怀旧是一种非常正面的现象。
然而,毫无疑问,怀旧更多地是落在苦乐谱上的苦的一边。「我所想到的第一件事」Paluri 说,是「你应该展示出所有的这些回忆吗?凭直觉的答案是:否,因为它依赖于你现在的状态,它依赖于特定的记忆;这里有很多很多内在的东西。这就是人工智能技术加入其中的地方。」 而且人工智能技术进入的方式有两种:一,个性化;二,内容理解。
对于后者,内容理解:「这些回忆是你上传的文字回忆、生活事件、照片或你上传的视频。所以,现在你有过剩的不同类型的内容,而了解这里面有什么对能够学习并提供一套正确的回忆而言是非常重要的。」
此外——而且不仅仅对于「那年今天」——内容理解和这些人工智能系统有助于清除 Facebook 上每天海量信息中的无益内容。(想一想:如果 Facebook 的动态消息与 Instagram 类似,你也许就只会看所有帖子中的百分之二。相反,你看到的都是你可能会点赞的内容,或者你可能会花很多时间探究的内容。)而且它还能帮助过滤掉让人反感的内容,例如色情,这比其它大多数网站都做得多。
即便那是一次损失,它也能给他们带来积极的回忆。
而对于前者,Paluri 阐述说:「对你而言,也许看看积极的回忆是好的,而且你不喜欢任何负面的东西。但对其他人来说,也许他们想被提醒他们在那一天失去了他们的猫。尽管那是一种损失,它也能给他们带来积极的回忆。」而且,从某种意义上讲,每一个 Facebook 用户都有一个高度个性化的幕后配置文件,它知道他或她将想要或不想要回忆什么。「当你和回忆互动时——随着你的分享、你的点赞或你的忽略——都会有一个使用内容理解模块的机器学习模型配合你的喜好,个性化定制未来将会提供给你的回忆。」
但不要担心:Facebook 希望能确保你不会被粗鲁地提醒分手或亲人去世的回忆。「不管人工智能或机器学习技术有多好,我们仍然希望能将控制权交给用户,因为这一天结束时,我们的目标是重现他们喜欢的回忆。」用户得到一个控制开关:「如果他们知道,在这些日子期间一件负面的事情发生了——他们分手什么的——我们想将不呈现这些回忆的全部控制权交给他们。」
那么在「那年今天」的偏好设置中,你可以选择不要向我展示某某人(因为他是一个可鄙的人)或近三年的回忆(这段时间很悲惨,绝不值得注意)。

基于机器学习系统的偏好设置可以确保你见到的都是温暖和模糊的回忆,不会有更多。
展望未来,Paluri 解释了为什么他非常高兴能继续从事开发这些系统,并提高 Facebook 的主板质量的工作。
你已经提到了 Facebook 的视觉和内容理解系统的其它应用。是否还有其它的使用这些系统的正在进行中的工作让你感到兴奋?
所有这些在视频上的功能都是让我感到兴奋的事情,那是肯定的。那肯定是已经存在的;这是一件持续的事情,因为视频是 Facebook 上的大头。但我认为,在某种程度上,我们希望对此有越来越丰富的了解。就人类描述图片的方式而言,目前的计算机视觉技术仍然离得很远。它可能能告诉你这张图片上有什么,像这些像素是属于一只猫的等等——但它是有限的。它仍然不了解事物之间的关系,而且它仍然不能以人类的方式描述它。
有一些工作是为了描述图像的——称之为图像说明(image captioning)。最近两年有一堆成果出来。但如果你看看这些系统生成的说明,他们非常一般。它们不是描述性的。而我们会喜欢的以及会在未来到来的一件事是以一种更为丰富的方式描述它。这对图像和视频而言都一样。如果你有一段两分钟视频,你不会想只要一句句子描述;你想要的是一段带有时态的描述段落,对吧?『这个发生,然后这个发生,再然后这个发生』,对吧?这就很好理解了。
所以总之,你是说,你在想办法夺走我的工作。
(笑)不,绝对不是。我在让你的工作变得更加有趣。
你觉得对于开展这样的研究而言,Facebook 是个奇怪的地方还是完美的地方?
我认为这是个完美的地方,因为内容理解嵌入在 Facebook 的DNA 中。如果你看看 Facebook 的使用情况的暴增,相对许多其它竞争对手而言,动态消息是让 Facebook 成为一个惊人的社交网络的台柱。动态消息仍然是主要的发放渠道。
但当你进入动态消息时,你并不带有特定的意图。你来这里是为了信息。所以,对我们而言很重要的就是向你展示正确的事物,向你展示有意义的事物。如果你进入其它服务,也许你就带着一个意图,在这种情况下,所有需要做的服务就是给出一个答案。在这里,这就像是我既给你问题也给你答案。所以,为了让人们继续回来,你需要做得真的很好。
这就是为什么说人工智能和内容理解是 Facebook 的核心,以及为什么它是做这些事最好的地方。考虑到这里如此之多的媒体数量——考虑 Facebook 上有多少关于图像和视频的内容,以及向越来越多的视频和虚拟现实的转变——这是做人工智能研究、计算机视觉和机器学习最好的地方。
这不是奇怪的地方:这就是最合适的地方。
?本文由机器之心编译 |