雷锋网按本文作者为 Backchannel 的 编辑 Steven Levy雷锋网(公众号雷锋网)编译发布。
当被问及是否想要用人工智能领导全球最大的社交网站时Joaquin Quiñonero Candela 犹豫了。
犹豫不是因为这个西班牙裔又自诩为“机器学习人”的科学家没有意识到人工智能会对 Facebook 提供巨大帮助。自从2012年 Candela 加入 Facebook 以来他一直负责用机器学习的方法改革公司的广告运营让广告投放更加具有相关性和有效性。更重要的是他让团队中的工程师在即使没接受过训练的情况下也可以主动使用人工智能用机器学习技巧让广告部门的工作更好。但是他不确定的是人工智能能在 Facebook 其他更广阔的领域内发挥作用毕竟在这个社交网络中数以十亿计的个体联系所依赖的数据比广告运营的“硬数据”模糊而复杂得多。关于升级他说到“我想要确认人工智能在这里的确有它的价值。”
虽然有犹豫但是 Candela 还是接受了这个职位。而两年后的今天他的犹豫似乎已经失去了意义。正如上个月在纽约的会议上 Candela 对大家说的“我要在这里强调如今的 Facebook 已经与人工智能难舍难分了你对 Facebook、Instagram 和 Messenger 的每一次使用你也许不会意识到但是你的体验都是由人工智能驱动的。“
去年十一月我有幸在 Facebook 位于门洛帕克市的总部采访了 Candela 和他的部分团队我也清楚地看到人工智能是如何一夜间变成了 Facebook 不可或缺的一部分。
今天大家都把注意力集中在了 Facebook 世界级的人工智能研究团队FAIR上该团队由著名神经网络专家 Yann LeCun 领导在谷歌、微软、百度、亚马逊和苹果等众多竞争者中仍然是优秀的人工智能领域人才渴望加入的理想工作团队。
该团队在计算机学习人类大脑进行观察、倾听和思考所用的数字神经网络领域常常做出突破性研究。但是 Candela 的机器学习应用团队AML承担着与 FAIR 相对独立的研究——将人工智能应用在 Facebook 的实际产品中更重要的是让公司的工程师们把机器学习应用到他们的工作中。因为 Facebook 已经无法离开人工智能而存活了公司所有的工程师都必须使用 AI 开展工作。
在我进行采访的两天前Facebook 发生了传播假新闻帮助川普竞选的事件扎克伯格评论说“太疯狂”这个评论就像是火上浇油很多人觉得 Facebook 是涉嫌串通将假消息放在 News Feed动态信息流中传播了出去。尽管很多争议早已超出了 Candela 的职责范围但是他明白 Facebook 对假新闻的最终解决办法取决于机器学习研究的进展而这也正是他的团队所要负责的部分。
采访中也许是有公关人员在场坐镇Candela 想要给我展示一些不同的东西——他的团队研究的一个成果样本。但是令我惊讶的是他展示的只是一个有点无聊的把戏用著名画家的风格重新演绎一幅画或一段视频就像你曾经在 Snapchat 上看到过的那种数字特效在照片中加入毕加索立体主义的风格。
Candela 解释说“这背后的技术叫做风格迁移。就是用一个经过训练的大型神经网络将原有的图像用一个特殊的风格重新绘制。“他拿出手机拍了张照片经过一些操作之后照片变成了一幅梵高《星空》的再生品。更惊奇的是它还能按照规定的风格绘制视频。但是 Candela 说这项技术最关键的是人们看不到的一点Facebook 已经建立了自己的神经网络所以这项技术可以在手机上直接实现。
这实际上也并不新奇因为苹果此前曾夸口说他们已经在 iPhone 上使用了一些神经网络计算。但是这对 Facebook 来说很难因为他们无法控制硬件设备。Candela 说他的团队之所以能胜任这份工作是因为团队的工作是叠加式的——每一个项目都可以轻易地叠加在另一个上面每一个项目都如此运行以便今后设计相似项目的时候减少对神经网络训练的工作量提升工作效率。“从开始接手任务到公开测试我们只用了8周时间这挺疯狂的。”他说。
从左到右机器学习应用工程主管Joaquin Candela、计算机视觉应用团队主管Manohar Paluri、技术产品经理 Rita Aquino、工程经理 Rajen Subba
Candela 还说如此快速地完成任务还取决于大家的合作——这也是 Facebook 的企业文化精髓。在这次任务中与 Facebook 其他团队的顺畅沟通非常重要正是因为移动设备团队对 iPhone 硬件非常了解才使得我们可以用手机直接实现在 Facebook 数据中心上对图像的重绘。这项研究的好处不仅仅能让用户视频中的人物变成爱德华蒙克的《尖叫》风格。它还是整个 Facebook变得更加强大的第一步。不久之后这项技术能让计算机对语言翻译和文本理解的反应速度更快。在更远的未来这项技术甚至可以实时分析你的所见所闻。Candela说“我们是说‘实时‘比一秒还短的时间。因为我们是社交网络如果我们想要对人们的社交反馈做出预测那系统必须立即反应对吧”说完他又看了看刚刚那张梵高式的照片毫不掩饰自己的自豪之情。“在手机上运行复杂的神经网络意味着把人工智能交付到每个人手中。“他接着说”这不是偶然产生的这也是我们在公司中实现人工智能自主化的一种方式。我们已经为此努力很久了。“
Candela 出生在西班牙。在他3岁的时候全家搬到了摩洛哥他在那里上了法语学校。尽管他在科学和人文方面的成绩都很高他还是决定在马德里上大学学习他觉得最难的专业通信工程这不仅要求对无线电、放大器等物理知识的充分掌握还需要理解数据但他认为“这非常酷”。他师从一位研究改善自适应系统的教授建立了一个利用智能滤波器增强漫游手机信号的系统他将这称之为一个“初始的神经网络”。与编程相比他更喜欢训练算法2000 年在丹麦学习的一个学期的经历让这个兴趣更强了。在丹麦Candela 结识了一位研究机器学习的教授 Carl Rasmussen他与机器学习著名专家 Geoff Hinton 共事多年。毕业前夕当 Candela 正准备加入宝洁团队时 Rasmussen 教授邀请他继续博士的学习。他最终选择了机器学习。
2007年他加入了英国剑桥的微软研究实验室。工作不久后他就明白了公司层面的竞争微软将要推出 Bing但是还需要改进搜索广告部分一个关键构件——用来预测用户何时会点击广告。微软决定开展一项内部比赛获胜的团队方案会被测试是否实用团队成员则会获得一次免费夏威夷旅行。19 个队伍参加了比赛Candela 的团队最终获胜。他获得了免费旅行但是当微软推迟方案测试的时候他觉得自己被骗了。为了展示决心Candela 开展了一个所谓的“疯狂十字军东征”试图说服公司给他一个机会。他进行了至少 50 次内部谈话建立了一个模拟器来展示自己算法的优越性跟踪可以拍板的高管在吃饭的时候故意跟高管坐在一起在洗手间向领导宣传自己的系统在总裁办公室不请自来争论到“承诺就是承诺必须执行况且他的算法确实更好”。最终candela 的算法在 2009 年嵌入进 Bing 中。
2012 年Candela 会见了一位在 Facebook 工作的朋友并参观了位于门洛帕克市的办公室。他惊奇地发现在这个公司里大家不用求着领导测试自己的系统他们可以自主决定。两天后他去 Facebook 面试了一周后他加入了 Facebook 的广告团队领导一个小组研究如何向用户展示更多相关广告。尽管那时的系统已经使用了机器学习但是 Candela 认为“模型不够先进太普通了”。
Facebook 大楼内景
与 Candela 一同进入 Facebook 的另一个工程师是 Hussein Mehanna他们一同参加了新雇员代码训练营他也认为 Facebook 的人工智能系统太过落后。Mehanna 说“我从外部观察它产品质量的时候以为 Facebook 的工作早已人工智能化了现在看来显然还没有。几周后我告诉 JoaquinFacebook 最缺少的是一个合适的先进的机器学习平台。我们已经有了机器但是没有合适的软件帮助机器尽可能多地从数据中学习。”Mehanna 目前是 Facebook 的核心机器学习主管也是微软的老员工采访中微软老员工都跳槽到了 Facebook是巧合吗
Mehanna 所说的“机器学习平台”是将人工智能从上个世纪的“寒冬”变为现在蓬勃发展的模仿人类大脑行为的范式应用。在广告领域Facebook 需要的是一个人类工作无法实现的系统对广告点击人数的即时预测。Candela 和他的团队要基于机器学习的方法创造出这个新系统。并且因为他们想要将这个系统建成一个平台他们的模型和训练必须具有一般性和可复制性。
建立机器学习平台的一个重要因素是高质量数据的获取越多越好。幸运的是这正是 Facebook 一项最大的资产当超过十亿人每天与 Facebook 的产品互动时它可以为他们的训练收集大量数据并且当他们开始测试时会有取之不尽的用户行为样本。这使得广告团队进展很快从每几周推出一个新模型到每周推出一个新模型。另外因为系统最终会成建成一个平台公司内部会使用平台来设计自己的产品Candela 设计了一个多团队同时工作的方法——一个简洁的三步过程“首先关注绩效接着是效用最后建立一个社区”。
Candela 的广告团队已经证明了机器学习可以为 Facebook 带来多大的变革力量。他说“我们在预测广告点击率上取得了巨大成功就像是一次大转变。”所以将这个方法扩展到更大的服务中是很自然的事情。事实上FAIR 的领导 LeCun 已经在争取建立一个伙伴团队将人工智能应用在公司产品中将机器学习的方法更广泛地应用在公司运营中。LeCun 说“我正在为此努力因为我们需要高素质的工程师虽然他们不直接与产品打交道但产品团队却需要他们提供技术基础。”
2015 年 10 月Candela 成为了新的 AML 团队主管在一段时间内他还同时兼任着广告团队的负责人。他与 FAIR 团队保持着密切的联系。虽然 FAIR 在纽约、巴黎和门洛帕克市都有办公地但实际上他们的成员就坐在 AML 工程师旁边。
他们合作的方式可以用一个正在运行中的产品来说明该产品是 Facebook 上对照片进行语音描述功能。过去的 5 年中训练系统识别屏幕中的物体并给出一般性结论比如照片是在室内还是室外拍摄已经成为了人工智能训练的普遍标准。但是最近FAIR 的科学家们发现了一个方法可以训练神经网络在图像中变出每一个物体并判断他们之间的位置和关系进而理解整个图像的含义比如分析出图中人们正在拥抱或者有人正在骑马。LeCun 说“我们将这个方法展示给 AML 团队他们思考了一会儿说‘在一种情形下这项技术会非常有用’。”于是一个帮助盲人或视力低下的人“阅读”图片的功能原型出现了。Candela 谈到他的姐妹团队“我们一直在交流。更大的挑战是将科学技术转化成产品这需要粘合剂而我们就是这个粘合剂。”
Candela 将人工智能的应用分为四个部分视觉、语言、谈话和照相机特效。他认为这四个部分会产生一个“理解内容的机器”。通过研究如何明白内容的含义Facebook 可以从评论中、话语的细微变化中探查隐含的意思在视频中识别出你朋友一闪而过的面孔在你真实的会话中解译你的表达。
Candela 说“我们正在使人工智能一般化。在内容激增的今天我们需要理解和分析内容否则我们贴标签的能力就会跟不时代了。”而解决方法就在于建立一个普遍性的系统使得一个项目的工作可以为相关项目的工作提供帮助。他说“如果我能将其他项目的成果转移来构建我自己的算法岂不是非常棒” 这样的转变让 Facebook 产品上新的速度飞速提升。拿 Instagram 举例最开始的时候用户展示的照片是按照时间顺序反向排序的。但是在 2016 年初公司决定使用算法将照片按照相关性来排列。好消息是因为 AML 已经完成了类似于 News Feed 动态信息流中的机器学习部分所以“他们不用从抓取数据开始做起“Candela 说“他们有一两个熟悉机器学习的工程师负责联系其他运作排序类应用的团队所以他们可以直接复制那些团队的工作流程出现问题的时候也可以去询问他们。”于是Instagram 在几个月内就完成了这个划时代的转变。
AML 团队总是在找寻机会将神经网络的强大功能融入不同的团队帮助他们在 Facebook 层面创造独特的产品功能。AML 知觉团队主工程师 Tommer Leyvand 说“我们正在使用机器学习技术构建自己的核心竞争力满足用户的需求。”FYI他也是从微软跳槽来的
Facebook 技术产品经理 Rita Aquino雷锋网注
最近新出的一个叫做“社交推荐”的功能也是一个很好的例子。大约一年前一个 AML 的工程师和 Facebook 分享团队的一个产品经理谈到了公司可以介入的一个场景当人们询问朋友有什么可以推荐的当地餐厅的时候。“那么 Facebook 可以怎样把推荐的信息展示给用户呢“Rita Aquino 说道。分享团队一开始使用词汇匹配的方式回应推荐指令。但是 Aquino 说“当每天有数十亿的推送时精确和升级的要求就不是必须的了。” 通过对神经网络的训练和使用真实数据对模型的测试他们已经可以探查非常细微的语言区别准确地探查到哪个用户正在询问某地区内的餐厅或商场进而触发一个指令将相关的链接展示在用户的 News Feed 上。接着当某人提供了一个推荐时机器学习会在用户的 News Feed 上显示出餐厅或商场的地理位置。
Aquino 说她在 Facebook 的一年半时间里见证了人工智能从产品中的边缘成分变成了产品概念产生的来源。她说“人们期望与他们交互的产品能够更加智能。而团队在创造产品的时候并不需要成为一个机器学习专家。” 在处理自然语言的例子中AML 建立了个一个叫做 “Deep Text” 的系统让其他团队可以轻松访问用机器学习辅助 Facebook 每日使用超过40亿次的翻译功能的实现。
对于图像和视频AML 团队建立了一个叫做“Lumos”的机器学习视觉平台。平台起初是由 Manohar Paluri 创建的后来 FAIR 的一个实习生在此基础上设计了一个大型机器学习视觉系统他称之为 Facebook 的“视觉皮质”一种处理和理解 Facebook 上所有图像和视频的方法。在2014年的编程马拉松上Paluri 和同事 Nikhil Johir 在一天半时间里创建了一个产品原型并向扎克伯格和 Facebook 首席运营官 Sheryl Sandberg 展示了结果。在Candela 开始组建 AML 团队的时候Paluri 也加入进来他同时在 AML 和FAIR 任职领导计算机视觉团队完善 Lumos 平台帮助 Facebook 的工程师包括 Instagram、Messenger、WhatsApp 和 Oculus使用视觉处理方法。Paluri 说“在 Lumos 上公司里的每个人都可以使用神经网络的各种功能来构建自己的模型方案。这样除了 AML 团队公司内的其他人都可以修正、训练、推动系统的发展。“
Paluri 给我做了一个快速展示。他在笔记本上启动 Lumos做了一个简单的任务改进了神经网络识别直升机图像的能力。屏幕上出现了一个大概有5000个直升机形象的页面其中也有一些不是直升机一个是玩具直升机、一些是从直升机视角拍摄的天空这些数据是 Facebook 从用户发布的照片中收集来的。即使我完全不是一个工程师更不懂人工智能但是也可以简单地点击负面样本来训练图像分类器分辨直升机。最终这个分类步骤所谓的有监督学习会完全自动化利用机器学习方法神经网络会自动探索图像中的物体实现“无监督学习”。Paluri 说 Facebook 正在为此努力“我们的目标是明年将人工注释减少到百分之一。”
长期来看Facebook 会将“视觉皮质”融入进自然语言平台上帮助 Candela 所谓的内容理解引擎进行一般化扩展。Paluri 说“毫无疑问我们会将他们结合在一起也许就叫做……大脑皮质。”
Facebook 的最终目标是将机器学习的核心原理通过发表论文等方式扩展到甚至是公司之外的领域。Mehanna 说“大家不用在花费大量时间创建智能应用我们可以进展得更快。想象一下它的影响可以涉及到医药安全交通等各个领域。我认为这些领域的应用开发速度会有百倍增长。”
Facebook 计算机视觉应用团队主管 Manohar PaluriStephen Lam 拍摄于门洛帕克市 Facebook 大楼2017年2月6日
尽管 AML 机器学习应用在帮助 Facebook 的产品进行观察、理解甚至对话的过程中发挥了重大作用但是扎克伯格认为机器学习的应用还会在 Facebook 的良好社交方面起到重要作用。在他 5700 字的构建社交社区的声明中7次提到了“人工智能”阐释机器学习和其他技术能够如何帮助 Facebook 保持社区安全和消息灵通。
实现这些目标并不是易事这也是 Candela 起初在任职问题上犹豫的原因。甚至机器学习也不能解决所有关于数十亿人之间沟通信息的问题。也正是因为这样Facebook 不断研究算法确定在 News Feed 上要为用户展示怎样的内容。Candela 认为目前还未解决的最大问题是当你不确定内容时你要如何训练系统提供最优结果他说“我们提供随机消息流就意味着浪费了用户的时间我们只提供一个朋友的信息流则赢者通吃。连续不断的讨论只会得到一个结论这两个极端情况都不是最佳选择。我们正在探索一个平衡。“ Facebook 试图利用人工智能来解决这个问题。人工智能也成为了公司解决任何问题都不可或缺的工具。”我们在机器学习和人工智能方面有很多实质性研究试图优化这种平衡。“ Candela说道语气中充满希望。
自然而然地当 Facebook 变成传播假新闻的罪人时它便召集了AI 团队迅速删除了界面上所有假消息。这是一次不同寻常的全体努力甚至包括 FAIR 团队LeCun 认为它可以作为“咨询顾问“。结果是FAIR 团队创造出一个解决问题的工具一个叫做World2Vec”的模型Vec 指代矢量 Vector该模型在神经网络中加入了记忆能力帮助 Facebook 标记信息的构成比如信息来源、谁分享了该信息。这里可能会有些混淆谷歌有一个发明叫做 W ord2Vec。通过这个信息Facebook 可以理解信息分享模式描述虚假新闻的特征之后可能会使用机器学习策略剔除掉虚假消息。LeCun 说“我们最终发现识别假新闻与找到人们最喜爱页面的工作并没有什么不同。“
Candela 团队之前建立的平台让 Facebook 推出数据检查类产品的速度比以往都快。虽然他们的表现达到什么程度还有待检验但是 Candela 说过不了多久就能看到 Facebook 用算法判断来减少假消息的效果有多好了。然而不论这种新方法是否奏效困境本身对算法是否能解决问题提出了质疑——即使机器学习解决了一个问题但是可能会无意中产生不好的结果。Candela 反驳了这种质疑“我认为我们会让世界变得更好。”他对我讲了一个故事在我采访的前一天Candela 给 Facebook 上一个用户打了电话那个人是他一个朋友的父亲他们有过一面之缘。他看到这个人在 Facebook 上发表了一些支持川普的言论觉得有些疑问。Candela 意识到他的工作就是基于数据做出决策而他好像遗漏了一些重要信息所以他给这个人发了消息约谈他们最终在电话里进行了对话。Candela 说“这次经历没有改变我的生活但是却让我从一个非常不同的角度观察事物。如果没有 Facebook这一切也不会发生。“ 换句话说尽管人工智能非常重要对 Facebook 不可或缺但是这也不是唯一的答案。“问题在于人工智能仍处于婴儿时期我们的工作才刚刚开始。”Candela说。
本文作者何忞 本文转自雷锋网禁止二次转载原文链接