计算机视觉研究院专栏
作者:Edison_G
在中国科学技术协会、中国科学院、中国工程院、浙江省人民政府、杭州市人民政府、浙江省人工智能发展专家委员会指导下,由中国人工智能学会、杭州市余杭区人民政府主办,浙江杭州未来科技城管理委员会承办的2020全球人工智能技术大会在“数字之都”——杭州,成功举办。在25日举办的大会主旨报告环节,中国人工智能学会理事长、国务院参事、中国工程院院士、清华大学信息学院院长戴琼海为我们带来了题为“人工智能的几点思考”的精彩演讲。
戴琼海
中国人工智能学会理事长、国务院参事
中国工程院院士、清华大学信息学院院长
我想和大家谈谈我对人工智能的几点思考,包括一些值得商榷的问题。从几千年前的原始社会,人们依靠石器工具来劳动;到农耕时期人们所使用的工具有所升级;到工业革命出现的蒸汽机进一步提升了生产力;电气革命更是极大提升了人类的生产效率;而今信息时代电子计算机的诞生延伸了我们的脑力,拓宽了我们的眼界和思想。马克思说过,“各种经济时代的区别,不在于生产什么,而在于怎样生产,用什么劳动资料生产。劳动资料更能显示一个社会生产时代的具有决定意义的特征。”
信息时代出现了互联网络、电子计算机、通信网络、空间技术、生物工程和原子能技术等一系列具有代表性的发明和创造,尤其是互联网络和电子计算机的诞生,拓展了人类自身和人与人之间交互的边界。
现在人工智能时代到来了,出现了深度神经网络和许多具有代表性的产业英雄,比如Elon Musk,也出现了无人系统、纳米科技、量子计算、物联网等新科技和新产品,人们的工作、生活都发生了翻天覆地的变革。
跨学科交叉是人工智能时代的典型标志,比如潘云鹤院士提及的认知视觉和认知表达,都是典型的跨学科研究。人工智能技术海纳百川,比如计算机视觉、自然语言理解、机器人和逻辑推理等,且在医疗、电子、金融等行业都发挥了巨大作用。下面我将从三个层面浅析一下人工智能时代的几个问题:第一个是算力;第二个是算法;第三个是人与AI 怎样相处?
首先,是算力。1956 年Rosenblatt 的感知机只包含了512 个计算单元就能做数据分类。但人工智能发展过程中一直受到算力的困扰,直到GordonMoore 提出了集成电路芯片上所集成的晶体管数量每18 个月翻一番,为后来的几十年芯片技术的发展指明了方向。1999 年,NVIDIA 发布了GPU 进行并行的数据处理,使得人工智能向更加广阔的领域发展。2012 年,Alex 使用AlexNet 进行GPU加速,开启了深度网络应用的先河。接下来就是众所周知的谷歌AlphaGo,拥有5000 个GPU,训练40 天,就可以打遍天下无敌手,说明并行计算、专用芯片对人工智能具有重要的推动作用。
我们再看看现有技术的发展。流媒体视频占全球互联网下行流量的58%,2019 年8 月国内互联网的终端数已经突破了20 亿,这些数据都需要巨大的算力支撑。现在智能医疗、智能制造、无人驾驶,追求的更小、更快、更加智能。所以人工智能蓬勃发展对算力的需求超过了别的方面,成为人工智能一个重要支撑。
但是算力的提升速度已经不再遵循摩尔定律了。从第一台计算机出现到后来的几十年,芯片算力基本符合摩尔定律。但随着时间的推移,芯片上晶体管的密度增长已经不再遵循摩尔定律,反过来说就是芯片算力的增长速度已经无法满足人工智能技术的发展需要。于是国际科技巨头都开始发力,比如谷歌的TPU 和中国的地平线、寒武纪都是将设计神经网络专用芯片来提升算力。但这些芯片都是专用的,无法满足通用人工智能的发展需要。
我以前常说,理学思维,工科实践。物理要求什么?比如量子力学、量子计算。众所周知,英特尔、谷歌在处理特定任务时,发现量子计算速度远高于现在的计算机。随着有效量子比特的数量不断增加,他们希望(尤其谷歌)在量子计算领域成为霸主。但现实是经过物理学家们的分析,其中许多问题尚未解决,比如如何长时间保持足够的量子比特的相干性,这是一个重要问题;同时在这个时间内做出足够的超高精度量子的逻辑计算也是一个难题。因此,在未来的一段时间里要想完全用量子计算提升算力,是完全实现不了的。于是,人们提出了存算一体的架构,希望突破存储墙的限制,提升它的算力。这就是为什么我说人工智能时代走入了交叉时代,除了向物理要算力,还要向脑科学要算力,比如类脑计划,希望通过模拟脑科学里的机理提升算力;不仅如此,还要向物理的边界、光电计算要算力;同样还有也要向存算一体、光电+ 要算力。
下面将介绍从光电计算要算力。这位普林斯顿大学的教授做过一个理论分析,进行神经网络计算的构架,从理论上推算,它能提升三个数量级的算力,同时功耗也能降低6 个数量级。功耗现在也是提升算力要考虑的一个重要问题。光电计算能够给这方面带来巨大的福利,使得算力提升三个数量级,功耗还能下降6 个数量级。目前这方面的研究工作已经起步。光电计算并不是一个新东西,它和人工智能一样,也是20 世纪50 年代诞生的。只是计算的计算机半导体、硅基的芯片就已经满足需求,所以研究者就渐渐减少了在这方面的研究。尤其是在1990 年贝尔实验室用砷化钾做了一个光学开关来控制计算机的原型,由于当时对算力的需求较小,所以芯片就可以解决。而现在随着人工智能对芯片的极致要求,从2017—2019 年,很多机构都对光电计算的研究做出了重要贡献,比如三维受控的衍射的传播时间,以及全并行的光速计算。通过研究能够很快识别一个文字,因为光是不需要电的,所以这种光计算不需要耗电就可以做到以可控高维的光场传播,从而实现高速高效并行的计算。因此构建光电计算的架构,成为现在解决算力的一个重要研究方向。
光学作为新的计算途径,它带来的最重要的变革,一是范式变革;二是算力提升;三是功耗下降。正因其诸多优点使得国内外很多研究机构都开展了相关研究。目前国际上做出的贡献有三个,麻省理工做的干涉神经网络架构非常不错;明斯特大学和剑桥是留相片材料,做脉冲的架构;清华大学是用衍射神经网络做架构。三种不同的方案都各有优势,也各有不足。因此,在未来算力平衡上可以做出一番成绩。大家可以试想一下,光电计算的算力能提供3 个数量级,我们超小型的智能5G、智能机器人、微型的修理机器人,尤其是我们现在研究的自动驾驶,光电智能驾驶会推动这个方面的发展。所以,光电计算使无人系统更快、更小、更智能。目前这个方向也引起了国际学术界和工业界的广泛兴趣,已经有很多机构在这方面开展研究,也希望大家关注这个方向。
光电智能芯片最重要的特点是什么?是它们对庞大的计算中心小型化。我们现在的计算中心都要消耗很大的电能,如果使用光电计算就能节省许多电能。第二,纳秒级目标感知与识别。纳秒级的感知目标与识别非常快,现在使用相机拍摄,要转成电,然后再计算。试想如若它是直接光进到相机就计算了,那么速度就变得非常快。因此光电智能芯片对新基建里的工业互联网、计算机视觉、大数据分析和光通讯都有重要的支撑作用。这是对算力的一个探讨、一个思路,也请大家多多批评。
第二是算法。因为人工智能最重要的是算法,所以研究学者普遍都在研究算法。那么这些算法怎么来?现有人工智能仅实现了简单的初级视觉感知功能。就像刚才潘院士提到,有很多无人区的工作有待解决。在初级视觉感知信息处理与高级认知智能过程中,性能远不如人脑,人脑具有物理学习和数据的抽象能力。有些学者认为深度学习存在极大的危机,BP 算法有很大局限性,需要推倒重来,需要再次从大脑的认知机理模型中寻找灵感。从右图可以看到困难的问题是易解的,往往简单的问题是难解的。Hinton 的demo 说明深度网络现在有危机,因此必须借鉴神经系统的多模数据表示、变换和学习规律及反馈方式,认知计算就将推动人工智能的变革。大家一直在探讨人工智能最重要的问题是什么?现在如何实现高效?现在深度网络是不可解释的,那么如何做可解释的?现在不鲁棒,如何做到鲁棒?
新一代认知智能作为现在算法上国际上最重要的结合点。众所周知,1969 年BP 算法的雏形是从控制里面来的,是从最优控制理论中产生、采集的。直到1989 年卷积神经网络诞生。认知和神经科学家首次将BP 算法引入到多重神经网络,构建了认知计算模型。再到2015 年的计算模型。由此可以看出BP 算法是深度学习使用最为广泛的,但是它仍存在很多问题。
从1958 年开始研究的启发卷积神经网络来看,1981 年的诺贝尔奖得主发现人的视觉是分层的,有高层的视觉分层,也发现视觉系统卷积的特性。于是1980 年日本学者提到简单复杂的细胞概念,提出了新的认知机理。David Marr 认为,人对视觉信息的表征和处理的计算研究得出了一个重要的结论,视觉和感知效应的关系。2007年Tomaso Poggio 提出了H-MAX 模型。2012 年Alex 的贡献开启了人工智能的黄金时代,得到了广泛的应用。这也是我们算法的历史由来。通过历史分析,就能预测未来。
通过展示的内容大家可以看到大部分都是什么?是关于脑科学家神经的分析,通过神经的分析就是启发类脑计算。上面部分都是整个神经方面的分析,下面部分是希望能够实现一种类脑的想法,从脑科学能不能到人工智能做类脑方面的研究。最近几家机构的研究都取得了突破,一是2019 年报道的施路平教授;一是2020 年报道的已经起到了重大作用的吴华强研究类脑的存储一体的芯片。因此,中国在这方面的研究应该在国际上处于并跑的阶段。上面展示的脑的结果,是我们进行了大量调研的,神经元的激活状态,包括猫的视觉感受、脑机体的神经节。
关于人工智能理论的推算我们做了一个对应和比较,即如何利用脑机器启发人工智能新理论,实际上是作为新一代人工智能发展的一个重要途径。我们把它们进行类比、对照,说明什么?很多人工智能专家都借鉴了脑科学的一些机理来响应人工智能应该怎么往前走?这个算法应该怎么解决?怎么具体解决?
成年人的大脑细胞有860~1000 亿神经元,而我们电信号在发生作用时会感到整个功耗非常低,就在10~23 瓦之间。如果你在刻苦完成一件事情时,你的最大功耗也在25 瓦以内;如果你迷迷糊糊时,功耗最低才10 瓦左右。所以功耗都很小,但人工智能计算机的功耗是非常大的。
刚才刘市长和我谈到,在杭州还要建一个大的计算中心,这时的功耗应该大了很多。那么怎样能够提供?从认知科学角度来讨论这个问题,于是我们画了这样一座大桥。如图所示,认知计算是沟通脑科学和人工智能的桥梁。为什么?我们首先回过头来问,认知科学做什么?认知科学一个是多模态的回路观测,要观测脑科学里的东西。
第二是多层次的认知模型,包括潘院士说的视觉、听觉、语言,还有触觉,这些是多层次的认知模型和脑科学的信息,在这里观测,通过建立模型形成的是认知科学。我们认为,从脑科学通过认知科学的研究到达人工智能,这就是走另外一条途径,叫做从脑科学到人工智能,这即是我们所说的未来希望的一条道路,也是研究人工智能新算法的一条道路。
接下来我们回过头再来看看国际上的一些经典贡献。左边是脑科学整个的贡献,这里的贡献主要讲的是什么?人类如何思考。右边都是图灵奖,最重要的结论是,贡献都是什么?机器如何思考?中间应该有一道桥梁,将它们建立关系并连接。所以我们希望认知科学就是这道桥梁。
2016 年美国启动了1 亿美金的阿波罗项目,其记录并测量了10 万个神经元的活动与连接。这里最右边的图上方是计算神经元的模型,下方是计算机器学习模型。这两个模型能否通过脑数据建立一个分析?这就是成像。通过研究大脑计算范式,构建认知计算新模型与新方法,从而建立从人的思维到机器思维的桥梁,是启发新的人工智能理论与算法的重要途径。这是清华大学构建的一个方案,但这个方案也不一定成熟,只供大家参考。
右下图展示的是生物机制的记忆环路,我们有外部环境、脑皮层和海马体。左下图是物理平衡原理,所以我们期待构建一个BMP 的网络算法,就脑科学、数学和物理结合起来的一个网络模型。上方是我们构建的新型网络模型的一个通用的框架。
在算法问题上,我们还在进一步研究,也希望为各位专家提供一个方案。所以人工智能算法能不能从知识驱动到脑科学,但数据驱动那边是什么?是大场景、多对象的一个很大的数据库,构建的什么?三驾马车能不能做认知驱动,这是我们构建的一个新算法,一个框架的架构。这是算法层面的思考,希望大家批评指正。
第三,人和AI 怎样共处。众所周知,AI 赋能人类,而不是成为人类,更不是取代人类。50年前图灵就说过,人工智能的发展不是把人变为机器,也不是把机器变成人,而是“研究、开发用于模拟、延伸和扩展人类智慧能力的理论、方法、技术及应用系统,从而解决复杂问题的技术科学并服务于人类”。因此,人工智能与人类和谐发展,需要考虑人工智能与人类之间协同安全、隐私和公平的问题。
最终实现以人为本、服务于人的目标。我们目前有个课题项目是孙富春老师和吴飞老师在负责。我们在做什么?未来的人工智能安全教育和它与人类的合作的调研,调研完成后准备和美国人工智能学会、欧洲人工智能学会讨论人类命运共同体的话题。
这里以人为本、服务于人类的这4 个问题是我们最重要的、要探索也回避不了的问题,分别是伦理、隐私、协同和安全。人和人类怎么去合作?人和机器AI 要有交互,人和自然界也要交互。极限交互是什么意思?在危险的场景,我们希望通过AI 和AI 交互,AI 和场景交互,人类和AI 交互,即我们看不见的、看不清的、听不见的、触摸不到的,我们称之极限交互。AI 交互实现颠覆性用户体验,提高人类认知和改造世界的能力。这就是说极限交互的特点。
在交互中,最重要的什么?AI 的外在形态,是AI 专用接口,现在有很多汽车、多途机器人、人形机器人,包括微软小冰等,还有手术机器人、空中机器人,还有手机、电脑等AI 的通用接口,包括我们现在看到的虚拟主播、自动客服,因此下面要讨论的是我们和AI 怎么交互,比如通过虚拟现实这样的一个接口来进行交互。如图所示,虚拟/ 增强现实、自然交互技术,这就是未来信息获取与交互的一种方式,它能拓展人类的能力,改变产品形态和服务模式,也能推动认知、智能与文化艺术的变革,促进未来人-AI- 物融合社会的发展。这即是我们所说的一个特征。
我们现在开会都线上开展,很多机构都在开发线上虚拟线下,如《王牌特工》中所展示的。这时就相当于一种极限环境。我们开的线上会议就和线下会议一样。我想这样的一套系统,2020年年底可能就有望见到。所以,这即是我们所说的沉浸式AI 交互。我们调研了今年中小学、大学的课程基本上都是线上上课。通过上课质量对比,北京的几个学校的教学质量都是有所下降的。我们只是采用了这种形式,但是这种形式并没有带来更好的教学效果。
即使如此,以后要改变这种教学效果,我想会带来更好的用户体验。很多高校和企业都做了相关类型的研究,比如微软108 个相机的立体建模、Facebook 做的立体建模,以及谷歌、清华建的。清华现在一个相机也在做深度建模的形式,建完一个人的模型后,就能把它放到任何地方,这样虚拟线下就可以实现了。
大家可以看到,这样就可以实现全息智能教学。比如智能精准的推荐、线上泛在接入、真人的全息授课、沉浸交互课件。根据今年的AI 研究发展,AR 眼镜最轻可以达到50 克,此前AR 眼镜很重,所以发展不起来。但我觉得未来眼镜也是一个重要趋势,虚拟线下的一个重要区域。未来AI 驱动的混合现实,赋能教学、生产、设计和交流,包括工业设计都可以在此开展,这是未来AI 交互的一种重要的工具,也是人和AI 之间交互的一个重要的途径。
未来已来,我记得好像李院士5 年前作报告,就说未来已来,即让我们着急起来,未来实际上脑机接口、人机融合、人机“共生永存”,包括意识存储的概念,能不能永远存在机器人身上或者存储到一个地方。所以这都是未来发生的事,现在脑机接口发展非常快,我们经常说的脑疾病,比如阿尔茨海默症、癫痫病。如果找到了这样的病理特征时,我们有两种再生方法。如果知道神经元的种类,可以用其他的神经元修复这种生物的修复方法,把这些神经元修复好;还有一种用我们超材料代替这些神经元的活跃程度。如果能做得不错,脑子就能够保持高度清晰,人类寿命延长50 年是一个很正常的事情。
智能驱动未来,我们有更聪明的“大脑”、更灵巧的“手”、更明亮的“眼睛”、更灵敏的“耳朵”。智能光电芯片、知识驱动、数据驱动、认知驱动,这是智能驱动的一个大的未来。从这里可以看出,人工智能逐渐达到人类水平。从时间表2016 年开始,一直规划到2066 年,所有人类的任务都取代了,机器AI 都能够把它完成。当然这是我们的愿景,这个愿景是带有预测性质的,也带有一定的基础讨论。
我们说要做认知智能。什么叫做认知智能?以前有过图灵测试,你做的算法需要测试,那测试要求有没有?因此我们从图灵测试开始,主要测试某个机器是否能表现出与人等价或无法区分的智能。当时是模仿游戏,因此我在最后的部分也讲一讲测试。
图灵的测试一直在不断发展。可以看到从1950 年提出图灵测试,1986 年早期自然语言处理计算机也在期待测试。一直到2014 年,郭院士的“Eugene Goostman”程序首次“通过”了图灵测试。2015 年人工智能终于能像人类一样学习,并通过了图灵测试。但是这些测试情况怎么样?有什么有待改进的地方?下面这几位专门研究图灵测试的专家,测试机器常识推理的能力,测试神经网络抽象推理的能力,还有针对通用人工智能(AGI)测试,比如家庭健康护理(ECW)的能力,这些都是人工智能测试的新模式,且层出不穷。因此图灵测试也是我们人工智能发展的一个重要方向。
图灵测试中认知测试是什么?我们要去考虑这件事,也希望在座的大家能够考虑,关注什么?认知测试和功能识别、认知决策和逻辑推理这几个方面的问题,也是目前大家要研究的重要问题。
下面又回过头来,知识驱动、脑科学、数据驱动上面是认知驱动。那么新一代人工智能算法能不能做出来?什么叫做出来?能不能有认知测试?这就是我们所说的一个重要的目标课题,也是我们对人工智能发展的一些思考。
人工智能实际上产业变革的历史进程发展非常快。信息时代随着现在数字经济,也就是人工智能时代的到来。这里可以看到许多美国典型的人工智能企业,当然还有中国的企业,包括字节跳动、地平线等,还有一些欧洲的企业,所以人工智能已经成为推动全球经济发展的核心驱动力。人工智能也是新基建,已上升为国家战略非常重要。前几年潘院士倡导的人工智能2.0 得到了国家的高度重视。2020 年我国人工智能市场的规模增速远超全球市场规模的增速水平。这是我们整个调查的结果,已用于智能安防、医疗、金融和教育等领域,比如我们余杭区的智能医疗小镇。新基建是一项非常重要的大工作,刚才高省长、刘市长说到的都在这里面有所体现。
2019 年发表在Nature 上的一篇文章关注中国在人工智能领域的领先发展。我们实验室十几位老师和学生调研了近10 年浙江省颁布了44 例人工智能相关的政策。浙江看杭州,杭州就看余杭。所以杭州打造AI 有无限的想象、无限的空间,也感谢杭州未来城对我们全球人工智能技术大会的支持。
最后总结一下,实际上今天和大家分享了三个方面的话题。第一个话题就是共处,更高的工作效率、生活质量和安全保障,极限环境下交互,什么叫极限环境?比如开现场会议,我们地理位置相隔甚远,但我希望我们面对面交流,这就是一个极限;第二个是算法,更逼近本源的认知计算理论与方法,这是我们所说的重要的一个议题;第三个是算力,数量级性能提升的新型计算范式与芯片架构,这是最重要的。我希望未来能够发展人工智能这三个方面的问题,包括多维度、多角度和深层次的认知测试。
E N D
计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!