图:2022 阿里云视觉计算私享会现场
5 月 11 日,在 “2022 阿里云视觉计算私享会” 上,AiTalk 创始人梁宇淇为大家带来了题为《仿人智能交互:镜像连接虚拟与现实的纽带》的主题分享。以下内容根据他的演讲整理而成。
现实生活,我们经常在机场、地铁站等公共场所见到一些实体机器人,也有很多比如小度、小冰、小爱等语音机器人。但这类机器人与人类的交互存在诸多障碍,往往沦为一种摆设。
数字人与上述各种机器人的本质是一样的,它是一种机器人的表现形式。然而数字人作为元宇宙的核心,依然缺乏实时的沟通和交流能力。
目前市面上主要存在几类数字人:
-
第一类:比如像柳夜熙、AYAYI 等通过传统的 CG 动画制作、偏虚拟偶像类的产品。制作方法需要团队有很强的创意策划能力,但它很难超越阿凡达以及阿凡达塑造的元宇宙世界,仅适用于电影娱乐。
-
第二类:由百度、商汤、相芯这类公司出品,基本采用统一的技术架构,采用云端渲染加推流的方式。但它的并发会受到很大限制,且很难适应终端的应用环境,比如弱网、无网或极端的嘈杂环境。此外,因为需要额外的 GPU 云服务器以及直播推流带宽,会额外增加很多成本。
-
第三类:小冰、小度类型的语音交互产品。单纯从算力角度来看,AI 已经远超人类。但是此类语音产品在与人进行交互时,始终无法顺畅、无障碍地与人对话。加多层神经网络、使用更优的深度学习模型,也依然无法解决语音产品与人交互时不符合人的日常习惯和逻辑的问题。
正是因为以上这几点,我们将研发重心放在了赋予数字人零障碍沟通和互动的能力上。很多客户对数字人的要求是:与人交流的时候能够做到 “对答如流”。
核心技术重点围绕以下几点展开:
1.STEP 算法
我们自主研发了 STEP 算法,它的原理非常简单,任何人表达的任何意图都可以放在特定的场景下,围绕若干话题,通过特定事项来达到期望的目的,它能够解决 AI 与人交互时的习惯和逻辑问题。
比如问 Siri 哪里可以喝咖啡,他会直接推送搜索结果。但正常人交流时的逻辑应该是:A 说想喝咖啡,B 可能会告诉他楼下有哪几家咖啡店,有哪些种类的咖啡。因此,step 算法重点就是解决逻辑问题。
2. 识别干扰
与语音产品进行交互时,如果屏幕前有多个用户,则不管用户是否在与 AI 对话或与朋友对话,它都会将声音收录进去,并做出回应,然而这并不符合正常生活习惯。因此,需要对多人对话进行识别和干扰排除。
目前我们已经能够实现当 AI 面前有多人对话,他能够判断当前用户是否在与自己对话,是否需要回应。
3. 对话打断
出现了听不懂的专有名词,或者对内容不感兴趣时,会打断对话。打断以后会考虑是否做恢复。
4. 无唤醒词
在与市面上大部分语音智能产品交互时,一般需要喊 “嘿 siri” 或按键以唤醒 AI。而在线下 4S 店、银行网点、公交站等地与 AI 交互时,用户往往无法记住所有 AI 的唤醒词,因此需要做无唤醒词的处理以方便用户使用。
解决了仿人交互的问题,让 A.I. 不再智障。我们还需要对人的形象数字化。不同于其他厂商 “云端 + 推流” 的技术架构,我们坚持采用客户端实时渲染处理,解决了延迟问题。对 CPU 的消耗不超过 10%,而且可以兼容 iOS9.0/android4.4,意味着七八年前 1000 元左右的安卓手机也可以运行此程序,可以不依赖网络。
采用云端分离的方式,好处在于,无论在哪里,都可以将它当成一个 “人”。沟通和交互时,不管是 3D 全息、智能交互屏,还是未来的脑机接口或在大脑皮层植入芯片,都可以营造面对面聊天的效果。
图像的处理、与人物之间的交互都放在端上处理;而云主要用于强化沟通和互动的能力,更多地用来做思考和推理,主要是数据处理和训练:就像人们要接受培训和教育,不断充电、完善自我。
AiTalk 对外输出主要有三类标准化产品:
-
第一类:仿人交互软件。它又分为两种:一种是 SDK,可以针对比如手机 App 或智能家居产品,完全标准化,且成本很低。比如手机 APP 的 license 授权可能只需低于 0.1 元;另一种是针对银行网点、4S 店、商超、公共场所等提供一整套软件,一般会搭载 XR 硬件。
-
第二类:XR 硬件。它具备多模态感知的能力,可以与它进行视觉层面、听觉层面的等多个层面的交互,而且它可以适用终端弱 / 无网和噪音的处理。
-
第三类:配套的应用服务,它能够处理交互过程,AI 与人交互的时候,不只是简单的聊天,而是能够帮助企业或用户完成相关的事务和流程。比如办工商注册,数字人会推送相关流程,并协助完成某些流程的办理,过程中还有 VR/AR 方面的应用,增强用户沉浸式的交互。
与其他友商相比,AiTalk 更加注重于仿人交互方面的探索,优势在于以下两个方面:
-
1. 客户端实时渲染。我们是唯一一家采用边缘计算的公司,不存在任何并发限制,而且没有延迟,可以让三四五六七八九线的用户零成本使用相关产品。模型精度可达 150 万面,成本降低 90% 以上。
-
2. 虚拟数字人沟通能力。沟通互动能力是数字人的灵魂,我们采用大量仿生技术,让虚拟数字人具备与人进行零障碍交流和互动的能力,不再智障。只有达到这一点,数字人 / AI 才能真正大规模进入商业化应用。
以上是我的全部分享,特别感谢阿里云的邀请以及长久以来合作伙伴的大力支持,谢谢大家。
点击这里,查看本次视觉计算私享会的回放视频。