成功的人工智能应用实在是太多了,最好的人工智能应用就是隐形的服务 - 让我们意识不到背后有人工智能的服务。
最常用的就是搜索引擎了,被几十亿人使用,这是人工智能下面信息检索(Information Retrieval)的应用,
当然还有推荐系统,也是几十亿人使用:
分领域说一下成功的人工智能应用:
知识图谱:
知识图谱旨在描述真实世界中存在的各种实体或概念,是一系列结构化数据的处理方法。
比如利用谷歌知识图谱,Google Play Movies & TV应用中添加了一项功能,当用户使用安卓系统暂停播放视频时,视频旁边就会弹出屏幕上人物或者配乐的信息。
(用户可以点击人物的脸来查看相关信息)
语音识别:
语音识别就是语音转文字
最成功的就用在了微信里,被数亿人使用,
自然语言处理:
最典型的就是Amazon Echo和苹果的Siri,被亿万人使用。
IBM的沃森 赢得了问答节目《危险边缘》 (Jeopardy!)的冠军,引起了巨大轰动
(当然更重要的其实还有信息检索等技术)
翻译:
谷歌翻译被亿万人使用
还有微软推出的即时口译,简直一颗赛艇
图像识别:
Snapchat这些变脸功能,以及faceU的变脸功能
手机/相机中的人脸识别,方便我们调节光线等
深度学习用于图像识别领域,
图片搜索引擎,识图
连图片都懂
机器人:
当然最成功的是Boston Dynamics的Big Dog等机器人,每次都搞大新闻
计算机视觉:
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图像处理,用计算机处理成为更适合人眼观察或传送给仪器检测的图像。(所以图像识别是计算机视觉一个子集)增强现实领域(AR)大量应用计算机视觉,典型的就是微软的Hololens
如果Magic Leap能成功出货,也要算一个。
机器学习
机器学习的应用更是广,最简单的一个例子,比如将机器学习算法用于反垃圾邮件系统中
应用软件有:
01. Ostagram
基于Google DeepDream算法,把一张图的颜色过滤到另一张图上。
DeepDream基于卷积神经网络(Convolutional Neural Network)。
f(x,y)对应图像的像素点,w(x,y)是卷积核或者叫滤波器模板,卷积计算用以提取图片特征。至于是啥特征取决于卷积核的设计。
CNN分为卷积层(CONV),池化层(POOL)和全连接层(FC),RELU是一种激活函数。
Ostagram功能很强大,就是排队时间太长了,我国庆之前上传了两张图现在还在pending,不知道是不是因为图片内容太不适宜公开讨论了。
02. 腾讯万向优图
唐马儒职业生涯的劲敌,识别能力比绿坝娘好五倍。当然色情不色情有时不是一个单纯地视觉问题,所以判断上也难免会有偏差。
原理应该还是卷积神经网络,因为CNN特别适合于图像识别。其实这个“卷积”更符合图像处理里的“相关”操作,区别在于卷积核转不转180度,卷积转而相关不转,相关不是中国人。
03.搜狗快速分享
很多人没发现这个,其实这可能是我们在不知不觉中最常体验的人工智能应用了,快速分享指在用户聊天环境中智能推荐用户所需内容,方便其分享信息给对方。目前查到的资料显示它融合了大数据分析, w2v扩展,SVR,NER,MLP,RNN等人工智能能分类器及深度学习方法。其技术难点就是语义分析,能够判断用户需要什么内容,而语义分析的核心就是自然语言的处理技术,这也是整个人工智能技术最关键的一部分。
自然语言处理曾经分为两个流派,一派比较耿直,致力于真正让程序从语法角度理解,也就是首先把一句话分析出个主谓宾。这种方法固然比较彻底,但后来发现全世界所有文本资料加起来也不够训练模型的,而且差着好几个数量级。
另一派主张统计语言模型,即一段文本序列出现的概率是一系列条件概率的乘积。
比如当我一看到“苟”这个字就知道后面要出现什么,尽管我并不知道这句话是什么意思,计算机也是这么想的。快速分享智能唤起功能的原理应该类似,高频词会直接触发相关推荐,“火锅”推荐餐饮团购,当然也可能是《火锅英雄》的电影。
两句话、两篇文章、两个大新闻之间的相似性也是基于一系列概率计算之上。而语言不像图像容易转换为数字信号(像素通道),关键在于创建词向量,Google之前开源的word2vec就是计算这个的,江湖上从此流传一句话叫“厉害了word哥”。
w2v也是Google技术把深度学习引入NLP的关键一步。将文本参数化为向量,词汇之间的相似度也就是向量之间的夹角,计算原理大概就是余弦定理。
适用于文本分类的算法有很多,比如支持向量回归(SVR),名字里也有个向量但是跟词向量没什么关系,可能是因为词向量没有受到支持。
支持向量机的原理就是在高维空间中找一个超平面将不同类的元素尽可能分得远,就像小美放冰墙怎么才能把两波人分得更开。当然有时候开团之后,你中有我我中有你,一道墙分不开,就需要用到核函数(kernel)。
比如水平方向上人马厮杀在一处,这时狂鼠shift把对方炸上天,然后美妈横着放一道冰墙,就隔开了。
更加deep dark fantasy一点的比如循环神经网络,和普通ANN的区别在于隐藏层之间有连接。
即使多种方法结合也难以保证分类完美,比如输入“郭德纲”会得到一堆王自健和一个岳云鹏。不过还好,没有出来曹云金或者何伟。
04. 图森科技
自动驾驶技术领先,指明了老司机的未来发展方向。以后开车带逛是否也会由人工智能来实现?
尤其这个名字起的特别好,图就是图像识别,森就是simple。
05. 微软小冰
年满18岁之后在日本出道了,不知何日下海,几时解禁。看到“年满十八”四个字,我总觉得下面一行应该是“请按此”。
现在也有图像识别能力,估计还是卷积神经网络。
06.日本机器人女优
暂时未下海,不知道为什么坐着轮椅,可能因为毕竟还是弱人工智能,叫人给忽悠瘸了。
07. 声控情趣用品
根据呻吟声调整频率与力度,如果在“想叫不能叫”系列里面就不好使了,“公然露出”系列也会受到环境噪音影响。
也有男用的原理差不多,而且不光你叫,她也叫。
为什么只有男用的会叫,女用的不叫?我感觉这很不平权,电动棒应该也加入呻吟功能:“乖♂乖♂站♂好”
“♂啊?”
原理也不外乎语音识别与分类器,这方面最领先的是东京大学情报理工学系。除了通过Twitter内容推测竹达彩奈大姨妈周期,他们还开发了利用声音特征定位高潮片段的技术,以后看毛片时快进就有根据了。
虽然应用听起来很淫荡,但是这个的技术原理好像更简单。因为判断高潮的声音特征主要就是频率变化,而不需要计算相关性或理解语义(反正人类也理解不了r,o,o,m之间的区别),采集声音做频谱分析就行。
傅里叶变换其实本来不是分析声学的,而是用在传热学当中。由此可见万物相通,东京大学情报理工学系这么厉害,大概也是因为东京太热。
最近的微软识花做的不错。
以下是一些亲测的图片。像这种特征明显的,识别精度和可信度都很高。
这种特征不是很明显的。。
接下来的厉害咯。。。