导读: 在线社交媒体平台的发展,带来了细粒度检索、视频语义摘要等媒体智能服务的巨大需求。现有的视频理解技术缺乏深入的语义线索,结合视频中人物的社交关系才能更完整、准确地理解剧情,从而提升用户体验,支撑智能应用。这里主要介绍我们将动态分析和图机器学习相结合,围绕视频中的人物社交关系网络所开展的两个最新的工作。主要内容包括:
- 问题背景
- 关系图生成
- 关系图应用
- 未来展望
--
01 问题背景 ** 1. 现有视频理解技术缺乏深入语义线索**现有的视频理解技术更多地着眼于描述画面里人物的行为、动作、身份,很少关注更深层的语义信息。例如上图中让子弹飞的例子,现有算法理解的是“两个人坐在一起,一个人表情愤怒,另一个人表情开心”,但由于缺乏深入的语义线索,不能解释这两个人为什么表情各异地坐在一起,对剧情的理解其实就不完整,不准确。在视频理解当中,除了浅层的“所得即所见”之外,还需要更多深层的“所得不可见”的语义挖掘。在多种多样的语义线索中间,人物社交关系是最核心的线索。
2. 视频人物社交关系相关研究在2015年前后就已经有了图像社交关系识别的研究,其中经典的工作包括PIPA(Zhang et al. 2015)、PISC(Li et al. 2017),主要解决的问题是在静态图片上理解图片中两个人物之间的关系。但由于静态图片本身包含的信息量较少,无法描绘完整的动作和互动行为。到2018年-2019年,社交关系识别任务逐渐推广到了视频,产生了MovieGraphs、ViSR等广为人知的数据集。相比于图片来说,视频包含时序信息、人物完整的动作等,信息更加丰富,建模工作相对来说也更加充实。接下来介绍两篇相关的工作。
CVPR 2019的一个工作提出了MSTR框架,通过整合视频中的时间域和空间域的信息,来帮助我们理解人物之间的关系。具体来说,如模型框架图中间部分所示,MSTR采用了三个图结构,分别是针对同一个人的 Intra Graph、人物之间的Inter Graph、描述人和物之间交互的 Triple Graph。在这三张图的基础上,分别采用了TSN和GCN来描述时间和空间上的信息,最后把时间域和空间域两个向量拼接起来,作为关系分类的一个特征。
MSTR在一些数据集上取得了很好的效果,但这个框架重点是描述人物之间的互动行为,与社交关系存在一定的差异。例如对视,微笑到拥抱这样一组互动行为,既可能发生在情侣之间,也可能发生在好朋友之间。这时互动行为会对人物关系产生一些干扰。
针对上面的问题,我们在去年有一个相关工作,尝试增加视频中的文本信息,包括台词、实时弹幕,强化对人物关系的判断。文中采用多通道特征提取网络的框架,融合某一帧画面以及对应的文本信息,得到融合后的向量表征,实现关系分类任务。
通过多模态的信息引入,相比于单模态的方法,效果有明显提升。另外,在之前MSTR的工作中,要预测两个人物之间的关系,要求这两个人必须同时出现,才能得到他们之间的互动行为。但在我们的工作中,即使两个人没有同时出现,通过人物对话中对关系的描述,可以间接得到人物关系。
上面工作的局限性在于,没有充分利用人物之间社交关系的传递性。如果站在全局视角,获得完整的社交关系图,能更充分地发挥社交关系相互佐证的作用。下面重点分享下如何生成社交关系图。
--
02 关系图生成我们提出了层次累积的图卷积网络,一方面整合了短期的视觉、文本、听觉等线索,另一方面,通过两个层次的图卷积网络,生成全局的社交关系图。其中包含三个模块:
- **帧级别图卷积网络
- 多通道时序累积
- 片段级图卷积网络**
帧级别图卷积网络模块的核心目的是生成帧级别的关系子图,描述当前帧中人物社交关系。为了解决单帧信息量较少的问题,除了融合多模态信息之外,这里还加入了特殊类型的节点。例如上图红框中标出来的部分,每一张graph对应一个帧级别的子图。C开头的是单个人物的节点,基于人物检测或人物重识别的技术来识别。P节点是表示人物pair对的节点,G节点描述背景信息,T节点表示当前帧前后几十秒的文本信息。利用图卷积网络信息传递的特点整合这些信息,强化人物节点的表征。
** 2. 多通道时序累积**多通道时序累积模块的目的是表达帧和帧之间人物关系的动态变化。这里使用了两个LSTM,第一个LSTM用在C类型节点(人物外观姿态的变化),第二个LSTM用于P类型节点(人物之间交互行为的变化),用于捕捉单个人物以及人物之间交互的变化。
3. 片段级图卷积网络片段集图卷积网络模块的目的是整合帧级别的子图,得到片段级的人物关系图。片段级别中包含的信息量比较丰富。有人物、人物之间完整的动作行为、一个完整的小情节,有相对完整的对话信息,不需要太多的辅助信息。因此在上图红框中标出来的子图里,只包含了C和P两个类型的节点。另外,这里额外把片段中的对话音频信息也加入进来,对应图中最右的蓝色框,此时特征向量中已经包含了视频、音频、文本的信息。
4. 模型训练方式整个模型的训练基于弱监督学习的方式来实现。对标注者而言,逐帧标注人物之间的关系是几乎不可能完成的任务。这里能够获得的label只有片段级的人物关系,直接用于训练帧级别的网络存在一定的噪声,这里通过设计弱监督的损失函数来解决这个问题,只围绕片段级的图卷积网络来做训练。
5. 实验结果我们在两个数据集上进行了验证:公开数据集ViSR,还有自己构造的bilibili数据集。在两个数据集上都取得了不错的效果,由于bilibili数据包含了弹幕,文本信息更加丰富,效果也更加优越。模型中有两个有趣的发现:
- 敌对关系比友好关系更难识别。由于敌对关系之间的互动较少,能够捕捉到的线索较少。
- 部分友好关系存在混淆。例如亲属、朋友之间体现的互动和传递作用中较为类似。
第一个片段例子表明,片段中涉及的人物越多,我们的模型优势越大。因为此时片段子图规模更大,更稠密,社交关系相互印证的作用更明显。
第三个片段例子中,从视觉上看是敌对关系,但在故事后期两人发展成了情侣。也就是说随着剧情发展,人物之间的关系是不断变化的,这也启发了我们对于后续工作的灵感。
--
03 关系图应用 1. 视频人物社交关系图应用概览人物社交关系图可以有效提升用户体验,支撑语义的智能应用。
- 社交关系图本身可以帮助观众更好地理解剧情。
- 智能应用:剧情片段描述、剧情因果串联。例如在哈利波特第一部,斯内普对哈利看似十分不满,但在关键时刻又总是帮助他,令人费解。有了完整的人物关系图之后,就能更好地解释这些剧情。
基于社交关系图的视频人物检索,即把视频中某一个人物出现的片段全部挖掘出来。区别于传统的人物检索任务,视频人物出现的场景没有特定场景限制,角度、衣着、行为一直在变化,传统检索任务中常用的重识别类方法很难获得好的效果。此时可以利用社交关系对候选集进行筛选,实现更准确的人物识别。
基于上述思路,我们提出了一种基于社交感知的多模态人物检索方法。模型的主要目的是为了对社交关系的作用进行一个初步验证,因此没有用复杂的结构,只用了基础的矩阵运算和SVM,后续也会考虑如何把GCN融入进来。
视频片段中间的人物框视作节点,节点之间的关系通过视觉信息+概率校准的SVM来做分类,得到类别标签及概率。
人物关系图作为先验知识融合到网络中,完善视觉相似度的局限性。
- 当两个人物没有正脸时,靠视觉信息很难分辨。通过社交关系,这两个人产生交互的对象完全不同,这时可以认为这两个人不是同一个人。
- 有时由于姿态、光线的变化,同一个人的两张图片视觉相似度较低,这时也可以通过社交关系加以强化。
实验结果表明,基于社交关系,通过简单的预训练+SVM-based关系判别就可以超过当下SOTA的纯视觉人物识别效果,证明了这个思路的可行性。尤其是在一些有大量遮挡的极端情况下,纯视觉的方法失效了,但通过社交好友关系可以帮助我们做判断。
--
04 未来展望“万物皆可图”,多模态内容概莫能外。动态化、语义化,是多模态+图的未来方向。
多模态与图相关技术的融合,例如视觉的分割与关联,把左边的图片转成右边这样的场景图结构。但这里主要描述的还是“所得及所见”的直接视觉关系,例如物体的位置关系、包含关系,以及人物的衣着行为等。
在上述描述关系的场景图的基础之上,目前已经可以实现对实体的关联,支撑更细粒度的理解和任务。如图所示,输入查询query “某一个人在打篮球的地方”。如果只使用实体匹配的技术,这里认为需要找的是人和篮球,会把“人抱着篮球在场边谈话”的场景也检索出来,如图中最下面的一个场景所示。如果用关系图来描述,前三个场景与最后一个场景得到的关系图会有很大差异,两个实体间的边类型不同。此时可以把检索问题转换成子图相似度匹配的任务,从而获得更加准确的检索结果。
目前的场景图中包含的主要是物体的位置关系、包含关系,以及人物的衣着行为等在画面中显而易见的关系。在未来,可以对场景图增加更多动态化、语义化的线索,支撑更丰富的下游应用。
本文首发于微信公众号“DataFunTalk”。