CV内卷心理学家学会人脸识别,训练60

来源：GoogleAIBlog

编辑：LRS

机器学习又跨界发Nature啦！美国东北大学的研究员将研究成果发表在Nature上，探究世界各地人类的表情有什么不一样？结果相关率只有30%。

全球各地的人微笑或难过都是一个表情吗？

人们面部表情具有一致性似乎是合理的，举例来说，无论一个人是来自巴西、印度还是加拿大，他们看到亲密朋友时的微笑，或者看到烟花表演时的激动神情，看起来基本上是一样的。

但这真的合理吗？这些面部表情和跨越地域的相关背景之间的联系真的普遍吗？在不同文化背景下，人们的微笑或皱眉会告诉我们人们是如何相互联系的，这两种情况有什么相似或不同之处呢？

科学家们试图回答这些问题，并揭示人们在多大程度上跨越文化和地理，往往使用调查为基础的研究，但这种研究严重依赖当地语言、道德规范和价值观。并且这样的研究是不可扩展的，常常以小样本和不一致的结果告终。

与基于调查的研究相比，研究面部运动模式可以更直接地理解表达人类的行为。

但是，分析面部表情在日常生活中的实际使用需要研究人员通过数百万小时的真实世界的连续镜头，这项工作极为繁琐并且需要大量的人工工作。

此外，面部表情及其展现的背景是复杂的，需要大量的样本才能得出统计学上可靠的结论。

虽然现有的研究已经对特定情境下面部表情的普遍性问题产生了不同的答案，但是使用机器学习技术来扩展研究也许能提供不同的、更清晰的答案。

年在《Nature》上发表的Sixteenfacialexpressionsoccurinsimilarcontextsworldwide一文中，是第一次、大规模的、全球范围内的面部表情在日常生活中实际使用情况的分析研究，利用深层神经网络扩大表情分析。

论文中共使用来自个国家的万个公开视频数据集，分析了人们使用各种面部表情的背景，并证明了面部行为中丰富的细微差别，包括微妙的表情，在世界各地类似的社交场合中都有使用。

深度神经网络测量面部表情面部表情不是静态的。当一个人看另一个人的表情时，起初看起来可能是愤怒，但结果可能是敬畏、惊讶或是困惑，不同的表情解释取决于一个人的面部表情所呈现的动态效果。

因此，建立一个神经网络来理解面部表情的挑战在于，它必须在其时间上下文(temporalcontext)中解释这种表情。训练这样一个系统需要一个大型的、多样化和跨文化的视频数据集，同时还需要充分解释的表情含义。

为了建立数据集，标注人员手动搜索广泛的公开视频集，以确定那些可能包含涵盖我们预先选择的表情类别。

为了确保视频与它们所代表的区域相匹配，在视频选择中优先选择那些包含原始地理位置的视频。

视频中的人脸是通过一个类似于谷歌云端人脸检测API的深度卷积神经网络识别系统发现的，该系统使用一种基于传统光流（opticalflow）的方法在视频剪辑过程中跟踪人脸。

使用一个类似于Google众包平台的界面，如果在剪辑过程中的任何一点出现了面部表情，那么注释者就会在28个不同的类别中标记它们。

因为目标是取样一个普通人如何理解一个表情，所以标注人员没有得到指导或培训，也没有提供示例表情或是标注的定义。

文中讨论额外的实验来评估从这些注释中训练出来的模型是否有偏差。

人脸检测算法在整个视频中建立了每个人脸的位置序列。然后，我们使用一个预先训练的初始网络来提取特征，从脸上找到代表面部表情的最突出的一个部位。

然后，这些特征被输入一个长期短期记忆网络(LSTM)中，它能够模拟面部表情随着时间的推移如何演变的递归神经网络，并且能够记住过去突出的信息。

为了确保模型在一系列人口统计学群体中做出一致的预测，我们在一个现有的数据集上评估了模型的公平性，这个数据集是使用相似的面部表情标签构建的，目标是16种表情中表现最好的一种。

该模型的表现在所有类型人口组代表的评价数据集中表现了其一致性，也表明模型训练带注释的面部表情存在不可测量的偏见。该模型对张图片中的16种面部表情进行了注释。

为了理解数以百万计的视频中面部表情的上下文，实验还测量了视频中捕获的表情的前后部分。论文中使用了可以捕获细粒度内容并自动识别上下文的神经网络。

第一个DNN是视频相关的文本特性(标题和描述)与实际的视觉内容(视频-主题模型)的组合。

第二个DNN只依赖于文本特征而没有任何视觉信息(文本-主题模型)。

这些模型预测了上万个描述视频的类别标签，在这个实验中，这些模型能够识别数百个独特的情境(例如，婚礼，体育赛事，或烟花)来展示分析数据的多样性。

文中的第一个实验中，研究人员分析了万个手机拍摄的公共视频，手机拍摄的视频更可能包含自然的表情。

然后将视频中出现的面部表情与来自视频主题模型的上下文注释相关联，发现16种面部表情与日常社会环境有着不同的联系，这些联系在世界各地都是一致的。例如，欢乐的表情和恶作剧共同出现的概率更大;激动的表情和烟花也更配;胜利的表情也经常出现在体育赛事中。

这些结果对于讨论面部表情中，心理相关的场景对表情的使用有很强的暗示作用，比其他因素如那些个人、文化或社会所特有的因素更相关。

第二个实验分析了万个单独的视频，这次使用用文本主题模型注释了上下文。结果证实了第一个实验中的发现并不是由视频中面部表情对视频主题模型注释的微妙影响所驱动的。换句话说，这个实验证实了第一个实验得出的结论，即视频主题模型在计算其内容标签时可能隐含着面部表情的因素。

在这两个实验中，表情和语境之间的相关性在不同的文化中似乎都得到了很好的验证。为了准确地量化研究的12个不同世界区域的表达式和上下文之间的关联是多么相似，研究人员计算了每一对区域之间的二阶相关性。这些相关性确定了每个区域中不同表情和上下文之间的关系，然后将它们与其他区域进行比较。

最后结论，在每个地区发现的70%的情境表情关联在世界范围是共享的。

机器学习使研究人员能够分析世界各地数以百万计的视频，并发现支持面部表情在跨文化的相似环境中被保留到一定程度这一假设的证据。

研究结果也为文化差异留下了空间，尽管面部表情和上下文之间的相关性在世界范围内有70%的一致性，但是在不同地区之间的相关性只有30%。相邻世界地区的面部表情和语境之间的关联通常比相距遥远的世界地区的关联更为相似，这表明人类文化的地理传播也可能在面部表情的意义上发挥作用。

这项工作表明，机器学习能够更好地了解自己，并确定跨文化的共同沟通要素。神经网络等工具使我们有机会为科学发现提供大量不同的数据，使我们对统计结论更有信心。

参考资料：