厉害了我的哥！人工智能都已经能读懂唇语了？

周四, 10 十一月 2016 - 14:21

据Theregister报道，牛津大学、谷歌旗下AI公司DeepMind以及加拿大高级研究所向机器学习学术大会（ICLR 2017）提交的论文称，它们开发的神经网络LipNet可以解读唇语的秘密，AI监控技术将变得更加先进。

研究人员称，通过分析视频中某人讲话的“时空视觉特征”，LipNet可以破译其正在说什么，比人类专业的唇语解读专家更称职，准确率高达93.4%。这是首个超越简单词汇分类的AI模型，可以使用句子级序列进行预测。

解读唇语是非常复杂的工作，即使对于损失了听觉的人来说，其平均准确率也仅为52.3%。研究人员称：“机器破译唇语有巨大的应用潜力，可被用于改善助听器、公共空间默写、掩盖对话、在嘈杂环境中语音识别、生物识别以及处理电影默片等。”

但是对于那些担心中央监控系统读取其秘密对话内容的人来说，还不必感到惊慌。研究人员承认，极为精确的唇语破译十分罕见。大多数情况都是有限的词汇被串联成句子，而且它们往往没有任何意义。

研究人员利用网格语料库（GRID corpus）训练和测试LipNet。这个语料库中有一系列音频和视频，包括34名演讲者每人讲的1000句话。这些句子都有“简单的语法结构”，包括指令（4）+ 颜色(4) + 介词(4) +字母(25) + 数字(10) +副词(4)。

括号中的数字代表每个类别可选单词的数量，这意味着它们共可以组成6.4万个句子。由于许多文件已经丢失或损坏，现在还有13名演讲者说出的32829个句子。

LipNet需要许多训练，才能达到如今的精准程度。在这些视频中，大约88%被用于训练LipNet，12%用于对其进行测试。LipNet专注于演讲者说话时的口型变化，并打破图像帧进行分析。随后，LipNet将这些信息输入神经网络中，并通过多层分析，从而按照发音解读出单词和句子。

距离处理2人之间真实的对话，LipNet还有很长的路要走。这套系统要求大量数据进行训练，以应对口音和语言变化。即使如此，如果你依然担心受到窃听，或许可戴上口罩！

（来源：网易科技）

<center>（更多精彩好玩有趣的资讯，欢迎扫码下方二维码关注“硬创星球”）</center>