跳转到主要内容

厉害了我的哥!人工智能都已经能读懂唇语了?

editor 提交于

<br>据Theregister报道,牛津大学、谷歌旗下AI公司DeepMind以及加拿大高级研究所向机器学习学术大会(ICLR 2017)提交的论文称,它们开发的神经网络LipNet可以解读唇语的秘密,AI监控技术将变得更加先进。</br>

<center><img src="http://intel.eetrend.com/files/2016-11/wen_zhang_/100003859-12820-51c8t…; alt=""></center>

<br>研究人员称,通过分析视频中某人讲话的“时空视觉特征”,LipNet可以破译其正在说什么,比人类专业的唇语解读专家更称职,准确率高达93.4%。这是首个超越简单词汇分类的AI模型,可以使用句子级序列进行预测。</br>

解读唇语是非常复杂的工作,即使对于损失了听觉的人来说,其平均准确率也仅为52.3%。研究人员称:“机器破译唇语有巨大的应用潜力,可被用于改善助听器、公共空间默写、掩盖对话、在嘈杂环境中语音识别、生物识别以及处理电影默片等。”

但是对于那些担心中央监控系统读取其秘密对话内容的人来说,还不必感到惊慌。研究人员承认,极为精确的唇语破译十分罕见。大多数情况都是有限的词汇被串联成句子,而且它们往往没有任何意义。

研究人员利用网格语料库(GRID corpus)训练和测试LipNet。这个语料库中有一系列音频和视频,包括34名演讲者每人讲的1000句话。这些句子都有“简单的语法结构”,包括指令(4)+ 颜色(4) + 介词(4) +字母(25) + 数字(10) +副词(4)。

括号中的数字代表每个类别可选单词的数量,这意味着它们共可以组成6.4万个句子。由于许多文件已经丢失或损坏,现在还有13名演讲者说出的32829个句子。

LipNet需要许多训练,才能达到如今的精准程度。在这些视频中,大约88%被用于训练LipNet,12%用于对其进行测试。LipNet专注于演讲者说话时的口型变化,并打破图像帧进行分析。随后,LipNet将这些信息输入神经网络中,并通过多层分析,从而按照发音解读出单词和句子。

距离处理2人之间真实的对话,LipNet还有很长的路要走。这套系统要求大量数据进行训练,以应对口音和语言变化。即使如此,如果你依然担心受到窃听,或许可戴上口罩!

(来源:网易科技)

<center><strong>(更多精彩好玩有趣的资讯,欢迎扫码下方二维码关注“硬创星球”)</strong></center>

<center><img src="http://intel.eetrend.com/files/2016-09/wen_zhang_/100002840-9295-qrcode…; alt=""width="150"></center>