研究人员开发了可以从录像中读取嘴唇的AI

发布时间:2019-12-17 11:45:52 【来源:

实际上,能够从视频中读取嘴唇的AI和机器学习算法并没有什么不同。早在2016年,来自Google和牛津大学的研究人员就详细介绍了一种系统,该系统可以以46.8%的准确度注释视频素材,优于专业的人读机的12.4%准确度。但是,即使是最先进的系统也难以克服唇部运动的歧义,从而阻止其性能超过基于音频的语音识别。

为了追求更好的性能,浙江大学阿里巴巴分校和史蒂文斯理工学院的研究人员设计了一种方法,称为“按语言说话”(LIBS),该方法利用从语音识别器中提取的特征作为补充线索。他们说,它在两个基准上都达到了业界领先的准确性,在字符错误率方面,基准比基准高出7.66%和2.75%。

LIBS和其他类似的解决方案可以帮助那些听障人士观看缺少字幕的视频。据估计,全世界有4.66亿人患有失能性听力障碍,约占世界人口的5%。根据世界卫生组织的数据,到2050年,这一数字可能会超过9亿。

LIBS从人类说话者的视频中以多种尺度提取有用的音频信息,包括序列级别,上下文级别和帧级别。然后,通过识别它们之间的对应关系,将数据与视频数据对齐(由于不同的采样率和空白有时会出现在开头或结尾,视频和音频序列的长度不一致),并且它利用过滤技术来优化蒸馏功能。

深圳罗湖打造“一个中枢五个中心” 建成中国黄金钻石交易中枢体系
广西黄金珠宝产业园优化全产业链发展 目前为止已入驻企业37家
国内知名珠宝企业齐亮相首届消博会 展现民族品牌新形象
吉尔吉斯斯坦或将取消珠宝产品生产设备进口的增值税 包括精矿砂、合金等
潍坊昌乐“中国宝石城”化身“潍坊市电商小镇 珠宝商变身为“直播网红”
广州发布全国首份围绕新发展格局支持钻石产业专项政策 培育壮大产业集聚带
未来5年 深圳罗湖构建全球竞争力和国际影响力的黄金钻石金融中心
中国珠宝成为首届中国国际消费品博览会唯一指定进口代理商

[ 最新资讯 ]

L Brands在第一季度的强劲销售提振

  这家零售公司宣布计划分拆 本月初的《维多利亚的秘密》,该公司公布 了截至5月1日的季度收入为30亿美元,比 去年疫情期间的16 5亿美 ...

L Brands在第一季度的强劲销售提振

  这家零售公司宣布计划分拆 本月初的《维多利亚的秘密》,该公司公布 了截至5月1日的季度收入为30亿美元,比 去年疫情期间的16 5亿美 ...

Shopee第一季度亏损4.22亿美元

  新加坡的海集团,旗下拥有电子零售商Shopee,今天报告说,其截至3月的三个月净亏损从去年的281亿$扩大至4 22亿$,日经亚洲写道。  这 ...

阿雷佐公司的第一季度利润增长了310%

  巴西鞋类和配饰集团在2021年第一季度的调整后净收入为2960万巴西雷亚尔(560万美元),比去年同期的720万雷亚尔(135万美元)增长了310 7% ...

专业调谐器称Apple TV的自动校准器无法提供

  苹果在四月推出了带有新Apple TV 4K的电视校准功能。颜色平衡选项使用带有Face ID的iPhone上的前置传感器来优化Apple流媒体盒(包括2 ...

华纳传媒与Discovery宣布合并 美国媒体行业其他公司不得不采取应对措施

  据报道,由于 AT&T 已经决定分拆华纳传媒并将其与 Discovery 合并,美国媒体行业的其他公司,尤其是规模较小的公司将面临新的压力 ...