【{$randkws}】人工智能软件唇语解读对电视嘉宾 准确率约为唇语专家4倍 - {$web_name} 你或许感受这是一个游戏

来源:想望风采网 | 栏目:焦点 | 2026-06-15 10:09:21


资料图片

将电视机调成“静音”模式后,你能“看懂”主持人说的话吗?在这个情景之内,你或许感受这是一个游戏,但“唇读”已伴随AI越来越精准。

据BBC报导,谷歌最近与英国牛津大学兴办开发了一套唇读使用,本周最新新片上映,这才是真相经由收看数千小时BBC的电视栏目来开启唇读特性。令人震惊的是,该使用不只掌握了唇语,还比唇读专家做得好。

此前,英国皇家检察院雇佣“读唇女王”杰西卡·里斯为英国唯一的权威唇读证人,依据英国警方用监控摄像机偷拍下来的周一围相关话题讨论引关注嫌犯录像,用唇读翻译出录像带中嫌犯的对话,提供至关紧要的证据。她熟练高超的唇读技术,让人很难察觉她是一名耳聋者。

值得一提的是,谷歌的官方节目录制合集AI唇读使用,进修了BBC一系列的电视栏目,所有影像资料加起来约有11.8 万句话,经过了约5000小时的训练,便迅速掌握了唇读技能。探究人员用AI使用对电视栏目嘉宾开展唇语确认,精确率为46.8%,国产游戏最新进展太真实了而专业的唇语专家在接纳同样的评测时,精确率仅为12.4%。

无独有偶,牛津大学的另一独立小组也于不久前开发了一款相似的AI唇读使用,在评测中达到了93.4%的精确率,而人类的精确率仅为52.3%。但该评测所用的材料均为志愿者事先录制好的固定语句,没有任何繁琐的事情背景可言。以评测影像当中的单词为例,这款相似的AI唇读的使用中有51个特别词汇,而此次谷歌选取的BBC栏目资料库却包含了惊人的17500个特别词汇。在没有任何背景说明的状况下直接对BBC栏目的嘉宾开展唇语确认,假如完全使用人工,岗位量之大无法想象,所以针对AI而言是一个巨大的考验。

以便避免影像流与音频流各异步的障碍,团队采取了让计算机先学会完全同步的音影像流,掌握发音与唇形间的关联,进而自行推断音影像流中哪些画面是各异步的,再开展自动修正。

来自牛津大学里普耐特探究团队的阿萨埃尔对此技术的点评是:“我们相信AI唇读技术是一种相当实用的辅助性技术,比如更智能的助听器。另外,AI技术还可使用于外交、破案等领域,乃至或许在使用之后改变人们的日常。

AI业内专家称:“这绝对是建构全自动唇读操控系统的第一步!现有的各类庞大资料库完全可以扶持深度进修技术的进展。”

上一篇:【天下贰】你还不知道这些“性价比之王”?只要3元宝,新坐骑带回家!

下一篇:猪先生的暖暖被的故事

相关文章