Meta 再端 AI 大菜:开源推出「MuAViC」多语言视听资料库

Meta 再端 AI 大菜:开源推出「MuAViC」多语言视听资料库

近来各巨头正在 AI 领域上演着军备竞赛,微软本周发表多模态大型语言模型 「Kosmos-1」可辨识分析图像,而日前在一月 Meta 发表 AV-HuBERT(Audio-Visual Hidden Unit BERT)的多模态模型,稍早则是继续发表多语言视听语料库 MuAViC,可有效建构适用於吵杂环境下的语音辨识和翻译模型。

AV-HuBERT 以自我监督框架可同时透过视觉和听觉讯号来理解语音内容,就像人类对话时可以听对方的声音,也能读唇语来提高对语音的理解。除了既有的语音更能以视觉资料来提高语音辨识能力,Meta 在稍早展现以 MuAViC 训练 AV-HuBERT 模型後的成果。

多语言视听语料 MuAViC

MuAViC 用於语音辨识和语音到文字翻译的多语言视听语料库,包含大约 1,200 小时的转录数据,涵盖 9 种语言(包含:英语、阿拉伯语、德语、希腊语、西班牙语、法语、义大利语、葡萄牙语和俄语)。Meta 使用 MuAViC 来训练的 AV-HuBERT 模型,根据实测,在嘈杂、具有挑战性的环境中翻译语音,发现它能优於其他领先的翻译模型。

利用首个使用视听学习进行高度准确的语音翻译的基准 MuAViC ,Meta 展现训练 AV-HuBERT 模型後的成果,在官方提供的影片中,AV-HuBERT 模型的转录仍出现一个错误,但仍然比另一个模型获得更高的准确度。

Meta 表示在过去的困难在於缺乏合适的训练数据,未探索将视听理解扩展到语音翻译,因为收集和处理语音-影音数据通常比单独收集语音数据需要更多的资源。

噪音环境干扰小!强大稳健多模态模型更近一步

Meta 介绍 MuAViC 的建立首先英语演讲部分有 LRS3 数据集中的视听数据,并使用文字配对算法将其与机器翻译语料库对齐,接着将配对的样本与机器翻译语料库中相应的目标句子配对,以获得翻译标签。对开发集和测试集样本应用精确文字配对以确保最佳准确性。对於没有配对的训练集样本,则从机器翻译模型中获取伪翻译标签。

对於非英语谈话则重复使用语音翻译数据集中收集的纯语音数据、转录和文字翻译。为了新增视觉模态,研究员获取原始录音的影音轨道并将处理後的影音数据与语音数据对齐以建构出视听数据。

Meta 实测 AV-HuBERT 与目前其他最先进的模型相比,在语音辨识上受到环境噪音影响的程度较小,语音翻译文字的性能部分,与其他模型相比,Meta 的 AV-HuBERT 模型在噪音环境下效果并没有显着下降。可说明,语音模态若是由於噪声或任何其他因素而失真,模型将更多地依赖视觉模态来正确执行任务。

与其他先进的模型相比,Meta  AV-HuBERT 模型的性能较没有受到噪音干扰

本次 Meta AI 团队所公布的 MuAVic ,将让研究员为不同的语言建构更强大的语音辨识与翻译系统,让强大稳健模型的未来又更近了一步。Meta 目前已将 MuAVic 放上 GitHub,有兴趣的朋友可以进一步前往查看。

核稿编辑:Chris

科技生活家

0 0 投票数
Article Rating
订阅评论
提醒
guest
0 Comments
内联反馈
查看所有评论
0
希望看到您的想法,请您发表评论x