2023年6月14日,在法国巴黎凡尔赛门展览中心举行的技术及创新博览会上,一个参观者在Meta的展台前观看扎克伯格的视频演讲。 Alain Jocard/AFP via Getty Images)
社交媒体巨头Meta公司8月22日发布了一款新的人工智能(AI)模型,可以翻译和转换数十种语音或文本文字,可望成为实现跨语言即时通讯工具的基石。
据称,这款新模型被命名为SeamlessM4T,它代表大规模多语言和多模式机器翻译。Meta公司表示,它可以支援近100种语言的语音到文本,或从文本到文本的翻译,以及35种语言的语音到语音翻译。
它是在Creative Commons CC BY-NC 4.0许可证下发布的,允许研究人员对其进行迭代。
除了 SeamlessM4T,Meta 还发布了其开放翻译数据集 SeamlessAlign 的源数据。
Meta公司表示,“建立一个通用的语言翻译器,就像《银河系漫游指南》中虚构的巴别鱼一样,具有挑战性,因为现有的语音到语音和语音到文本系统只覆盖世界上一小部分语言,”。
Meta表示,SeamlessM4T代表了“重大突破”,因为这种新模型可以一次性完成整个翻译任务,不像其他大型翻译模型将翻译划分到不同的系统。
如果SeamlessM4T 能够正常运行,那么它的一个有趣功能是它据称能够识别说话者何时进行代码切换,或何时有人在一个句子中在两种或多种语言之间转移。例如,Meta在一段视频中演示了该模型可以立即区分印地语、泰卢固语和英语。
SeamlessM4T建立在Meta以前的翻译模型之上。去年,Meta发布了其“不落下任何一种语言”(No Language Left Behind)文本到文本机器翻译模型,该模型支持200种语言。它还开发了SpeechMatrix,一个用于多语言语音到语音翻译的数据集和用于语音识别的大规模多语言语音。Meta去年演示了其通用语音翻译器,将闽南语口语(一种在中国南方广泛使用的方言)转换为英语。
语言翻译对于像Meta这样的公司来说很重要,这些公司雇佣了数千名员工来审核大量不同语言的Facebook和Instagram帖子。很多时候,小众语言的团队规模较小,最终依赖于自动审核,而自动审核在这些语言中效果不佳。如果允许人工智能访问这些小众语言的数据集,那么审核将变得更为简单。
根据部落格文章,Meta正将这套模型提供给公众用于非商业用途。
Meta今年发布一连串多为免费的人工智慧模型,其中包括名为Llama的大型语言模型,对微软(Microsoft)公司支持的OpenAI和Alphabet旗下的谷歌(Google)出品的专利模型构成严峻挑战。
扎克伯格说,开放的AI生态系统对Meta更有利,因为公司透过有效群众外包(Crowd-sourcing)方式,为旗下社群平台创建面向消费者的工具,比向这些模型的使用者收费获益更多。
关于SeamlessM4T模型,Meta研究人员在一篇研究论文中表示,他们从400万个小时的“原始音档”中搜集相关训练素材。这些音档源自公开的网络资料库,但研究人员未具体说明是哪一个。
研究论文提到,文本资料取自去年创建的资料集,内容源于维基百科(Wikipedia)和相关网站。
!评论内容需包含中文