Meta发布全新AI翻译大模型,实时语音转换不超2秒
来源:科技魔方-最新新闻 发布日期:2024-03-10
Meta最新发布了一系列AI翻译大模型,标志性地实现了实时语音转换延迟不超过2秒的能力。这一系列模型名为Seamless Communication,包括SeamlessExpressive、SeamlessStreaming、SeamlessM4T v2和Seamless,其中前三个已经在GitHub上开源。这些模型不仅具备跨语言语音复杂性的保留能力,而且能够模仿语气、语速、情感等细致特征,使得AI翻译更富有表现力。
在技术架构方面,Meta采用了非自回归架构,提高了模型的扩展性和鲁棒性,特别适用于流媒体场景。核心算法EMMA能够智能决定何时已经拥有足够的信息来生成下一个语音片段或目标文本,同时采用了UnitY2等新架构来增强语音生成能力。
为了解决翻译准确性的问题,Meta引入了“毒性缓解”技术,在翻译生成过程中自动检测和调整生成的有毒单词,显著减少了翻译的“毒性”。
为了防止滥用风险,Meta还为音频添加了水印,通过在音频中嵌入不可察觉的信号,可以准确追踪音频的来源,并对抗各种攻击手段。这一系列模型的开源不仅包括模型本身,还涵盖元数据、数据和数据对齐工具,其中元数据包括58.5万小时的语音文本对,是目前容量最大、语言覆盖最广的语音语料库之一。
总体而言,Meta的这一系列翻译模型在实时语音翻译领域取得了显著的突破,不仅提升了翻译速度,还注重模仿语音的表现力和保护用户隐私的技术手段。这一技术创新为未来语音翻译和交流领域带来了更加广阔的可能性。
-
人工智能走出科幻片,AI音乐立法走到哪一步了?
-
Meta启动Ray-Ban智能眼镜多模态AI功能测试
-
Meta发布全新AI翻译大模型,实时语音转换不超2秒
-
Meta翻译大模型可模仿语气语速,AI再也不“莫得感情”了
-
[集群建设] 长沙人工智能同升谷项目发布暨人工智能产业发展座谈会举行
-
开店必备:AI语音智能生物共振能量舱,共振舱有什么优势
-
开学第一课:“机器人”科技进校园
-
盗用他人AI生成图构成侵权
-
业界 以“智联世界·生成未来”为主题的2023世界人工智能大会今日开幕
-
农业机器人“泰山”神似树懒擅长攀行
-
数月调查之后,阿尔特曼重返 OpenAI 董事会
-
抢抓人工智能+发展机遇 人形机器人行业是热点领域