首页 人工智能元宇宙大数据 企业智能化 智慧城市 科技 商务
当前位置:首页 > 人工智能

人工智能系统可以使用静态图像将语音轨道转换为人说话的视频

来源:房产-巴蜀在线 发布日期:2024-03-08

阿里巴巴集团智能计算研究院的一个人工智能研究人员小组通过他们创建的视频演示了一款新的人工智能应用程序,该应用程序可以接受一张人脸照片以及某人说话或唱歌的配乐,并使用它们来创建说话或演唱音轨的人的动画版本。该小组发表了一篇论文,描述了他们在arXiv预印本服务器上的工作。

先前的研究人员已经演示了人工智能应用程序,可以处理脸部照片并用它来创建半动画版本。在这项新的努力中,阿里巴巴团队通过添加声音更进一步。也许,同样重要的是,他们在没有使用 3D 模型甚至面部标志的情况下就做到了这一点。相反,该团队使用了基于在大型音频或视频文件数据集上训练人工智能的扩散建模。在本例中,该团队使用了大约 250 小时的此类数据来创建他们的应用程序,他们将其称为 Emote Portrait Alive ( EMO )。

通过直接将音频波形转换为视频帧,研究人员创建了一个应用程序,可以捕获微妙的人类面部姿势、言语怪癖以及其他特征,从而将动画图像识别为人类面部。这些视频忠实地再现了用于形成单词和句子的可能的嘴形,以及通常与之相关的表情。

该团队发布了多个视频,展示了他们生成的惊人准确的性能,并声称它们在真实性和表现力方面优于其他应用程序。他们还指出,完成的视频长度是由原始音轨的长度决定的。在视频中,原始图片与该人一起显示,该人以原始音轨上录制的声音说话或唱歌。

如何在 iPhone 上使用 Google 地图 Glanceable 导航

Galaxy Z Fold 6设计曝光 从各个角度展示

官方Nothing Phone (2a) 拆箱视频已上线

整个 iPhone 17 系列预计将使用 LTPO ProMotion 显示屏

TECNO 在 MWC 上推出 Camon 30 Premier 等三款机型

Wear OS 4 的混合界面提高了 OnePlus Watch 2 的电池寿命

Big Lot 收购了儿童玩具品牌 Hearthsong 的全部库存

沃尔玛通过 Gigaton 项目提前六年实现可持续发展目标

科学家提出了如何破解地球变暖的新想法:干燥高层大气

全新跑车玛莎拉蒂 GranCabrio 亮相

vivo X Fold3 即将上市成为首款搭载 Snapdragon 8 Gen 3 的可折叠手机

BP 在选定的 Wild Bean 咖啡馆试点提供定制食品

每周还款额低于 550 美元的郊区