音频大模型追逐“图灵时刻”
来源:图片-新浪军事 发布日期:2024-04-03
七十年前,“人工智能之父”图灵提出,如果人无法判断屏幕的另一侧究竟是人还是机器,就证明机器具备了人一样的智能。这一经典的图灵测试如同北斗星一般,指引着AI行业的工作者们不断前进。AI对物理世界的探索无疑是当下的热门话题。以ChatGPT和Sora为代表的AIGC展现出了令人震撼的表达能力,Sora更被认为是AI感知物理世界的初步探索。不过,上海大学计算机科学与技术系教授武星在璞跃中国日前举办的以“AIGC赋能产业创新”为主题的Global Tech Network活动上表示,“我更赞同图灵奖获得者杨立昆的观点:Sora提示词中生成的大部分看起来逼真的视频并不表明视频理解了物理世界。”喜马拉雅珠峰AI科技产品研发总监吕睿韬也持类似的观点,“Sora的表达虽然很好,但它本质是假装出来的,并没有真正理解世界的规则。”AI与物理世界交互一般可以通过视频与音频,相比之下,音频似乎能够更早达到图灵时刻。“目前音频产业界达成了共识:第一,未来一定是实时跨语种语音交互,这件事情会提前发生;第二是语音表达的人格化,现在所有的AI都在装作是人,但是音频模型到30B以上的时候,真的可能超越人。”吕睿韬在活动上表示,“喜马拉雅每天播放量的10%是AI大模型做的,(大家已经)分不出是真人还是AI了,这是音频大模型能力的涌现。”“2023年所有的行业里的音频大模型其实都只复刻了音色,但这只占30%,并不是完全复刻人。”吕睿韬介绍称,“我们现在在做的是15秒60个字能够实现从腔调、口吻、音色,包括情感信息都可以学习到、极速生成的大模型。”音频大模型不仅可以做语音,同时可以做音效和音乐,目前喜马拉雅正围绕主营业务做语音,包括对话形式,以及多角色、多情感的演绎能力等。吕睿韬称,去年国内很多短剧出海都是喜马拉雅在做的配套,短剧是有声书的视觉版,去掉短剧里的视觉,其实就是有声书,“如何让AI把有声书演好,这是当前的命题。”
女子健身私密照未经允许被发网上 涉事教练:没露脸理想汽车人事变动!李想直接管销售服务业务,马东辉接替沈亚楠任总裁Lululemon Q3营收同比增长28% Q4指引不及预期好市多 Q1营收不及预期 净销售额同比增8%SEC建议:美国公司应向投资者披露对加密资产市场的风险敞口零跑朱江明反驳增程技术落后论:汽车不需要航天发动机 适用就好特斯拉Model 3高性能版实车首曝!有望二季度发布新疆正式成为包邮区:淘宝、拼多多、抖音等均已覆盖三星电子第三季度晶圆代工全球市占率15.5%一图看懂蔚来、小鹏、理想汽车2022年第三季度财报
比亚迪第500万辆新能源车下线:王传福回顾创业“差点走不下去”岳阳机场回应停车场禁止特斯拉入内:特斯拉会对周围环境录像 员工的也不能进燃油车的最后一口气,断了网友质疑发展电动车是不是走错了:给出三大理由价格战开打!特斯拉Model Y长续航/高性能版宣布国内降价1.4万:29.99万起一个月电费300元花哪了?我用一周时间找到了原因:电器刺客碧桂园“病危”进ICU?宝马mini就冰淇淋不给中国人事件致歉:管理不细致引起不愉快消息称王军已回归华为车BU :负责战略规划,年初曾被停职百川智能CEO王小川:坐在电脑面前工作是件危险的事,大概率会被AI取代