沉寂已久的AI语音赛道,因GPT4o又热闹起来了。 语音开源项目ChatTTS爆火出圈,能笑、能模仿还能实时互动;主打共情AI语音的Hume AI趁势推出了第一个AI情感互动播客产品;AI音视频基础设施平台初创公司LiveKit宣布筹集2250万美元的A轮融资,OpenAI和Character.AI都是其客户。 自大模型浪潮席卷而来,AI语音赛道经历了从克隆、合成到实时反馈、情感化的变化。 在大模型多模态进化的主线之下,AI语音一直像“影子”般存在。作为工具属性的痕迹尤其明显,它是狼人杀游戏里NPC发号的指令,是数字人表演的一环,也是Sora生成视频后的背景乐。 正因如此,语音的价值被低估了。 声音打通的是无数个场,游戏的、带货的、教育的等等,最后抵达的是用户。在大模型时代,把声音功能前置是一种典型的产品思维,这意味着更低的门槛、更高效的交互方式以及更庞大的用户群体。 “这几乎是我第一次熬夜看美国科技产品发布会,很多场景能够被解锁,十分惊艳”,澜码科技创始人周健掩按捺不住内心的激动。 |