万益资讯网

字节跳动发新模型!Seeduplex 让 AI 聊天像真人,豆包已全量上线 4

字节跳动发新模型!Seeduplex 让 AI 聊天像真人,豆包已全量上线

4 月 9 日,字节跳动搞出了个新东西 —— 原生全双工语音大模型 Seeduplex,现在已经在豆包 App 全量上线了。

这模型最不一样的地方,就是能 “边听边说”,跟之前的半双工模型比,聊天的自然感和顺畅度提升太多,终于不用再忍受那种 “你说完等半天,它说的时候你不能插嘴” 的机械感了。

先跟大家掰扯清楚,半双工和全双工到底差在哪。以前用豆包语音聊天,就像用老式对讲机,你说一句,它得听完了、处理完,才能回应,中间不能打断;要是你停顿了一下,它可能还会误以为你说完了,直接抢话,特别影响体验。

而全双工就像跟真人打电话,你俩能同时交流,你可以随时打断它,它也能等你想清楚再回应,节奏特别自然。

Seeduplex 最实用的两个点,就是精准抗干扰和动态判停。比如在咖啡厅这种嘈杂环境里,邻桌说话、咖啡机嗡嗡响,以前的语音模型可能会把这些噪音当成指令,要么乱回复,要么直接卡壳。

但 Seeduplex 能持续 “倾听”,分辨出哪句话是冲它说的,哪句是环境噪音,误回复和误打断的情况比以前减少了一半,就算你中途跟服务员说句话点杯咖啡,它也能等你说完,接着之前的话题聊下去。

还有动态判停这个功能,特别懂分寸。

比如你跟它模拟面试,回答问题时磕磕绊绊,“um… 让我想想…”,以前的模型可能早就急着接话了,而 Seeduplex 会结合你的语音和语义来判断,知道你是在思考不是说完了,会安安静静等你组织好语言,抢话的情况比之前少了 40%,聊起来特别有沉浸感。

而且它的响应速度也很快,官方测试的延迟不到 200 毫秒,实际用起来就是 “你刚说完,它就接上了”。

跟它玩飞花令这种快问快答的游戏,你一句 “床前明月光”,它立马就能接 “举头望明月”,完全不用等,那种对答如流的感觉特别爽。要是你觉得它说多了,直接一句 “等一下”,它能瞬间收声,等你忙完还能接着之前的话题继续聊,上下文一点都不脱节。

能做到这些,背后是 Seeduplex 的技术支撑。它用了全新的流式 Transformer 架构,还有专门的双工控制器,能实时判断该听、该说、该停还是该被打断。

而且训练数据特别丰富,光中文普通话就有 50k 小时,还涵盖了粤语、四川话等方言,以及各种环境噪音的训练,所以在不同场景下都能有稳定表现。

现在打开最新版豆包 App,点击右上角的电话图标,就能开启这种全双工语音聊天了。对普通用户来说,不管是用语音查资料、聊日常,还是模拟面试、练口语,体验都比以前顺畅太多;对行业来说,这也是全双工技术第一次真正规模化落地,给语音交互树立了新的标杆。

不过客观说,语音交互技术还在不断进步,Seeduplex 目前主要支持中文,后续可能还会拓展多语言、情感控制等功能。

但不管怎么说,这次字节跳动的新模型,确实解决了以前语音聊天的不少痛点,让 AI 交互更像跟真人对话。

以后用语音助手,可能真的会越来越有 “聊天搭子” 的感觉,而不是在跟一个冷冰冰的机器说话。