万益资讯网

昨天,火山引擎宣布升级 Doubao-Seed-2.0-lite 新版本,这是豆

昨天,火山引擎宣布升级 Doubao-Seed-2.0-lite 新版本,这是豆包大模型系列里首款全模态理解模型。据介绍,新版的 Doubao-Seed-2.0-lite 原生统一支持视频、图像、音频和文本的理解,同时升级了 Agent、Coding 和 GUI 能力,面向复杂业务场景进一步增强多模态推理。在视觉理解上,新版本继续大幅提升,在物理 HiPhO、医疗 MedXpertQA 等高阶学科推理任务上的表现已大幅超越今年 2 月发布的 Doubao-Seed-2.0-pro。此外,该模型在细粒度感知 BabyVision、WorldVQA 以及具身理解 ERQA 等关键领域达到了 SOTA 水平,更利于企业在高价值场景中大规模部署。这次升级的一大重点是将语音理解能力融入进来,新版本可同时理解多种输入模态并完成跨模态联合推理,能直接处理那些必须“音画结合”才能判断的复杂业务需求。比如在视频理解场景,它能联合分析画面与音频信息,精准判断视听是否一致,即“看到的”和“听到的”是否匹配。它还支持按自然语言指令在视频中精准定位特定事件时间点,并能跨多个时段提取关键线索,持续追踪人物与事件发展,基于画面多步推理还原事件关系与行为脉络。音频方面,新模型支持 19 种语言的精准语音转写,以及中英文与其他 14 种语言互译。另外,它还能捕捉语音中的情绪变化、环境背景声与音乐细节,输出更完整、更接近人类认知的语义信息。公开评测集显示,Doubao-Seed-2.0-lite 在语音识别、翻译等多项音频理解基准上优于 Gemini-3.1-Pro。值得注意的是,它还深度适配 OpenClaw、Hermes Agent 等框架,强化深度搜索与 Skill 动态调用,可在执行任务时持续积累经验,实现“越用越聪明”。(新浪科技)