昨天，火山引擎宣布升级 Doubao-Seed-2.0-lite 新版本，这是豆

昨天，火山引擎宣布升级 Doubao-Seed-2.0-lite 新版本，这是豆包大模型系列里首款全模态理解模型。据介绍，新版的 Doubao-Seed-2.0-lite 原生统一支持视频、图像、音频和文本的理解，同时升级了 Agent、Coding 和 GUI 能力，面向复杂业务场景进一步增强多模态推理。在视觉理解上，新版本继续大幅提升，在物理 HiPhO、医疗 MedXpertQA 等高阶学科推理任务上的表现已大幅超越今年 2 月发布的 Doubao-Seed-2.0-pro。此外，该模型在细粒度感知 BabyVision、WorldVQA 以及具身理解 ERQA 等关键领域达到了 SOTA 水平，更利于企业在高价值场景中大规模部署。这次升级的一大重点是将语音理解能力融入进来，新版本可同时理解多种输入模态并完成跨模态联合推理，能直接处理那些必须“音画结合”才能判断的复杂业务需求。比如在视频理解场景，它能联合分析画面与音频信息，精准判断视听是否一致，即“看到的”和“听到的”是否匹配。它还支持按自然语言指令在视频中精准定位特定事件时间点，并能跨多个时段提取关键线索，持续追踪人物与事件发展，基于画面多步推理还原事件关系与行为脉络。音频方面，新模型支持 19 种语言的精准语音转写，以及中英文与其他 14 种语言互译。另外，它还能捕捉语音中的情绪变化、环境背景声与音乐细节，输出更完整、更接近人类认知的语义信息。公开评测集显示，Doubao-Seed-2.0-lite 在语音识别、翻译等多项音频理解基准上优于 Gemini-3.1-Pro。值得注意的是，它还深度适配 OpenClaw、Hermes Agent 等框架，强化深度搜索与 Skill 动态调用，可在执行任务时持续积累经验，实现“越用越聪明”。（新浪科技）

万益资讯网

昨天，火山引擎宣布升级 Doubao-Seed-2.0-lite 新版本，这是豆

热门分类