全球AI生图王位易主腾讯混元图像3.0登顶
刚刚,LMArena竞技场发布了最新的文生图榜单,第一名来自中国,属于腾讯混元图像3.0!【图1】
不仅超越了谷歌的Nano Banana,也超越了字节的Seedream和OpenAI的gpt-Image,在全球26个大模型中稳居第一。
LMArena官方也对新王大加祝贺,称其为巨大的成就。【图2】
LMArena榜单,是目前国际上最权威的AI模型竞技场,由美国加州大学伯克利分校推出,采用基于人类真实偏好的“盲测”机制。
用户输入同一个问题,平台随机展示两款模型的回答,用户只需选择更喜欢的一方,投票结果便直接影响全球排行榜。
其实早在2024年5月,腾讯混元就曾开源首个中文原生的文生图DiT模型,一度成为开源第一,吸引了社区很多人的关注和建设。
此后,开源领域陆续出现了Flux和Wan等文生图模型,而闭源阵营则有MJ、Nano-Banana和SeedDream等作品。相比之下,混元在社区中沉寂了一段时间。
但腾讯混元团队一直坚持在生图领域持续深耕,今年5月,他们发布首个毫秒级实时生图模型,随后,9月推出的混元图像2.1也以开源SoTA的表现获得广泛关注。
而最新推出的混元图像3.0,则依托全新架构,不仅跃升至文生图榜单首位,更超越了众多闭源模型,充分展现了其厚积薄发的实力。
据官方介绍,混元图像3.0采用的是原生多模态架构,能够通过单一模型处理文字、图片、视频与音频等多种模态的输入与输出,而无需依赖多个组合模型来完成图文理解或图像生成等任务。
这意味着,该模型不仅拥有生图模型的绘画能力,还具备语言模型的思考能力和常识。它就像一个自带“大脑”的画家,可以利用智能去思考图像的布局、构图、笔触,利用世界知识去推理常识性的画面。
此外,混元图像3.0参数规模高达80B,不仅是目前参数量最大的开源生图模型,也是业界首个开源工业级原生多模态生图模型。
不过,目前该模型仅开放了文生图能力,图生图、图像编辑、多轮交互等能力预计将于后续版本中推出。