AI大神卡帕西又整活了，这次把大模型拉进了“议会系统”互相开会评判彼此——他新做

量子位看科技 2025-11-24 01:18:38

AI大神卡帕西又整活了，这次把大模型拉进了“议会系统”互相开会评判彼此——他新做了一个llm-council项目，是一个开源web应用，底层是多个模型串联合作的“多模态委员会”机制：- 用户提问后，问题会被同步发送给多个大模型，比如GPT-5.1、Gemini 3 Pro、Claude Sonnet 4.5和Grok-4；- 每个模型单独答一遍，再看到其他模型的回答进行匿名互评、打分、写点评；- 最后由“主席模型”整合大家的答案和评价，生成最终答复。最有趣的部分就是模型彼此互评时居然挺“诚实”，它们很乐意承认别的模型写得比自己好，甚至不乏批评自己答得不如人意的情况。卡帕西还拿这个“议会”一起读书做实验，观察哪家模型更擅长分析文本，结果显示GPT-5.1经常被大家评为最佳，而Claude总是垫底，但他个人认为Gemini 3其实更凝练，GPT-5.1太啰嗦了。这个项目探索了一个新方向：多模型“集体智慧”，不再只靠一个大模型闭门造车，而是让它们互相反馈、竞合、择优生成。更大胆的想法是，也许未来的AI系统不是一个模型，而是多个模型组成的团队，每个都有分工，互相投票、互相审校。项目目前已开源，感兴趣的朋友可以从这里玩起来：github.com/karpathy/llm-council

0 阅读：0

量子位看科技

感谢大家的关注

作者最新文章

1

估值10亿美元的AI笔记公司Fireflies最近自曝了一段黑历史：2017年以

2

杭州蚂蚁，投了一家腾讯系具身智能公司。刚刚，来自深圳的星尘智能再下一城，宣布完成

3

ICAIS第二天！ ICAIS 2025 以“AI驱动科研创新”为主题，云集多位

4

输入晦涩的学术论文，AI能直接帮你做插图。牛津大学的研究员Anders Sand

5

AI大神卡帕西又整活了，这次把大模型拉进了“议会系统”互相开会评判彼此——他新做

6

带领IDEA研究院（粤港澳大湾区数字经济研究院）走过第五个年头的沈向洋，在IDE

7

IDC最新数据显示，2025年第三季度，全球PC出货量达到7590万台，比去年同

8

ICAIS 2025 以“AI驱动科研创新”为主题，云集多位诺奖得主及中外院士，

9

北大数院“黄金一代”，现在有了院士代表。99级毕业生、现任北大博雅特聘教授、数学

10

国产AI模型也能在物理顶赛上狂飙！来自上海AI实验室的开源模型P1，在IPhO

热门分类

科技TOP

1

昨天小鹏科技日最出圈的就是机器人全网都在找它是披着皮的真人的证据确实相比今年4月

2

为啥股价会跌？没看明白。单从步态讲小鹏机器人是全球走得最好最像人的。我平时研究临

3

科技发展真是越来越离谱啦！近日，浙江温州街头，一个人形机器人稳稳牵着机器狗遛弯，

4

对小鹏机器人太好奇了，不可能是真人套个皮吧？小鹏好歹是家上市公司专门开个发布会亮

5

最近关于荣耀500系列的爆料越来越全面，如果这些配置是真的就太棒了！数字系列一

6

荣耀的连环招太狠了！三款新机，款款都是王炸！影像有荣耀500Pro：骁龙8

7

这新闻是认真的吗，华为MateX7如果8000元起步，那现在买X6的不得哭晕在

8

家人们谁懂啊！荣耀这是要“卷疯”友商啊😱最近手机圈又出大动静啦！荣耀500

9

咋回事？我连预定都没抢到？！昨天还在那儿各种挑槽点呢结果今天华为Mate8

10

📱荣耀500系列杀疯了！中端价格硬塞旗舰配置，这波操作太狠了！【标准版

科技最新文章

1

华为Mate80系列还有几天就要发布了，这下2025年度旗舰已经集结完毕，给大家

2

余总手握Mate80ProMax，正面屏幕观感还是不错的，有几个点不难看出，真

3

这次Mate80系列不光全系直屏回归，从视频里看黑边也控制的很不错。关键的是这块

4

荣耀的连环招太狠了！三款新机，款款都是王炸！影像有荣耀500Pro：骁龙8

5

大胆预测一下！荣耀500系列的价格应该就这样了吧荣耀500：12

6

华为Mate80即将登场：产业核心龙头！1.北斗通信2.散热3.芯片+显示

7

历代华为Mate系列外观对比图来了，这么一看还是华为Mate60最漂亮，也难怪当

8

太流畅了！Mate40系列开始陆续推送鸿蒙4.2.0.192新版本。昨天晚些时间

9

心情非常紧张！从来没有如此担心！又一次错失换华为新机！害怕真机又是宽手感！

10

整理了一下11月新机发布会11月24日：荣耀500系列新机发布会11月25日：