万益资讯网

基座大模型其实很笨,表现出来的智能是开发者精心“编排”出来的,对大模型进行了极为

基座大模型其实很笨,表现出来的智能是开发者精心“编排”出来的,对大模型进行了极为变态的训练

大模型唯一的功能,就是对一段输入,给出一段输出。一开始,就是自然聊天一样,就是大多数人和大模型聊的感觉。你说上句,它接下句,训练材料里知道怎么接。

这种训练其实比较自然,大家和大模型聊得也算自然。幻觉什么的也正常,人也幻觉。一般人会以为,自己看的书少、知识少,大模型什么书都看过,区别就是这个 。

但是开发者是一群变态,对大模型干了超乎想象的输入输出训练。一般人绝对想不到的训练,叫“后训练”。

例如,工具训练。看到一个编程IT问题,一个“/tools”的格式暗号输入,大模型就被迫输出能用哪些工具来做这些问题。

再例如,COT思维链训练。不管什么输入,先让大模型输出和包裹的一段“内心独白”。这是强迫大模型输出类似人的“思维”。

这样的变态训练可能有上百种。这样,大模型除了聊天,还会搞不少隐藏技能。这些技能包裹在特殊的输入格式里,看见了就激发。通过这些“暗号”,开发者能组织出了一个agent体系。

例如,大模型本身连数数都不会,总是数错“单词里有几个r”这种问题。但是,它看见数数这种问题,会搞一个tools技能,聊天程序(不是大模型)会看它说的tool,以及写的python代码,去编译跑程序算出几个字母。

这就是大模型智能的秘密。基座大模型除了聊天还是聊天,就这点本事。但是它会输出一些特殊字符串,这些是“编排程序”看得懂的,就拿去执行。反复使用工具,就能解决很多问题。

这套办法连记忆都能模拟出来,组合出的智能很强大。但这是成套复杂过程的结果,非常人为,充满了人类开发者的生硬感。用久了就会产生感觉,上当了,是和一个没有灵魂的工具聊,是组合出来的字符串输出。

即使聊天框这个最简单的APP应用,也有很复杂的过程,需要网络搜索、工具调用,一堆小工具、小模型配合。

如果直接编程,对一段输入调用基座大模型,直接看输出,会发现大模型很笨,根本就不智能。我们是在聊天框里聊,其实不是和大模型聊,是和开发者精心组织的一个聊天程序聊,工具满天飞。