伯克利的博士生江昊哲写了一篇博文: Can Transformers Do Everything, and Undo It Too?astro-eric.github.io/blogs/surjective/这篇文章分析并澄清了近期两篇针对 Transformer 性质的研究:第一篇论文证明模型是满射的(即能生成任意内容),引发了“越狱不可避免”的安全担忧;第二篇论文则证明模型是单射的(即输入输出一一对应),引发了“隐私可被反推”的泄密担忧。文章作者指出,这两篇论文的结论看似矛盾(一个说能做任何事,一个说能被撤销),实则是针对不同函数层面的讨论。作者最终澄清:由于 LLM 处理的是离散文字且是自回归生成的,它既不符合严格的满射也不符合严格的单射。因此,理论上的“完美越狱”和“完全反推隐私”在目前的文本模型中并不成立,但在机器人或图像生成等连续域模型中,这些风险才是真实且紧迫的。
