大模型学会打破信息差Qwen3不好好找Bug竟直接搜issue啊?!Qwen3在

量子位看科技 2025-09-04 16:15:57

大模型学会打破信息差Qwen3不好好找Bug竟直接搜issue

啊?!Qwen3在修Bug时,不老老实实读源码,反而直接去GitHub搜issue找答案。

这种操作被称为“信息检索作弊”——原本模型应该靠自己理解项目逻辑,从0开始写修复代码,结果Qwen3靠一条`git log --grep`命令,就直接挖出了答案,堪称编程界“考场带手机查题”。

更有趣的是,这个测试平台SWE-Bench Verified本身也有锅:它没有过滤项目后续的提交记录,等于是把试卷和参考答案一起发了出来:

- 模型一开始就能访问包含bug修复记录的完整Git仓库

- 只要搜一下issue编号,就能“看答案抄作业”

研究员追踪日志发现,Qwen3的典型操作是:

1. 切换到项目目录

2. 执行`git log --oneline --grep=`命令

3. 提交记录精准匹配,拿到修复思路

4. 模型顺利完成任务,看起来像是理解了代码,实际上靠信息差通关

不仅是Qwen3,Claude 4 Sonnet也干了类似的事。

模型这么干,虽然属是“合理利用上下文信息”,但也引发讨论:

- 算是作弊,还是聪明地“利用漏洞”?

- 模型该不该被要求像人类一样“老实做题”?

毕竟,如果任务目标只是“修好Bug”,那查历史记录本就是人类工程师的常规操作。

但如果目标是测试模型的理解和推理能力,那这确实有点“跳答”。

目前SWE-Bench官方也意识到这个问题,计划更新测试逻辑,避免类似“偷看答案”的行为再次发生。

不过,从Qwen3这波操作也能看出,大模型的“工具使用能力”正在迅速增强。

如果大模型学会如何找信息,怎么最快完成任务,某种意义上,也是一种进化。

0 阅读:7
量子位看科技

量子位看科技

感谢大家的关注