大模型学会打破信息差Qwen3不好好找Bug竟直接搜issue啊？！Qwen3在

大模型学会打破信息差Qwen3不好好找Bug竟直接搜issue

啊？！Qwen3在修Bug时，不老老实实读源码，反而直接去GitHub搜issue找答案。

这种操作被称为“信息检索作弊”——原本模型应该靠自己理解项目逻辑，从0开始写修复代码，结果Qwen3靠一条`git log --grep`命令，就直接挖出了答案，堪称编程界“考场带手机查题”。

更有趣的是，这个测试平台SWE-Bench Verified本身也有锅：它没有过滤项目后续的提交记录，等于是把试卷和参考答案一起发了出来：

- 模型一开始就能访问包含bug修复记录的完整Git仓库

- 只要搜一下issue编号，就能“看答案抄作业”

研究员追踪日志发现，Qwen3的典型操作是：

1. 切换到项目目录

2. 执行`git log --oneline --grep=`命令

3. 提交记录精准匹配，拿到修复思路

4. 模型顺利完成任务，看起来像是理解了代码，实际上靠信息差通关

不仅是Qwen3，Claude 4 Sonnet也干了类似的事。

模型这么干，虽然属是“合理利用上下文信息”，但也引发讨论：

- 算是作弊，还是聪明地“利用漏洞”？

- 模型该不该被要求像人类一样“老实做题”？

毕竟，如果任务目标只是“修好Bug”，那查历史记录本就是人类工程师的常规操作。

但如果目标是测试模型的理解和推理能力，那这确实有点“跳答”。

目前SWE-Bench官方也意识到这个问题，计划更新测试逻辑，避免类似“偷看答案”的行为再次发生。

不过，从Qwen3这波操作也能看出，大模型的“工具使用能力”正在迅速增强。

如果大模型学会如何找信息，怎么最快完成任务，某种意义上，也是一种进化。

0 阅读：78

听说iPhone17Air因为eSIM卡的问题没法在国内落地，对此只能说很正