AI 辅助究竟是成长的捷径,还是能力的毒药?
最近读了Anthropic的一篇论文:How AI Impacts Skill Formation
arxiv.orgAnthropic 的研究员通过随机实验发现过度依赖 AI 完成陌生任务,会严重削弱开发者的概念理解、代码阅读和调试能力。
实验对象是 52 名具备 Python 经验但从未接触过 Trio 库(一个异步编程库)的开发者。研究者将他们分为两组:一组可以使用 GPT-4o 辅助,另一组只能查阅文档。任务是完成两个涉及异步并发和错误处理的编程挑战。
实验结果出乎意料:
使用 AI 辅助的开发者在随后的知识测验中,平均分比对照组低了 17%。在满分 27 分的测试中,这相当于掉了两个等级。
在概念理解、代码阅读和调试三项指标中,调试能力的差距最大。对照组因为在任务中被迫独立解决 Bug,反而掌握了更深层的逻辑。
最令人意外的是,AI 组在平均完成时间上并没有表现出统计学上的显著优势。
通过分析屏幕录制发现,部分参与者花费了大量时间构思 Prompt 或与 AI 纠缠。有人为了写一个查询就耗费了 6 分钟,而整个任务的中位时间也不过 19 分钟。
研究者根据交互行为将开发者归纳为六种画像:
低分模式(得分 < 40%):
- 全权委托型:完全依赖 AI 写代码,任务完成最快,但脑子最空。
- 渐进依赖型:从提问开始,最终演变为让 AI 代劳。
- 迭代调试型:遇到错误直接丢给 AI,不求甚解。
高分模式(得分 > 65%):
- 生成后理解型:先让 AI 生成,再通过追问搞懂原理。
- 混合解释型:要求 AI 在给出代码的同时附带深度解释。
- 概念询问型:只问原理,坚持自己动手写代码。这一类人的得分最高,且速度仅次于全权委托型。
AI 辅助下的生产力更像是一种“外骨骼”;它能让你在穿上它时力大无穷,但如果你不主动发力,自身的肌肉只会萎缩。
如果人类因为依赖 AI 而失去了理解底层逻辑和发现错误的能力,我们还凭什么监督 AI?