一个大模型持续写代码,能写多久?一小时?一天?还是像大部分AI编程工具那样,完成一个任务就结束对话?Cursor的CEO MichaelTruell决定搞一次极限压力测试!
Michael Truell让Cursor中的GPT-5.2连续运行了整整一周。
不是一小时,不是一天,而是不眠不休,昼夜不停,168小时持续写代码。
结果?
300万行代码。数千个文件。
AI完全从零构建出一个全新浏览器。

而且,还是Chrome那种浏览器。
HTML解析、CSS布局、文本渲染、还有一个自研的JavaScript虚拟机——全是AI自己写的。
Michael Truell轻描淡写地发了条推文:它基本能跑!简单的网页能快速且正确地渲染出来。

一个模型究竟能跑多久
传统的AI编程工具,比如Github Copilot和早期的其他IDE,都是一问一答模式。
对话长度有限,上下文有限,任务复杂度有限。
后来出现了所谓的Agentic编程——Claude Code、Cursor Agent、Windsurf等工具让AI可以自主执行多步任务,读取文件、运行命令、修复错误。
这已经是很大的进步,但大多数情况下,任务仍然以分钟计算,最多几小时。
AI完成一个功能,人类review,然后继续下一个任务。
但没有人尝试过让一个模型连续跑一周。
直到GPT-5.2。
Cursor团队让GPT-5.2持续运行了整整一周,不是断断续续,而是连续工作。

在这一周里,它:
-
写下了超过300万行代码
-
创建了数千个文件
-
执行了数万亿个token
-
从零构建了一个完整的浏览器渲染引擎
一个模型究竟能运行多久?
答案是:理论上,可以无限。
只要基础设施稳定,只要任务足够明确,AI就能持续工作——不眠不休,不吃不喝,7×24小时全年无休。
就像澳洲的放羊大叔的「赛博黑工」。
但实际上,不同模型的「耐力」差异巨大。
上下文窗口是第一道门槛。
早期的GPT-3.5只有4K token上下文,意味着对话稍长就会失忆。
Claude 3推出了200K上下文,GPT-4 Turbo跟进128K,Gemini 1.5 Pro更是号称支持100万token。
但上下文长度只是理论值——真正考验的是模型在长任务中能否保持一致性、专注度和执行力。
Cursor团队在实验中发现了关键差异。