GPT-5.2连肝7天，300万行代码造出Chrome级浏览器

一个大模型持续写代码，能写多久？一小时？一天？还是像大部分AI编程工具那样，完成一个任务就结束对话？Cursor的CEO MichaelTruell决定搞一次极限压力测试！

Michael Truell让Cursor中的GPT-5.2连续运行了整整一周。

不是一小时，不是一天，而是不眠不休，昼夜不停，168小时持续写代码。

结果？

300万行代码。数千个文件。

AI完全从零构建出一个全新浏览器。

GPT-5.2连肝7天，300万行代码造出Chrome级浏览器

而且，还是Chrome那种浏览器。

HTML解析、CSS布局、文本渲染、还有一个自研的JavaScript虚拟机——全是AI自己写的。

Michael Truell轻描淡写地发了条推文：它基本能跑！简单的网页能快速且正确地渲染出来。

GPT-5.2连肝7天，300万行代码造出Chrome级浏览器

一个模型究竟能跑多久

传统的AI编程工具，比如Github Copilot和早期的其他IDE，都是一问一答模式。

对话长度有限，上下文有限，任务复杂度有限。

后来出现了所谓的Agentic编程——Claude Code、Cursor Agent、Windsurf等工具让AI可以自主执行多步任务，读取文件、运行命令、修复错误。

这已经是很大的进步，但大多数情况下，任务仍然以分钟计算，最多几小时。

AI完成一个功能，人类review，然后继续下一个任务。

但没有人尝试过让一个模型连续跑一周。

直到GPT-5.2。

Cursor团队让GPT-5.2持续运行了整整一周，不是断断续续，而是连续工作。

GPT-5.2连肝7天，300万行代码造出Chrome级浏览器

在这一周里，它：

一个模型究竟能运行多久？

答案是：理论上，可以无限。

只要基础设施稳定，只要任务足够明确，AI就能持续工作——不眠不休，不吃不喝，7×24小时全年无休。

就像澳洲的放羊大叔的「赛博黑工」。

但实际上，不同模型的「耐力」差异巨大。

上下文窗口是第一道门槛。

早期的GPT-3.5只有4K token上下文，意味着对话稍长就会失忆。

Claude 3推出了200K上下文，GPT-4 Turbo跟进128K，Gemini 1.5 Pro更是号称支持100万token。

但上下文长度只是理论值——真正考验的是模型在长任务中能否保持一致性、专注度和执行力。

Cursor团队在实验中发现了关键差异。

每日播报更多>>