登录
首页 > 博客圈子 > 拆解Gemini 3:Scaling Law的极致执行与“全模态”的威力

拆解Gemini 3:Scaling Law的极致执行与“全模态”的威力

发布时间:2025-11-24 14:41:07

毫无疑问,Google最新推出的Gemini 3再次搅动了硅谷的AI格局。在OpenAI与Anthropic激战正酣之时,谷歌凭借其深厚的基建底蕴与全模态(Native Multimodal)路线,如今已从“追赶者”变成了“领跑者”。

此次Gemini 3不仅在多模态能力上实现了新的飞跃,更被视为谷歌对Scaling Law最极致的一次执行。

硅谷101在11月20日举办了一场直播,邀请了四位处于AI研发与应用最前线的嘉宾:

  • 田渊栋,前Meta FAIR研究总监、AI科学家

  • 陈羽北,加州大学戴维斯分校助理教授、Aizip联合创始人

  • Gavin Wang,前Meta AI工程师、负责Llama 3后训练及多模态推理

  • Nathan Wang,资深AI开发者、硅谷101特约研究员

图片

我们试图透过Gemini 3的发布,试图回答关于AI未来的几个关键问题:Gemini 3到底强在哪里?谷歌究竟做对了什么?全球大模型竞争格局将如何改变?LLM的未来走向,以及在LLM之外,最前沿的AI实验室正在关注什么?

以下是我们直播中的嘉宾浓缩观点,如果想收看完整直播内容,可以关注我们的YouTube和B站回放。

 

01 体验实测:Gemini 3到底强在哪里?

在Gemini 3发布后的48小时内,各大榜单被迅速刷新。不同于以往模型仅在单一维度(如代码或文本)上的提升,Gemini 3被认为是真正意义上的“全模态原生”模型。对于使用者而言,这种技术参数上的提升转化为怎样的实际体感?

图片来源:LM Arena

陈茜:各位这两天都在高强度测试Gemini 3,它真的如排行榜那样霸榜吗?大家能不能举例讲讲,它到底好在哪里?

Nathan Wang:我这两天大概集中使用了三个主要产品:Gemini主App、针对开发者的Google AntiGravity,以及今天刚发布的Nano Banana Pro。

说实话,AntiGravity给我感觉非常像是一个Agentic时代的IDE(集成开发环境)。它和Cursor或者Claude Code不太一样的地方在于,它把界面分成了 "Manager View"(经理视角) 和 "Editor View"(编辑视角)。

以前我们在Cursor里,虽然AI帮我们写代码,但感觉还是“我”在写。但在AntiGravity里,Manager View让你感觉你是坐在那里的经理,底下有8到10个Agent小弟在干活。你可以看着它们分工,有的在写程序,有的在Run Unit Test(单元测试)。

最惊艳的是它结合了Browser Use的功能。比如我写了一个前端网页,它有一个叫Screenshot Pro的功能,跑分非常高。它可以直接调用Chrome浏览器打开那个网页,“看”着屏幕去测试。如果你让它上传一个文件、点击一个按钮,它能像人一样去操作。这意味着测试加上开发完全自动化了,变成了一体式的开发体验。

另外,Nano Banana Pro在生成幻灯片这个点上解决了我很大的痛点。以前我让AI做PPT,比如“解释一下Gemini从1.0到3.0的发展路线”,它往往逻辑链是断的。但这次我试了一下,它不仅能把逻辑理顺,还能生成非常复杂的图表。我觉得市面上那些做Slides(幻灯片)的软件可能都要被它取代了。

Copyright 2005-2025 王晨云 版权所有  京ICP备20051637号-1