毫无疑问,Google最新推出的Gemini 3再次搅动了硅谷的AI格局。在OpenAI与Anthropic激战正酣之时,谷歌凭借其深厚的基建底蕴与全模态(Native Multimodal)路线,如今已从“追赶者”变成了“领跑者”。
此次Gemini 3不仅在多模态能力上实现了新的飞跃,更被视为谷歌对Scaling Law最极致的一次执行。
硅谷101在11月20日举办了一场直播,邀请了四位处于AI研发与应用最前线的嘉宾:
-
田渊栋,前Meta FAIR研究总监、AI科学家
-
陈羽北,加州大学戴维斯分校助理教授、Aizip联合创始人
-
Gavin Wang,前Meta AI工程师、负责Llama 3后训练及多模态推理
-
Nathan Wang,资深AI开发者、硅谷101特约研究员

我们试图透过Gemini 3的发布,试图回答关于AI未来的几个关键问题:Gemini 3到底强在哪里?谷歌究竟做对了什么?全球大模型竞争格局将如何改变?LLM的未来走向,以及在LLM之外,最前沿的AI实验室正在关注什么?
以下是我们直播中的嘉宾浓缩观点,如果想收看完整直播内容,可以关注我们的YouTube和B站回放。
01 体验实测:Gemini 3到底强在哪里?
在Gemini 3发布后的48小时内,各大榜单被迅速刷新。不同于以往模型仅在单一维度(如代码或文本)上的提升,Gemini 3被认为是真正意义上的“全模态原生”模型。对于使用者而言,这种技术参数上的提升转化为怎样的实际体感?
来源:LM Arena
陈茜:各位这两天都在高强度测试Gemini 3,它真的如排行榜那样霸榜吗?大家能不能举例讲讲,它到底好在哪里?
Nathan Wang:我这两天大概集中使用了三个主要产品:Gemini主App、针对开发者的Google AntiGravity,以及今天刚发布的Nano Banana Pro。
说实话,AntiGravity给我感觉非常像是一个Agentic时代的IDE(集成开发环境)。它和Cursor或者Claude Code不太一样的地方在于,它把界面分成了 "Manager View"(经理视角) 和 "Editor View"(编辑视角)。
以前我们在Cursor里,虽然AI帮我们写代码,但感觉还是“我”在写。但在AntiGravity里,Manager View让你感觉你是坐在那里的经理,底下有8到10个Agent小弟在干活。你可以看着它们分工,有的在写程序,有的在Run Unit Test(单元测试)。
最惊艳的是它结合了Browser Use的功能。比如我写了一个前端网页,它有一个叫Screenshot Pro的功能,跑分非常高。它可以直接调用Chrome浏览器打开那个网页,“看”着屏幕去测试。如果你让它上传一个文件、点击一个按钮,它能像人一样去操作。这意味着测试加上开发完全自动化了,变成了一体式的开发体验。
另外,Nano Banana Pro在生成幻灯片这个点上解决了我很大的痛点。以前我让AI做PPT,比如“解释一下Gemini从1.0到3.0的发展路线”,它往往逻辑链是断的。但这次我试了一下,它不仅能把逻辑理顺,还能生成非常复杂的图表。我觉得市面上那些做Slides(幻灯片)的软件可能都要被它取代了。