众力资讯网

在AI领域最难的考试Humanity's Last Exam上,Google刚发

在AI领域最难的考试Humanity's Last Exam上,Google刚发布的Gemini 3把GPT-5.1甩开了近20个百分点。更夸张的是Arc AGI 2这个测试,它专门考察AI能不能像人一样学习和举一反三,Gemini 3 Deep Think拿到了45.1%的成绩,GPT-5.1只有17%,整整差了2.6倍。这不是Google第一次在AI赛道上发力,但这次有点不一样。他们不仅发布了Gemini 3这个旗舰模型,还顺便推出了Gemini 3 Pro Preview和Gemini 3 Deep Think两个变体。更关键的是,Google把这套系统塞进了自家几乎所有的产品里。搜索、邮箱、代码编辑器,连YouTube都被拉来当了训练场。如果说之前的AI大战还停留在比拼benchmark分数的阶段,那么Google这次的打法已经进入了产品整合的深水区。他们要的不只是一个能聊天的模型,而是一个能渗透到你工作生活每个角落的智能助手。如果只是跑分高,那还不足以让人兴奋,真正牛逼的是Gemini 3的几个独门绝活。第一个是对视频的理解能力。现在的AI模型大多能看图说话,但对视频的处理往往是偷懒的做法,要么只看字幕,要么抽几帧画面意思意思。Gemini 3不一样,它真的是逐帧在看视频,而且支持一次性处理长达100万token的内容。这意味着你可以直接把YouTube视频链接扔给它,问它第3分钟的画面里有什么。视频会议记录、教学视频分析、监控画面筛查,以前需要人工一帧帧看的工作,现在AI可以批量处理了。第二个是Google搜索的AI模式。打开这个模式后,搜索结果页面会根据你的问题动态生成。不是传统的十条蓝链接加几行摘要,而是一个为你量身定制的信息仪表板。上传一篇论文,问一个问题,Gemini 3会一边思考一边生成一个结构化的结果页面,把相关信息整理得明明白白。以前是人去适应搜索引擎的规则,学习怎么输入关键词才能找到想要的信息。现在是搜索引擎来适应人的思维方式,理解你的意图后直接给出答案。第三个是Gemini Agent。它能接入你的Gmail,分析未读邮件,然后给出批量处理建议。不是简单的分类或标记,而是真的理解邮件内容,甚至可以根据上下文帮你写回复。这种能力一旦成熟,影响的不只是个人效率,整个办公软件的形态都可能被重构。Google这次没有单打独斗,而是把Gemini 3嵌入到了自己的生态系统里。从技术文档里还能挖出一些有意思的细节。Gemini 3是一个全新的基础模型,不是在旧版本上微调出来的。它采用了稀疏混合专家架构,这是目前大模型领域的主流技术路线,好处是可以在保证性能的同时控制计算成本。更关键的是,Gemini 3从训练到推理都跑在Google自研的TPU芯片上,这是Google相比其他AI公司的一个巨大护城河。OpenAI和Anthropic都依赖英伟达的GPU,而Google有自己的硬件,意味着在成本控制和性能优化上有更大的自主权。AI竞赛到了这个阶段,拼的已经不只是模型本身。OpenAI有先发优势和生态,Anthropic有安全性和代码能力,Google有搜索流量和硬件基础,每家都在用自己的长板去切市场,而市场足够大,容得下多个赢家。但有一点是确定的,AI正在从对话工具变成生产力工具。Gemini 3能看视频、能管理邮箱、能写代码、甚至能在虚拟环境里经营生意,这些能力指向的是同一个方向,让AI真正参与到人的工作流程中。Google这次的布局很清楚,他们不想只卖API,而是要把AI能力渗透到自己的每一个产品里,形成一个完整的智能生态。这条路能不能走通,取决于他们能不能在保持技术领先的同时,把产品体验做到足够好。毕竟,跑分再高,最终还是要回到一个问题上,用户愿不愿意为这个AI买单?