在AI领域最难的考试Humanity's Last Exam上，Google刚发

在AI领域最难的考试Humanity's Last Exam上，Google刚发布的Gemini 3把GPT-5.1甩开了近20个百分点。更夸张的是Arc AGI 2这个测试，它专门考察AI能不能像人一样学习和举一反三，Gemini 3 Deep Think拿到了45.1%的成绩，GPT-5.1只有17%，整整差了2.6倍。这不是Google第一次在AI赛道上发力，但这次有点不一样。他们不仅发布了Gemini 3这个旗舰模型，还顺便推出了Gemini 3 Pro Preview和Gemini 3 Deep Think两个变体。更关键的是，Google把这套系统塞进了自家几乎所有的产品里。搜索、邮箱、代码编辑器，连YouTube都被拉来当了训练场。如果说之前的AI大战还停留在比拼benchmark分数的阶段，那么Google这次的打法已经进入了产品整合的深水区。他们要的不只是一个能聊天的模型，而是一个能渗透到你工作生活每个角落的智能助手。如果只是跑分高，那还不足以让人兴奋，真正牛逼的是Gemini 3的几个独门绝活。第一个是对视频的理解能力。现在的AI模型大多能看图说话，但对视频的处理往往是偷懒的做法，要么只看字幕，要么抽几帧画面意思意思。Gemini 3不一样，它真的是逐帧在看视频，而且支持一次性处理长达100万token的内容。这意味着你可以直接把YouTube视频链接扔给它，问它第3分钟的画面里有什么。视频会议记录、教学视频分析、监控画面筛查，以前需要人工一帧帧看的工作，现在AI可以批量处理了。第二个是Google搜索的AI模式。打开这个模式后，搜索结果页面会根据你的问题动态生成。不是传统的十条蓝链接加几行摘要，而是一个为你量身定制的信息仪表板。上传一篇论文，问一个问题，Gemini 3会一边思考一边生成一个结构化的结果页面，把相关信息整理得明明白白。以前是人去适应搜索引擎的规则，学习怎么输入关键词才能找到想要的信息。现在是搜索引擎来适应人的思维方式，理解你的意图后直接给出答案。第三个是Gemini Agent。它能接入你的Gmail，分析未读邮件，然后给出批量处理建议。不是简单的分类或标记，而是真的理解邮件内容，甚至可以根据上下文帮你写回复。这种能力一旦成熟，影响的不只是个人效率，整个办公软件的形态都可能被重构。Google这次没有单打独斗，而是把Gemini 3嵌入到了自己的生态系统里。从技术文档里还能挖出一些有意思的细节。Gemini 3是一个全新的基础模型，不是在旧版本上微调出来的。它采用了稀疏混合专家架构，这是目前大模型领域的主流技术路线，好处是可以在保证性能的同时控制计算成本。更关键的是，Gemini 3从训练到推理都跑在Google自研的TPU芯片上，这是Google相比其他AI公司的一个巨大护城河。OpenAI和Anthropic都依赖英伟达的GPU，而Google有自己的硬件，意味着在成本控制和性能优化上有更大的自主权。AI竞赛到了这个阶段，拼的已经不只是模型本身。OpenAI有先发优势和生态，Anthropic有安全性和代码能力，Google有搜索流量和硬件基础，每家都在用自己的长板去切市场，而市场足够大，容得下多个赢家。但有一点是确定的，AI正在从对话工具变成生产力工具。Gemini 3能看视频、能管理邮箱、能写代码、甚至能在虚拟环境里经营生意，这些能力指向的是同一个方向，让AI真正参与到人的工作流程中。Google这次的布局很清楚，他们不想只卖API，而是要把AI能力渗透到自己的每一个产品里，形成一个完整的智能生态。这条路能不能走通，取决于他们能不能在保持技术领先的同时，把产品体验做到足够好。毕竟，跑分再高，最终还是要回到一个问题上，用户愿不愿意为这个AI买单？

众力资讯网

在AI领域最难的考试Humanity's Last Exam上，Google刚发

热门分类