Google Gemini 2.0 是Google最新推出的多模态人工智能大模型,它代表了Google 在人工智能领域的一个重要进步。Google gemini2.0多能力巨牛,视频通话,屏幕共享。
个人觉得核心牛逼的地方有几个:
1,纯多模态的视频对话。点击左侧stream realtime,三楼选择右侧对话框里面的show gemini,就可以和它直接打开摄像头和它视频对话,大概和chatgpt的高阶语音模式很类似。不过暂时它不能说中文,它听的懂中文,但是它不不说。它可以看懂你摄像头里的东西,理解所有的视觉画面。比如我让他仔细和我说说我身后的东西,都可以说出来。拿出kindle放在摄像头前给他看,看着屏幕上的文字,也能和我说这本书的内容。也能分辨我的手表的品牌。
2,共享屏幕,直接变成ai伴侣。点击右侧对话框上面的share your screen,就可以把你屏幕共享给它。你可以选择只共享浏览器窗口,或者整个桌面。非常棒。接下来你边工作可以边和它聊天。比如让它帮你看看你正在浏览的网页,或者让他看看你和别人的聊天窗口,问问他自己的聊天方式是否可以更好(比如你打开微信对话框,让它给你当聊天参谋)。更炸裂的是,可以陪你看youtube视频,一边看一边聊。有不懂的还可以让它给你解释一下。绝对的新时代体验。
3,不想视频,也可以普通语音对话,类似chatgpt的高阶语音模式,选择talk to gemini就可以了。
4,打通了工具使用的agent能力(自动调用谷歌旗下工具),还有长文本,长表格处理,和代码能力上的多重突破,为整个project astra的超级ai助理打好了基础。有兴趣的可以自己去研究一下。谷歌这次更新,绝对不输openai的12天马拉松更新。顺带还推出了了生视频模型veo2。
不得不说谷歌最近的一系列ai应用真的越来越上道。notebookLM,learn about,这次又把背后的基础模型更新的gemini升级到了2.0,各种能力长足进步,加上自身的应用和模型融合的特别好。有点感觉ai全球领域进入openai,anthropic和google三足鼎立的时代了,而且google后劲越来越强。 ai创造营 [彩虹屁]