如果你手机里正在跑Xiaomi miclaw(小米澎湃OS 3的"龙虾"AI智能体客户端)的内测版,这两天应该会收到一个新版本。更新日志不长,但每一条都踩在真实痛点上面——尤其是第一条,才是真正的大动作。
------
核心升级:终于能发图聊了
之前miclaw虽然挂着"系统级AI智能体"的名号,能帮你跨应用干活、调度系统工具、记你的偏好,但对话入口这块,一直被限制在纯文本+语音的框框里。你想让它认个物体、看一眼截图、帮分析个界面,都得绕弯子或者用别的入口。
这次更新把天花板打开了——给AI发图也能聊,支持图片多模态。 简单说就是:你可以直接在miclaw的对话框里甩一张图过去,它不只收得到,还能真正"看懂"然后跟你聊。拍的食物问热量、截的报错图问怎么解决、存的收据图问金额归类……这些原来你得自己描述半天的场景,现在直接把图怼过去就行。
这步对miclaw来说其实挺关键的。它底层跑的是小米自研MiMo大模型(后续Omni全模态方向也已经在路线图上),多模态能力早晚得上,但把它落到客户端对话流里让用户日常用起来,和"技术上支持"是两码事——后者要处理的是图片压缩策略、上下文怎么挂图、Token消耗怎么控制、回答速度能不能压住。这次更新说明这些工程问题至少已经到了能放开给用户试的阶段。
------
另外三个改动,看着小但很"有人味"
1. IM消息撤回,2分钟窗口
miclaw对话里你发错的一段话、贴错的一串信息,现在支持2分钟内撤回——跟主流IM的撤回逻辑对齐。别看这是个小事,AI对话产品的早期版本往往忽略这种"社交层面的安全感",结果就是用户不敢随便试、怕留痕。补上这一条,其实是鼓励你更自然地跟它聊,不怕手滑。
2. 语音输入界面焕新 + 多款自然音色
语音这条路miclaw一直比较重,毕竟"说一句话让手机自己去干活"是它的主卖点。这次界面重新理了一遍,视觉上更干净,同时新加了多款自然音色——翻译成白话就是:念给你听的那种AI声音,不再只有"标准播音腔",多了些更像真人的语调和节奏。用来读长回复、念摘要的时候,耐听程度会好不少。
3. 网络波动不断线,切网后AI自动续接
这条是最容易被低估的。Wi-Fi切蜂窝、电梯里掉线重连、地铁出站那一瞬间的断网——在这些场景下,之前的AI对话很容易直接卡死,你还得手动重试。现在miclaw做了断线保护:网络一抖不会把会话干掉,切网回来会自动把AI那边续上。 对于"让AI帮你跑流程"这种可能已经跑了好几轮的连续对话来说,这个稳定性的提升,比加十个花哨功能都实在。
------
放到miclaw的大节奏里看
miclaw从3月初封测到现在,走的其实是个很典型的小米式推进:先把系统权限和工具链铺好(80+系统工具、跨设备记忆同步、助手商店、MCP扩展),再一点一点把多模态、对话可靠性、语音体验这些"前端感知层"打磨到位。
这次更新的信号也很清楚:它正在从"能干活的技术演示"往"每天用不烦的日常助手"过渡。 能看图是多模态的起点而不是终点——接下来大概率还会继续扩到文档理解、界面元素识别、甚至更复杂的"看了你的图自己去点某处"的执行链路。但至少现在,你终于不用再把眼睛看到的东西,辛苦打字翻译成文字喂给它了。
内测名额依然有限,收到推送的且用且珍惜——反馈多一点,正式版才更快。
