众力资讯网

近期用 Hermes Agent 还是比较频繁的,分享一下自己的新感受。虽然不是

近期用 Hermes Agent 还是比较频繁的,分享一下自己的新感受。虽然不是特别明确,但我似乎在与 Agent 协作的过程中逐渐体会到一种更加平衡的掌控感。在这之前我遇到过不太受控的状态,第一类情况是觉得模型的能力还不行,不够聪明所以做事的结果不太理想,然后又会反思是不是自己的指令给得不够好。第二类情况是觉得模型比自己聪明太多了,自己在这项任务中体现不出价值。

而我说的“更加平衡的掌控感”是我感觉到其实模型的能力或许不是恒定的。在不同场景下,是人类引导 Agent 还是 Agent 代替人类的情况是不同的,甚至一个场景下的不同时刻,我的角色可能都会出现变化。

更多情况下我觉得是 Agent 在兼容人类,或者说操作 Agent 的时候人类越“强”,Agent的表现就越好。而这种“强不强”不仅仅在会话最开始的提示词,更重要的可能是中间的纠错和引导。在自己比较熟悉的领域,会有一种一步步解锁 Agent 性能的感觉。然后事情很可能变成多次解锁性能后的 Agent 突然比我更加“厉害”,我可能会被迫放慢速度去慢慢追上 Agent 的思路。待到我追上后又开始继续解锁 Agent 性能。而在我自己本来就不太熟悉的领域,这个螺旋上升的体验可能也会有,但相对来说增益放大的速度会比较慢一些。

我想到了 Agent 或模型本身有很多评测方式,能给模型不同维度打分,两个模型之间似乎可以比拼出谁好谁不好。但对于模型来说,这真的“客观”吗?

评分标准可能是客观的,这个过程是固定了一系列的提示词X,然后分别看A和B模型去执行后能拿多少分。但实际应用的时候这个X其实就是和使用者的水平能力,表达风格有很大关系。都想完成一件特定的任务,不同的人敲出来的提示词差异肯定是很大了。而且评测相当于考试,中间没有任何人为提示和纠错的机会。

基于此,我是不是可以认为,在某种程度上一个模型的能力是可以通过使用者来激发出更强的能力。比方说解决一个事情需要执行一系列的脚本和命令,但如果使用者能给出更加优秀的思路,用不同的模型来做这件事可能过程和结果是类似的,因为这里的门槛就只有理解思路和执行命令,只要理解偏差不大,没有生成错误的命令就可以了。

但我不是想表达让模型去“考试”没有意义。我更像表达的是,我们实际用 AI 的时候,并不是时刻都想难倒他,反而是希望我们出的题目 AI 能够更好理解并顺利解决。

结合管理员使用 Hermes 时的情况,她经常就问我“为什么一定要这样说呀,我刚才直接让他xxx不可以吗?”有些情况下我能解释,更多情况我也不知道,我只知道到了这一步应该这么说,Agent 才大概率能顺利完成下一步。