有一次我在办公室听到同事抱怨:“这个模型怎么连一个小小的改写都看不懂?明明只是把‘不字加进去,意思完全变了,它却觉得差不多。”
听上去像个笑话,但这正是现实。在加州大学伯克利的研究团队里,几位学者提出了一个新的评估体系,叫SAGE基准。名字看起来像“智者”其实全称是“语义对齐与泛化评估”。他们的想法很直接:既然大模型在那些“理想条件”的测试里分数越来越高,那是不是该换一种更接近现实、更刁钻的考验?
于是SAGE便应运而生,主要评估以下五个维度:人类偏好对齐——能否和人类的主观判断一致。转化鲁棒性——能否在文字被轻微改动时保持稳定。信息敏感度——能否察觉到,内容被删减,或加入无关信息后的变化。聚类表现——能否把相似文本自动归到一类,检索鲁棒性——能否在文本被扰乱的情况下依旧找到相关内容。
人类的眼光:模型能不能“懂偏好”,研究团队用了一个包含近19万条人类评分的数据集,里面有人对摘要的质量、准确性、完整性、连贯性进行打分。
结果显示:大规模的嵌入模型A在对齐人类偏好方面得分0.682明显高于传统的BM25方法(0.591)。而像编辑距离、Jaccard相似度这些传统指标,在这里就显得,力不从心。
这让我想到之前在新闻推荐里的经历:一个旧算法觉得“风格相似”的文章人看了完全不对味。而新模型生成的推荐,哪怕并不完美,但在整体感觉上更贴近人类直觉。
小噪声vs.大改动:谁能看穿表象第二类测试为鲁棒性。
在现实当中,文字从来都不是干净的,存在OCR产生的错字、随意加上的数字来替代字母,甚至句子的顺序也会被打乱。研究者设计了六种扰动,其中有三种不会改变意思(例如错别字这类情况),另外三种则会改变意思(像加上否定之类的情况)。
结果很意外:小规模嵌入模型B的聚类表现最好(0.483),但在鲁棒性上几乎垫底,得分只有0.011。反倒是传统的编辑距离方法,在鲁棒性上,得分0.333比大多数嵌入模型,更稳。我想起自己处理合同扫描件时的经历:本来以为,用最新模型能够搞定,结果几个“能”与“不能”的错误识别,直接使合同意思发生了反转。最后还是得依靠简单的编辑距离工具来进行补救。
信息敏感度:一点点改动,模型察觉了吗第三类任务为信息敏感度。研究者于文档中,塞入一些无关的“假文本”,或删掉部分内容。在理想的情形下,改动倘若越多,其相似度便该越低。
结果:Jaccard相似度意外逆袭,拿到了0.905的高分。最好的嵌入模型在这里只有0.794。生活中你一定也遇到过:一篇文章,被删掉了关键段落,人一下子就能感觉出“不完整”。但有些模型,却还觉得“差不多”。
在这种场景之下,老方法反而更为敏感。聚类与检索:表面风光,暗藏隐患在聚类测试中,小规模嵌入模型B,“聚类小能手”,其分数为0.483而传统BM25的分数仅为0.209。这表明它着实能够将相似文本自动进行归类。可一到检索鲁棒性,就暴露了问题。
研究团队在文档里加上18种扰动,包括乱序、插入无关段落、删除内容,再测试检索表现。结果发现:最强的嵌入模型在噪声环境下,效果只剩下45.7%。看似在干净环境里很完美的模型,一旦进入真实世界,性能会大幅下滑。
我想到了曾经在知识库项目中遇到的这样一种情况:上线之前,测试进展得十分顺利,不过只要用户输入带有拼音缩写或者错别字的内容,这样检索结果就会完全偏离原本的方向。真实考验:没有完美选手SAGE的最大价值,不在于宣布谁赢谁输,而是揭示了一个事实:没有任何一种方法能在所有方面都胜出,如果只看综合分数,可能会选错模型,实际数据,永远是“不太干净”的实验室里的高分,仅仅是“最高限度”。
研究最后提醒:不要迷信榜单排名。即便那是最为强大的嵌入模型,于真实场景之下,也会存有67%这般高的失败率。倘若未配合诸如数据清洗、重排以及过滤等这些防护性的手段,便贸然进行部署,那便是在进行冒险之举。写在最后这篇研究让我想到这样一个画面:在温室里长大的花,看起来娇艳欲滴,不过可一旦搬到风雨中,或许立刻就会蔫掉。
SAGE这个基准,就如同特意将花移至室外,经历淋雨、吹风之苦,去观察它能否经受得住。结论十分明了:大模型的未来,不仅仅在于分数变得更高,更是在于能否在纷繁杂乱的现实之中,依然保持可靠。