去年《自然》研究称,随着大型语言模型的规模扩大,随着能力增强同时,可靠性却因此出现了下降。通过一项新研究探讨,发现大型语言模型也有思维定式现象,比如在处理任务时出现不一致或错误回答的情况。通过五种不同的基准测试 (简单的算术、词汇重组、地理知识、科学问题和信息转换任务),研究人员分析了多个大型语言模型,由于训练模型的限制,包括OpenAI的GPT系列、Meta的LLaMA系列和BigScience的BLOOM系列,随着模型规模的扩大,它们的回答变得越来越精确,但可靠性也越来越低:回答中错误答案的比例也变高了,在一些改进的模型中,错误答案的比例甚至超过了60%。
去年《自然》研究称,随着大型语言模型的规模扩大,随着能力增强同时,可靠性却因此出
羽虚客大
2025-01-18 21:31:13
0
阅读:0