打造可信企业AI代理的四大技巧

公司正在以多种方式探索AI代理。

专业人士必须考虑如何利用这些技术。

衡量、协作和实验是关键。

AI代理将影响每一个专业角色。如果贵公司尚未开始使用代理，它很快就会通过现成的软件产品或内部工具（利用大语言模型和数据源）介入。

正在探索如何在工作中使用代理的专业人士，最好寻求最佳实践指导。一个信息来源是Thomson Reuters Labs的首席技术官Joel Hron，他正帮助这家信息服务公司利用生成式AI、机器学习和代理技术。

Hron对ZDNET说，Thomson Reuters使用内部模型和现成工具的混合来驱动其AI创新。除了来自大型科技公司的前沿实验室的进展外，Hron和他的团队确保公司充分利用其专有知识和资产。

“如果看我们做得好的核心，那就是能够将人类专业知识和信息综合成可返回给专业人士的判断，”他说。

“这些专业知识的交付机制正在演变。传统上是通过软件交付，但现在越来越多是通过代理，或代理加软件交付。”

Hron指出Thomson Reuters在代理方面的几项关键成就，包括AI驱动的法律研究工具Westlaw Advantage和公司内部的Deep Research代理，该代理能够像研究员一样审阅洞见并制定策略。

从这些探索中，Hron说他总结出四条关键经验，帮助专业人士构建可信的代理AI系统。

Hron说，第一个重点是评估“你需要知道什么是好的。”

虽然评估听起来是显而易见的要求，Hron说这是一项难以做到、量化并系统化的过程。

“过去三年我们一直说，这是构建优秀AI系统最重要的事情之一，在代理时代依然如此，”他说。

Hron“我们仍然需要人类专家的信心。”

Hron的团队通过多种方式跟踪和衡量代理的成功。首先，他们利用公共基准，这些基准提供了新模型潜在性能的早期指示。

其次，他们开发了内部基准，并为自动评估设定了明确方向“不仅仅是说‘生成的答案与好答案有多接近’，我们的过程是明确‘到底什么让答案好？’”

最后，Thomson Reuters保持人类在回路中，确保评估超越自动化评估。

“自动评估帮助我们的开发团队更快转动飞轮，能够相对快速地测试大量想法，这很好。但在发布之前，我们仍然需要人类专家的信心以及他们对性能的评估，”他说。

“持续依赖这种方法让我们能够推出在市场上表现良好的优秀产品。我认为人类输入是我们能够自信且出色完成工作的关键因素。”

Hron建议专业人士深入了解代理的功能以及它们随时间的运行方式。

“将这种认知紧密耦合到用户体验中越来越重要，”他说。“如果把这些代理系统看作是人类AI合作者，那么人类和代理需要共享语言和共同的界面。”

Hron表示，这种共同语言和界面应让人类了解代理的思考过程，反之亦然。

“这是一个全新的重要UI体验，我认为将对代理的深度技术理解与良好的用户体验紧密结合至关重要。”

虽然许多专家谈论人机耦合的重要性，Hron说成功的关键很简单让业务团队一起合作。

“这个过程并非科学——而是让我的设计师坐到数据科学家旁边，讨论正在发生的事情，”他说。“我们让这两类人越靠近、越频繁坐在一起，跨领域思考的渗透就越好。”

尽管有各种炒作，Hron说专业人士必须认识到，代理及其背后的模型远非全知。

Hron说，AI模型在三个维度上不断提升编写代码、执行计划和多步推理。最新的进展使模型能力可以通过其他软件工具得到扩展。

“对我们公司而言，这种发展更是积极的，因为这意味着如果我们能够把数十年来卖给市场的数百个应用拆解，那么我们就拥有了对专业人士的验证能力，”他说。

“如果我们能把这些元素拆解成代理的工具，那么我们实际上大幅扩展了这些模型的能力，这正是代理的未来。”

Hron建议专业人士不要把代理AI视为全能模型，而是让代理访问人们已经使用的成熟能力，这是他团队的重点。

“我们审视自己的系统，问自己‘好，我们已经为人类用户构建了多年。现在，代理需要什么样的人机工效学才能与该系统协作？我们如何调整流程，使其更适合代理，而不是只能适用于人类？这对工具的外观、手感和性能意味着什么？’”

Thomson Reuters Labs最近发起了Trust in AI Alliance，一个由Anthropic、AWS、Google Cloud、OpenAI和Thomson Reuters的高级AI研究员组成的构建者主导论坛，讨论如何在代理系统中构建信任。

Hron说，该联盟公开分享经验，以推动整个行业围绕可信AI的讨论，同时帮助他团队的高级成员向行业先驱学习最佳实践。

“我们正在推动可解释性和透明度，说明这些模型是如何运作的，”他说。

Hron表示，技术先驱及其模型显著缩短了从零准确率到90%所需的时间和精力。

“但我们不止追求90%”，他说。“我们在追求99%甚至99.9%的游戏，我们必须考虑如何获得额外的那一两位数的准确率，这正是信任的差别所在。”

在此过程中，Thomson Reuters还与学术机构合作。去年底，公司宣布与伦敦帝国学院建立为期五年的联合前沿AI研究实验室。

“在这些项目中，我们专注于最后的两位数准确率，因为这正是人们在我们将产品投放市场时所期待的，”Hron说。

“前沿技术组织将继续推动可能性的极限。但对我们而言，竞争优势在于那最后的两位数——在法律、税务和合规领域，这决定了胜负。因此，这正是我们必须做到的。”

#AI# #DNET# #科学家# #Anthropic# #AWS# #OpenAI# #游戏# #Google#

众力资讯网