高级AI个人助理:AI的下一个风口?

球千任谈科技 2024-06-19 18:20:00

在上周的年度全球开发者大会上,苹果公司宣布将 AI 整合到其手机和应用程序中,包括 Siri。苹果公司表示:

“Siri 将能够了解您的个人背景,能够在应用程序内和跨应用程序执行操作,并了解您设备的功能和设置,从而以前所未有的方式为您提供帮助。”

但这是否仅仅是一个更大世界的开端?在这个世界中,人与人之间的互动由 AI 助理驱动,包括彼此之间(或者更准确地说,彼此的个人助理之间)的互动?谷歌 DeepMind 最近发表的一篇关于 AI 个人助理的论文(略带一丝不安地)写道:

“AI 助理可以成为其实际帮助、创造性刺激,甚至在适当范围内为其用户提供情感支持或指导的重要来源……在其他方面,这个世界可能会变得更糟。它可能是一个高度依赖技术、孤独和迷失方向的世界……在很大程度上,我们步入哪个世界是我们现在做出的选择的结果……然而,考虑到创建有益的 AI 助理所涉及的无数挑战和一系列相互关联的问题,我们也可能想知道如何才能最好地推进这项工作。”

## **什么是高级 AI 个人助理?**

我们已经拥有像 Siri 和 Alexa 这样的个人助理,它们使用自然语言界面已有十年之久,而大型语言模型(LLM)是当今的技术,那么,在不久的将来,高级 AI 个人助理与它们有何不同?

个人助理现在使用嵌入式 AI,允许用户说出通过自然语言处理来解释的自然语言指令。然而,DeepMind 的论文将当前的应用状态描述为“一个碎片化的景观……在这种景观中……AI 技术被嵌入作为一个更广泛的软件系统的组件……[并且] AI 的作用是在预定义的步骤序列中完成特定任务。”

虽然 LLM 正在发展出强大的能力,但它们的设计目的是复制其训练数据的分布,以找到在给定文本上下文的情况下“下一个词”的概率。它们不会“在运行过程中”与外部环境互动或从中学习。虽然自然语言处理意味着 LLM 可以听取来自现实世界的指令并以对话方式做出回应,但要能够在现实世界中运作,就需要具备做出决策、执行任务和对不断变化的现实世界环境做出反应的能力。

DeepMind 的论文将高级 AI 助理定义为具有人机交互界面的智能体,其功能是跨越一个或多个领域,并根据用户的期望,代表用户规划和执行一系列行动。虽然 LLM 是 AI 智能体的核心,但驱动其更“现实世界观”、个性化和决策能力的其他关键特征如下:

* 当用户询问 AI 智能体某件事时,会制定一份预设的提示列表(“提示配方”),以便在将指令传递给 LLM 之前对其进行“丰富”,有点像检索增强生成(RAG)。提示配方赋予了 AI 智能体其个性、目标和行为。

* 内存记录特定于个人用户或任务的详细信息。短期记忆捕捉最近的行动或口头输入/输出,以便更好地与人类保持对话。长期记忆允许回忆过去更长时间的请求等,并提供累积的经验和学习集。

* 知识代表了适用于所有用户的通用专业知识,可以是关于世界的常识性知识、关于如何做事的程序性知识和专业知识。

* 工具将 LLM 的输出从文本生成扩展到现实世界中的其他行动。

DeepMind 的论文给出了一些高级 AI 个人助理可以使用的例子:

* “你的秘书”:未来的 AI 助理可以利用存储在其他应用程序中的信息,例如用户的日历,拥有过去互动的“记忆”,并根据用户的偏好进行优化,以避免例如为睡眠不足的用户安排上午的会议。

* “你的生活教练”:一个知道用户正试图提高其长跑成绩的 AI 助理可以积极地寻找机会帮助他们实现这一目标:从建议路线到在回答与食物相关的问题时牢记健身目标,甚至可能在适当的时候提供动力和改进建议。

* “你的导师”:AI 助理可以从许多不同的来源收集、总结和呈现信息,并以适合用户的格式和风格(文字为主或视觉为主)呈现。用户还可以跟进澄清问题(反之亦然),与 AI 助理开始一个来回的过程,帮助他们完善自己的整体理解。

## **我们是否需要为 AI 个人助理制定类似于阿西莫夫机器人三定律的准则?**

DeepMind 的论文认为,在高级 AI 助理的开发开始之前,我们需要在“涉及 AI 智能体、用户、开发者和整个社会的四方关系中,让关系更加清晰明确。

0 阅读:0

球千任谈科技

简介:感谢大家的关注