众力资讯网

刚刚,OpenAI开发者大会重磅发布:AgentKit、Codex正式版、Apps SDK

机器之心报道

OpenAI今年的开发者大会(OpenAIDevDay2025)正在进行中。

Keynote一开场,山姆・奥特曼便分享了OpenAI这两年取得的成绩:400万开发者、8亿周活ChatGPT用户、API每分钟60亿token消耗量。

更重要的是,OpenAI在今年的开发者大会上可真是发布了不少东西,简单总结起来包括:AgentKit、Codex正式版、ChatGPT内置应用与AppsSDK、gpt-realtime-mini、gpt-image-1-mini、Sora2API、GPT-5proAPI。

下面具体来看看这些新模型和新工具。

AgentKit

首先,最引人瞩目的便是:AgentKit。

AgentKit是一套面向开发者和企业的完整工具集,可用于构建、部署和优化智能体(agent)。

这让不少人惊呼:OpenAI「杀死」了大量创业公司。

OpenAI为AgentKit设计了一些全新的模块化组件,可助力用户更快地开发智能体,包括AgentBuilder、ConnectorRegistry和ChatKit。

AgentBuilder

乍一看,AgentBuilder的界面与扣子等工作流编排工具非常相似,可让用户可视化地设计工作流。

具体来说,可视化画布AgentBuilder可用于创建、管理和版本化多智能体工作流;其提供了一个拖拽式的可视化画布,用于组合逻辑节点、连接工具、配置自定义安全护栏。它支持预览运行、内嵌评估配置和完整版本控制,非常适合快速迭代。

Guardrails(护栏)是AgentBuilder中一个开源、模块化的安全层,用于防止智能体出现意外或恶意行为。它可用于屏蔽或标记个人信息(PII)、检测越狱尝试、应用其他安全机制。Guardrails可以单独部署,也可通过Python或JavaScript库集成。用户可以选择是否启用它。

ConnectorRegistry

用于集中管理数据与工具在OpenAI产品中的连接方式;其在一个管理面板中整合了ChatGPT和API的所有数据源,包括预置连接器(如Dropbox、GoogleDrive、SharePoint、MicrosoftTeams)及第三方MCP。

ChatKit

一个工具套件,可以将基于聊天的智能体直接嵌入用户的应用或网站,并自定义外观与品牌风格。

目前,ChatKit已广泛应用于内部知识助手、新员工入职引导、客服支持、研究助手等场景。OpenAI表示HubSpot、LegalOn、Evernote、Taboola等公司都已使用ChatKit来增强产品交互体验。

评估

此外,OpenAI还扩展了评估功能,引入了数据集、trace评分、自动提示词优化、第三方模型支持等新特性。

OpenAI表示:「自从3月推出ResponsesAPI和AgentsSDK以来,我们看到开发者和企业已经在使用它们构建端到端的智能体工作流,例如用于深度研究、客户支持等。Klarna构建的客服智能体现已处理了全部工单的三分之二,而Clay则通过销售智能体实现了10倍增长。而AgentKit正是在ResponsesAPI的基础上构建的,可以帮助开发者更高效、更可靠地构建智能体。」

强化微调

强化微调(RFT)让开发者能够定制OpenAI的推理模型。目前它已在o4-mini模型上全面开放,并在GPT-5上进入私测阶段。OpenAI表示正与数十家客户合作,持续完善GPT-5的RFT体验。

OpenAI介绍了此次在RFT私测中新增的两项关键功能:

Customtoolcalls:可让模型学会在合适时机调用正确工具,提高推理效率;

Customgraders:可让用户自定义评估标准,从而聚焦最关注的性能指标。

价格与可用性

从今天起:

ChatKit与全新的评估功能已对所有开发者全面开放

AgentBuilder进入公开测试(Beta)

ConnectorRegistry正在逐步向部分API、ChatGPTEnterprise和Edu客户开放测试,ConnectorRegistry需要通过GlobalAdminConsole启用(供全局管理员管理域名、SSO、多组织API等)。

以上所有工具均包含在标准API模型定价中。

OpenAI表示,计划在不久的将来为ChatGPT增加独立的WorkflowsAPI与智能体部署选项。

Codex正式版

今天,CodeX正式版(GeneralAvailability)上线,并带来了三项全新功能:

全新的Slack集成:用户现在可以像与同事交流一样,在团队频道或线程中直接向Codex分配任务或提问。

CodexSDK:可将驱动CodexCLI的同款智能体嵌入用户自己的工作流、工具或应用中,在GPT-5-Codex上实现最先进性能,无需额外微调。

全新的管理员工具:通过环境控制、监控与分析面板,ChatGPT工作区管理员可以更好地掌控Codex的使用和运行。

自从今年5月Codex云端智能体(Codexcloudagent)以研究预览版推出以来,Codex已稳步演进为一个更可靠、更强大的编码协作伙伴。

现在,用户可以在所有编码场景中使用Codex(编辑器、终端、云端)都通过ChatGPT账号互联。

OpenAI还介绍了Codex的用户增长情况:自8月初以来,Codex的日活跃使用量增长了10倍以上,而GPT-5-Codex也成为增长最快的模型之一,在上线后短短三周内就处理了超过40万亿token。

如今,Codex已被全球不少开发者广泛采用——从Duolingo、Vanta这样的初创公司,到思科、乐天这样的企业巨头。OpenAI表示:「在OpenAI内部,Codex也已成为我们研发流程中不可或缺的一部分:从7月时的一半工程师使用,到现在几乎所有工程师都在用。他们每周合并的PR数量增加了70%,而Codex会自动审查几乎所有PR,在问题进入生产环境前就能发现关键缺陷。」

ChatGPT内置应用与AppsSDK

OpenAI还正式发布ChatGPT新一代可对话应用(Apps)。用户现在可以直接在ChatGPT聊天界面中与这些应用交互。

这些应用可与ChatGPT的对话体验无缝融合。用户可以在对话中被智能推荐到合适的应用,也可以直接「呼叫」它们的名字。这些应用支持自然语言交互,并在聊天窗口中内嵌交互式界面,让体验更直观。

对用户而言,ChatGPT中的应用会根据用户上下文动态适应,提供创作、学习、任务执行等方面的帮助。

从今天起,除欧盟地区外,所有登录的ChatGPT用户(Free、Go、Plus、Pro版本)均可使用这些应用。首批上线的应用包括:Booking.com、Canva、Coursera、Figma、Expedia、Spotify、Zillow。

开发者也可从今天起,使用全新的AppsSDK(预览版)开始构建属于自己的ChatGPT应用。

该SDK基于ModelContextProtocol(MCP)——一种开放标准,使ChatGPT能连接外部工具与数据。AppsSDK在此基础上进一步扩展,让开发者能够同时设计应用的逻辑与界面。

AppsSDK已经开源。

此外,通过AppsSDK构建的应用还可以在恰当的时机触达超过8亿ChatGPT用户。

OpenAI计划今年晚些时候把应用功能扩展到ChatGPTBusiness、Enterprise和Edu版本。届时也会开放应用提交流程,让开发者能正式在ChatGPT上架应用。

他们还将推出一个专属的应用目录(AppDirectory),用户可在其中浏览、搜索、发现应用。

gpt-realtime-mini

OpenAI还发布了一个GPTRealtime的mini版本,可通过WebRTC、WebSocket或SIP连接实时响应音频和文本输入。以下截图展示了其一些参数和定价信息:

gpt-image-1-mini

另外,OpenAI也为GPTImage1模型打造了一个mini版本。它是一种原生多模态语言模型,可同时接受文本和图像输入和生成图像输出。以下截图展示了其一些参数和定价信息:

Sora2API

Sora是OpenAI在生成式媒体领域的最新前沿成果。这是一款最先进的视频生成模型,能够根据自然语言或图像生成具有丰富细节、动态画面与音频的视频片段。

Sora基于多模态扩散模型(multimodaldiffusion)多年研究成果构建,并在多样化的视觉数据上训练,使其在三维空间理解、运动建模和场景连贯性方面具备深厚能力,将文本到视频的生成质量推向新高度。

今天,OpenAI也首次通过VideoAPI首次向开发者开放Sora的能力,支持通过编程方式创建、扩展或混合(remix)视频内容。

它包含五个端点(endpoints),每个端点都有不同的功能:

Createvideo(创建视频):从提示词开始一个新的渲染任务,可选择性添加参考输入或remixID。

Getvideostatus(获取视频状态):查询渲染任务的当前状态,监控其进度。

Listvideos(列出视频):分页查看你的历史视频记录,用于展示、管理或清理。

Deletevideos(删除视频):从OpenAI存储中移除指定视频ID。

Sora2系列目前提供两个变体,针对不同使用场景优化。

Sora2:注重速度与灵活性,适用于创意探索阶段,注重快速反馈而非极致画质。特点是生成速度快、质量佳,适合快速迭代、概念验证或粗剪阶段。推荐用途:社交媒体内容、产品原型、需要快速产出的项目。

Sora2Pro:支持专业级画质,适用于需要高质量视频的场景、可直接用于生产的内容。其渲染时间更长、成本更高,但输出更加稳定、细腻、逼真。推荐用途:高分辨率电影镜头、营销视频、以及对视觉精度要求极高的项目。

GPT-5proAPI

强大推理模型GPT-5pro的API也已经上线:

对于OpenAI这场正在进行中的开发者大会,你有什么期待?