Realtime API 的公开测试版,让所有付费开发者都能在其应用中打造低延迟、多模式体验。与 ChatGPT 的高级语音模式类似,Realtime API 支持使用六种预设声音进行自然的语音对语音对话API 中已经支持。
我们还在Chat Completions API中引入了音频输入和输出,以支持不需要 Realtime API 的低延迟优势的用例。通过此更新,开发人员可以将任何文本或音频输入传递到GPT-4o,并让模型以他们选择的文本、音频或两者做出响应。
从语言应用和教育软件到客户支持体验,开发人员一直在利用语音体验与用户建立联系。现在有了 Realtime API,并且很快会在 Chat Completions API 中增加音频功能,开发人员不再需要拼凑多个模型来支持这些体验。相反,您只需调用一个 API 即可构建自然的对话体验。
工作原理
以前,为了创建类似的语音助手体验,开发人员必须使用Whisper等自动语音识别模型转录音频,将文本传递给文本模型进行推理,然后使用文本转语音播放模型的输出模型。这种方法通常会导致情感、强调和口音的缺失,以及明显的延迟。借助 Chat Completions API,开发人员可以通过单个 API 调用处理整个过程,尽管它仍然比人类对话慢。Realtime API 通过直接流式传输音频输入和输出来改善这一点,从而实现更自然的对话体验。它还可以自动处理中断,就像 ChatGPT 中的高级语音模式一样。
在底层,Realtime API 允许您创建持久的 WebSocket 连接以与 GPT-4o 交换消息。该 API 支持函数调用这使得语音助手能够通过触发操作或引入新上下文来响应用户请求。例如,语音助手可以代表用户下订单或检索相关客户信息以个性化其响应。
为客户支持代理、语言学习助理等提供支持
作为迭代部署策略的一部分,我们一直在与一些合作伙伴一起测试 Realtime API,以便在构建过程中收集反馈。一些有希望的早期用例包括:
Healthify 是一款营养和健身指导应用程序,它使用实时 API 实现与其 AI 教练 Ria 的自然对话,同时在需要个性化支持时让人类营养师参与进来。
Speak 是一款语言学习应用程序,它使用 Realtime API 来支持其角色扮演功能,鼓励用户用新语言练习对话。