OPENAI推出了 Canvas,这是一个全新的界面,可用于与 ChatGPT 合作编写和编码项目,而不仅仅是简单的聊天。Canvas 会在一个单独的窗口中打开,让您和 ChatGPT 可以合作完成一个项目。这个早期测试版引入了一种全新的合作方式 — 不仅仅是通过对话,还可以通过并肩创造和完善想法。
Canvas 是使用 GPT-4o 构建的,在测试版中可以在模型选择器中手动选择。从今天开始,我们将向全球 ChatGPT Plus 和 Team 用户推出 Canvas。企业版和教育版用户将于下周获得访问权限。我们还计划在测试版结束后向所有 ChatGPT Free 用户提供 Canvas。
通过 ChatGPT 实现更好的协作
人们每天都会使用 ChatGPT 来获取写作和代码方面的帮助。虽然聊天界面易于使用,并且适用于许多任务,但当您想要处理需要编辑和修订的项目时,它会受到限制。Canvas 为此类工作提供了一个新界面。
借助画布,ChatGPT 可以更好地理解您要完成的任务的背景。您可以突出显示特定部分,以准确表明您希望 ChatGPT 关注的内容。就像文字编辑或代码审阅者一样,它可以针对整个项目提供内联反馈和建议。
您可以在画布中控制项目。您可以直接编辑文本或代码。有一个快捷方式菜单,您可以让 ChatGPT 调整书写长度、调试代码以及快速执行其他有用的操作。您还可以使用画布中的后退按钮恢复您作品的先前版本。
当 ChatGPT 检测到 Canvas 可能有用的场景时,它会自动打开。您还可以在提示中包含“使用 Canvas”以打开 Canvas 并使用它来处理现有项目。
书写快捷方式包括:
- 建议编辑: ChatGPT 提供内联建议和反馈。
- 调整长度:编辑文档长度以使其更短或更长。
- 改变阅读水平:调整阅读水平,从幼儿园到研究生院。
- 最后的润色:检查语法、清晰度和一致性。
- 添加表情符号:添加相关表情符号以强调和着色。
在画布上编码
编码是一个迭代过程,在聊天中跟踪代码的所有修订可能很困难。Canvas 使跟踪和理解 ChatGPT 的更改变得更容易,我们计划继续提高此类编辑的透明度。
编码快捷方式包括:
- 审查代码: ChatGPT 提供内联建议来改进您的代码。
- 添加日志:插入打印语句以帮助您调试和理解代码。
- 添加注释:在代码中添加注释,使其更容易理解。
- 修复错误:检测并重写有问题的代码以解决错误。
- 移植到一种语言:将您的代码翻译成 JavaScript、TypeScript、Python、Java、C++ 或 PHP。
训练模型成为合作者
我们训练 GPT-4o 以创意伙伴的身份进行协作。该模型知道何时打开画布、进行有针对性的编辑和完全重写。它还了解更广泛的背景,以提供精准的反馈和建议。
为了支持这一点,我们的研究团队开发了以下核心行为:
- 触发画布进行书写和编码
- 生成多样化的内容类型
- 进行有针对性的编辑
- 重写文档
- 提供在线批评
我们通过 20 多次自动化内部评估来衡量进度。我们使用新颖的合成数据生成技术(例如从 OpenAI o1-preview 中提取输出)对模型的核心行为进行后期训练。这种方法使我们能够快速解决写作质量和新用户交互问题,而无需依赖人工生成的数据。
一个关键挑战是确定何时触发画布。我们教会模型打开画布来处理诸如“写一篇关于咖啡豆历史的博客文章”之类的提示,同时避免过度触发一般问答任务,例如“帮我做一道新的晚餐菜谱”。对于写作任务,我们优先改进“正确的触发器”(以“正确的非触发器”为代价),与带有提示指令的基线零样本 GPT-4o 相比,成功率达到了 83%。
值得注意的是,此类基线的质量对所使用的特定提示高度敏感。使用不同的提示,基线可能仍然表现不佳,但表现方式不同 – 例如,在编码和写作任务中表现不准确,导致错误分布不同,并导致表现不佳。对于编码,我们故意让模型偏向于触发,以避免打扰我们的高级用户。我们将根据用户反馈继续完善这一点。
Canvas 决策边界触发器 – 写作与编码
对于写作和编码任务,我们提高了正确触发画布决策边界的能力,与带有提示指令的基线零样本 GPT-4o 相比分别达到 83% 和 94%。
第二个挑战涉及在触发画布后调整模型的编辑行为——具体来说,就是决定何时进行有针对性的编辑,而不是重写整个内容。我们训练模型在用户通过界面明确选择文本时执行有针对性的编辑,否则倾向于重写。随着我们完善模型,这种行为会不断发展。
Canvas 编辑边界 – 写作与编码
对于写作和编码任务,我们优先改进画布目标编辑。使用画布的 GPT-4o 比基线提示的 GPT-4o 性能高出 18%。
最后,训练模型以生成高质量评论需要仔细迭代。与前两种情况不同,前两种情况很容易适应自动评估和全面的人工审核,而以自动化方式衡量质量尤其具有挑战性。因此,我们使用人工评估来评估评论的质量和准确性。我们的集成画布模型在准确率和质量上均优于零样本 GPT-4o,前者高出 30%,后者高出 16%,这表明与带有详细说明的零样本提示相比,合成训练显著提高了响应质量和行为。
Canvas 建议评论
人工评估评估了画布评论的质量和准确性功能。我们的画布模型比零样本 GPT-4o 的提示指令准确率高出 30%,质量高出 16%。
要让人工智能更加实用和易于使用,我们需要重新思考我们与人工智能的互动方式。Canvas 是一种新方法,也是我们两年前推出 ChatGPT 可视化界面以来的首次重大更新。