ChatGPT: Optimizing Language Models for Dialogue

首页 > 市场资讯 > AI资讯 >

2023年06月09日 cnpim 信息来源：网络

ChatGPT: Optimizing Language Models for Dialogue

作者: cnpim CNPIM 2023年06月09日

官网：https://openai.com/blog/chatgpt/

Methods

　　我们使用来自人类反馈的强化学习（RLHF）来训练这个模型，使用与InstructionGPT相同的方法，但数据收集设置略有不同。我们使用有监督的微调训练了一个初始模型：人工智能训练师提供对话，他们扮演用户和人工智能助手的双方角色。我们让训练师获得模型书面建议，以帮助他们撰写回复。我们将这个新的对话数据集与InstructGPT数据集混合，并将其转换为对话格式。

　　为了创建强化学习的奖励模型，我们需要收集比较数据，其中包括两个或多个按质量排序的模型响应。为了收集这些数据，我们进行了AI训练师与聊天机器人的对话。我们随机选择了一个模型撰写的消息，抽样了几个备选的完成，并让AI训练师对其进行排名。使用这些奖励模型，我们可以使用近端策略优化（PPO）对模型进行微调。我们对这个过程进行了多次迭代。

　　ChatGPT从GPT-3.5系列中的一个模型进行了微调，该系列于2022年初完成了训练。您可以在此处了解有关3.5系列的更多信息。ChatGPT和GPT 3.5在Azure AI超级计算基础设施上进行了训练。

Limitations

ChatGPT有时会写出看似合理但不正确或荒谬的答案。解决这一问题具有挑战性，因为：（1）在RL训练期间，目前没有任何真相来源；（2）训练模型更加谨慎会导致它拒绝正确回答的问题；（3）监督训练误导了模型，因为理想的答案取决于模型知道什么，而不是人类演示者知道什么。
ChatGPT对输入短语的调整或多次尝试同一提示很敏感。例如，给定一个问题的一个短语，模型可以声称不知道答案，但稍微重新措辞，可以正确回答。
该模型通常过于冗长，过度使用某些短语，例如重申它是OpenAI训练的语言模型。这些问题源于训练数据中的偏差（训练师更喜欢看起来更全面的较长答案）和众所周知的优化问题。^1,2
理想情况下，当用户提供模棱两可的查询时，模型会提出明确的问题。相反，我们当前的模型通常猜测用户的意图。虽然我们努力让模型拒绝不适当的请求，但它有时会响应有害的指令或表现出有偏见的行为。
我们正在使用Moderation API来警告或阻止某些类型的不安全内容，但我们预计目前它会有一些误报和误报。我们渴望收集用户反馈，以帮助我们正在进行的改进系统的工作。

本文阅读量：次

上一篇：ChatGPT让沟通更智能、更便捷
下一篇：ChatGPT对Google的挑战这么大么？

声明：本信息来源于网络，仅用于学习和技术交流，如有侵权或其他问题，请联系本站处理。

首页 > 市场资讯 > AI资讯 > 标题 全文

ChatGPT: Optimizing Language Models for Dialogue

ChatGPT: Optimizing Language Models for Dialogue

Methods

Limitations

最新发布

首页 > 市场资讯 > AI资讯 >