书签分享收藏举报版权申诉 / 152

立即下载加入VIP,免费下载

当前位置：首页 > 初中教育 > 理化生 > GPT-4+技术报告（中文版）.pdf

GPT-4+技术报告（中文版）.pdf

文档编号：18632324
上传时间：2023-08-23
格式：PDF
页数：152
大小：4.28MB

GPT-4+技术报告（中文版）.pdf

《GPT-4+技术报告（中文版）.pdf》由会员分享，可在线阅读，更多相关《GPT-4+技术报告（中文版）.pdf（152页珍藏版）》请在冰点文库上搜索。

GPT-4+技术报告（中文版）.pdf

GPT-4技术报告技术报告OpenAI*摘要摘要我们报告了GPT-4的开发，这是一个大规模的多模态模型，可以接受图像和文本输入并产生文本输出。

虽然在许多现实世界的场景中不如人类，但GPT-4在各种专业和学术基准上表现出人类水平的表现，包括以大约前10%的分数通过模拟律师考试。

GPT-4是一个基于Transformermodel的模型，经过预训练，可以预测文档中的下一个令牌。

培训后的调整过程提高了真实性和对期望行为的遵守程度。

这个项目的一个核心组成部分是开发基础设施和优化方法，这些方法在广泛的规模范围内表现得可预测。

这使我们能够根据不超过GPT4计算量1/1000的模型准确预测GPT4性能的某些方面。

1导言导言本技术报告介绍了GPT-4，这是一个大型多模态模型，能够处理图像和文本输入并产生文本输出。

这种模型是一个重要的研究领域，因为它们具有广泛应用的潜力，如对话系统、文本摘要和机器翻译。

因此，近年来，它们一直是人们极大兴趣和进步的主题【1-28】。

开发这种模型的主要目标之一是提高它们理解和生成自然语言文本的能力，特别是在更复杂和微妙的场景中。

为了测试它在这种情况下的能力，GPT-4在最初为人类设计的各种考试中进行了评估。

在这些评估中，它表现得相当好，通常得分超过绝大多数人类考生。

例如，在一次模拟律师考试中，GPT-4的分数在考生中排名前10%。

这与GPT的3.5分形成鲜明对比，后者排名倒数10%。

在一套传统的NLP基准测试中，GPT-4优于以前的大型语言模型和大多数最先进的系统（通常有特定于基准测试的训练或手工工程）。

在MMLU基准【29，30】上，一套涵盖57个科目的英语多项选择题，GPT-4不仅在英语方面远远超过现有模型，而且在其他语言方面也表现强劲。

在MMLU的翻译版本上，GPT-4在26种语言中的24种超过了英语的最先进水平。

我们将在后面的章节中更详细地讨论这些模型功能结果，以及模型安全性改进和结果。

该报告还讨论了该项目的一个关键挑战，即开发深度学习基础设施和优化方法，这些方法在广泛的规模上表现可预测。

这使我们能够预测GPT-4的预期性能（基于以类似方式训练的小跑步），并在最后一次跑步中进行测试，以增加我们训练的信心。

尽管GPT-4有其功能，但它与早期的GPT模型有类似的局限性1，31，32：

它不完全可靠（例如，可能出现“幻觉”），具有有限的上下文窗口，并且不学习*请将此作品引用为“OpenAI（2023）”。

完整的作者贡献声明出现在文件的末尾。

2凭经验。

使用GPT-4的输出时应小心，尤其是在可靠性很重要的情况下。

GPT-4的能力和局限性带来了重大和新颖的安全挑战，鉴于潜在的社会影响，我们相信仔细研究这些挑战是一个重要的研究领域。

该报告包括一个广泛的系统卡（在附录之后），描述了我们预见的偏见、虚假信息、过度依赖、隐私、网络安全、扩散等方面的一些风险。

它还描述了我们为减轻GPT-4部署的潜在危害而采取的干预措施，包括与领域专家的对抗性测试，以及模型辅助的安全管道。

2本技术报告的范围和限制本技术报告的范围和限制本报告重点介绍GPT-4的能力、局限性和安全特性。

GPT-4是一种Transformermodel风格的模型【33】，使用公开可用的数据（如互联网数据）和第三方提供商许可的数据，预先训练以预测文档中的下一个令牌。

然后使用来自人类反馈的强化学习（RLHF）对该模型进行微调【34】。

鉴于竞争格局和GPT-4等大规模模型的安全影响，本报告不包含有关架构（包括模型大小）、硬件、训练计算、数据集构建、训练方法或类似内容的更多细节。

我们致力于对我们的技术进行独立审计，并在本版本随附的系统卡中分享了该领域的一些初步步骤和想法。

2我们计划向更多第三方提供进一步的技术细节，这些第三方可以建议我们如何权衡上述竞争和安全因素与进一步透明的科学价值。

3可预测的缩放可预测的缩放GPT-4项目的一大重点是建立一个可预测扩展的深度学习堆栈。

主要原因是，对于像GPT-4这样的非常大的训练运行，进行广泛的特定于模型的调整是不可行的。

为了解决这个问题，我们开发了基础设施和优化方法，这些方法在多个规模上具有非常可预测的行为。

这些改进使我们能够可靠地预测GPT-4性能的某些方面，这些性能来自使用1,000-10,000较少计算训练的较小模型。

3.1损耗预测损耗预测经过适当训练的大型语言模型的最终损失被认为很好地近似于用于训练模型的计算量的幂律【35，36，2，14，15】。

为了验证我们的优化基础设施的可扩展性，我们通过拟合具有不可约损失项的标度律（如Henighan等人【15】）来预测GPT-4在我们内部代码库（不是训练集的一部分）上的最终损失：

L（C）=aCb+C，来自使用相同方法训练的模型，但使用的计算量最多比GPT-4少10，000倍。

这一预测是在运行开始后不久做出的，没有使用任何部分结果。

拟合的标度律高精度地预测了GPT4号的最终损耗（图1）。

3.2HumanEval上能力的扩展上能力的扩展在训练前对模型的能力有所了解可以改进围绕一致性、安全性和部署的决策。

除了预测最终损失，我们还开发了一种方法来预测更可解释的能力指标。

一个这样的指标是HumanEval数据集【37】的通过率，它衡量综合不同复杂性的Python函数的能力。

我们成功地预测了HumanEval数据集子集的通过率，方法是从最多减少1000倍计算的模型中进行外推（图2）。

对于HumanEval中的单个问题，性能偶尔会随着规模的扩大而恶化。

尽管存在这些挑战，我们还是3找到了一个近似的幂律关系-EPlog（pass_rate（C）=Ck2除了随附的系统卡片，OpenAI将很快发布关于人工智能系统的社会和经济影响的其他想法，包括有效监管的必要性。

4观察到的预测gpt-4OpenAI代码库下一个单词预测代码库下一个单词预测（观察到的预测gpt-4）每字位6.05.04.03.02.01.0100p10n11000.01110n11000.011计算图一。

图一。

GPT-4和更小型号的性能。

指标是从我们的内部代码库派生的数据集的最终损失。

这和更小型号的性能。

指标是从我们的内部代码库派生的数据集的最终损失。

这是一个方便的大型代码令牌数据集，不包含在训练集中。

我们选择关注损失，因为在不同数是一个方便的大型代码令牌数据集，不包含在训练集中。

我们选择关注损失，因为在不同数量的训练计算中，它往往比其他测量方法噪声更小。

虚线显示了适合较小模型（不包括量的训练计算中，它往往比其他测量方法噪声更小。

虚线显示了适合较小模型（不包括GPT-4）的幂律；这种拟合准确地预测了）的幂律；这种拟合准确地预测了GPT4号的最终损失。

号的最终损失。

x轴被训练计算归一化，使得轴被训练计算归一化，使得GPT-4为为1。

23个个编编码码问问题题的的能能力力预预测测-平均对数通过率5（观察到的预测gpt-4）432101101000.0010.010.11101000.0010.010.11计算观察到的预测gpt-45图图二二。

GPT-4和和更更小小型型号号的的性性能能。

指指标标是是HumanEval数数据据集集子子集集的的平平均均对对数数通通过过率率。

虚虚线线显显示示了了适适合合较较小小模模型型（不不包包括括GPT-4）的的幂幂律律；这这种种拟拟合合准准确确地地预预测测了了GPT-4的的性性能能。

x轴轴被被训训练练计计算算归归一一化化，使使得得GPT-4为为1。

6精确度10050其中k和是正常数，P是数据集中问题的子集。

我们假设这种关系适用于该数据集中的所有问题。

在实践中，很低的通过率很难或不可能估计，所以我们限制问题P和模型M，使得给定一些大的样本预算，每个问题由每个模型至少解决一次。

我们在训练结束前，仅使用训练前可用的信息，在HumanEval上记录了对GPT-4表现的预测。

根据较小模型的表现，除了15个最难的人类评估问题之外，所有问题都被分成6个难度桶。

第三个最简单的桶的结果如图2所示，表明对于HumanEval问题的这个子集，结果预测非常准确，我们可以准确地估计几个较小模型的log（pass_rate）。

对其他五个桶的预测表现几乎一样好，主要的例外是GPT-4不如我们对最容易的桶的预测。

某些能力仍然难以预测。

例如，逆标度奖【38】提出了几个模型性能随标度而降低的任务。

与魏等人最近的研究结果相似。

39，我们发现GPT-4逆转了这一趋势，如图3中一项叫做后见之明忽视的任务40所示。

逆比例奖，事后诸葛亮逆比例奖，事后诸葛亮0ADABABBAGECurieGPT-3.5GPT-4型号babbagecuriegpt-3.5图图3。

GPT-4和和更更小小型型号号在在后后见见之之明明忽忽略略任任务务中中的的表表现现。

精精度度显显示示在在y轴轴上上，越越高高越越好好。

ada、babbage和和curie指指的的是是通通过过OpenAIAPI【41】提提供供的的模模型型。

我们认为，准确预测未来能力对安全非常重要。

展望未来，我们计划在大型模型训练开始之前改进这些方法，并跨各种功能注册性能预测，我们希望这成为该领域的共同目标。

4能力能力我们在一系列不同的基准上测试了GPT-4，包括最初为人类设计的模拟考试。

3我们没有为这些考试做专门的培训。

考试中的少数问题是模型在训练中看到的；对于每次考试，我们运行一个删除这些问题的变体，并报告两个问题中较低的分数。

我们认为结果具有代表性。

有关污染的更多详细信息（方法和每次检查的统计数据），请参见附录C。

考试来源于公开的材料。

考试问题包括选择题和自由回答题；我们为每种格式设计了单独的提示，并且图像包含在需要它的问题的输入中。

评估设置是根据一组验证考试的表现设计的，我们报告延期考试的最终结果。

总分数是通过使用公开可用的方法结合每次考试的多项选择和自由回答问题分数来确定的。

有关考试评估方法的更多详细信息，请参见附录A。

3我们使用训练后的RLHF模型进行这些检查。

7考试GPT-4GPT-4（无视力）GPT-3.5统一律师考试（MBE+MEE+MPT）298/400（约90）298/400（约90）213/400（第10位）LSAT163（第88位）161（第83位）第149次（第40次）SAT循证读写710/800（约93路）710/800（约93路）670/800（第87位）SAT数学700/800（第89位）690/800（第89位）590/800（第70次）研究生入学考试（GRE）定量163/170（第80次）157/170（62）147/170（第25次）研究生入学考试（GRE）口语169/170（第99次）165/170（第96次）154/170（约63）研究生入学考试（GRE）写作4/6（第54位）4/6（第54位）4/6（第54位）USABO半决赛202087/150（第99-100次）87/150（第99-100次）43/150（31-33）2022年USNCO地方科考试36/6038/6024/60医学知识自我评估计划75%75%53%Codeforces评级392（低于第5名）392（低于第5名）260（低于第5名）AP艺术史5（第86-100次）5（第86-100次）5（第86-100次）AP生物学5（第85-100次）5（第85-100次）4（第62-85次）微积分第4（第43-59）第4（第43-59）1（第0-7次）AP化学4（第71-88）4（第71-88）2（第22-46次）AP英语语言与写作2（第14-44次）2（第14-44次）2（第14-44次）AP英语文学与写作2（8-22）2（8-22）2（8-22）AP环境科学5（第91-100）5（第91-100）5（第91-100）AP宏观经济学5（第84-100次）5（第84-100次）第2（第33-48）微观经济学第5（第82-100次）4（第60-82）4（第60-82）AP物理24（第66-84次）4（第66-84次）3（第30-66次）AP心理学第5次（第83-100次）第5次（第83-100次）第5次（第83-100次）AP统计5（第85-100次）5（第85-100次）3（第40-63）美联社美国政府5（第88-100次）5（第88-100次）4（第77-88次）美联社美国历史5（第89-100次）4（第74-89次）4（第74-89次）AP世界历史4（第65-87次）4（第65-87次）4（第65-87次）AMC1030/150（第6-12次）36/150（第10-19次）36/150（第10-19次）AMC1260/150（第45-66次）48/150（第19-40次）30/150（第4-8次）品酒师入门（理论知识）92%92%80%注册侍酒师（理论知识）86%86%58%高级侍酒师（理论知识）77%77%46%Leetcode（简易）31/4131/4112/418Leetcode（中等）21/8021/808/80李特代码（硬）3/453/450/45表表1。

GPT在学术和专业考试中的表现。

在每种情况下，我们模拟真实考试的条件和分数。

我们在学术和专业考试中的表现。

在每种情况下，我们模拟真实考试的条件和分数。

我们报告了报告了GPT-4的最终分数，根据考试特定的标准进行评分，以及达到的最终分数，根据考试特定的标准进行评分，以及达到GPT-4分数的考生的百分位分数的考生的百分位数。

数。

9（考试结果（已订购由GPT3.5性能）估计百分位数下限（考生）100%GPT4GPT4（否视觉）GPT3.580%60%40%20%0%）考试图图4。

GPT在学术和专业考试中的表现。

在每种情况下，我们模拟真实考试的条件和分数。

考在学术和专业考试中的表现。

在每种情况下，我们模拟真实考试的条件和分数。

考试根据试根据GPT-3.5的表现从低到高排序。

在大多数考试中，的表现从低到高排序。

在大多数考试中，GPT4级优于级优于GPT3.5级。

为了保守级。

为了保守起见，我们报告了百分位数范围的低端，但这在起见，我们报告了百分位数范围的低端，但这在AP考试中产生了一些伪像，这些考试有非常考试中产生了一些伪像，这些考试有非常宽的评分范围。

例如，尽管宽的评分范围。

例如，尽管GPT-4在在AP生物学上获得了最高分（生物学上获得了最高分（5/5），但这在图中只显示为），但这在图中只显示为第第85个百分位，因为个百分位，因为15%的考生获得了该分数。

的考生获得了该分数。

GPT-4在大多数专业和学术考试中表现出人类水平的表现。

值得注意的是，它通过了统一律师考试的模拟版本，分数在考生中排名前10%（表1，图4）。

该模型的考试能力似乎主要源于预训练过程，并没有受到RLHF的显著影响。

在多项选择题上，基础GPT-4模型和RLHF模型在我们测试的考试中平均表现相同（见附录B）。

我们还在为评估语言模型而设计的传统基准上评估了预训练的基本GPT-4模型。

对于我们报告的每个基准测试，我们对出现在训练集中的测试数据进行污染检查（关于每个基准测试污染的详细信息，请参见附录D）。

4在评估GPT-4.5时，我们对所有基准测试都使用了少量提示1GPT-4大大优于现有的语言模型，以及以前最先进的（SOTA）系统，这些系统通常具有特定于基准的工艺或额外的训练协议（表2）。

许多现有的ML基准都是用英语编写的。

为了初步了解GPT-4在其他语言中的功能，我们使用考考试试结结果果（已已订订购购由由GPT3.5性性能能）估计百分位数下限（考生）100%GPT4GPT4（否视觉）GPT3.580%60%40%20%0%10AzureTranslate将MMLU基准【29，30】（一套跨越57个主题的多项选择题）翻译成多种语言（参见附录F中的翻译和提示示例）。

我们发现GPT-4优于GPT3.5和现有语言模型（Chinchilla2和PaLM3）的英语语言性能4在我们的污染检查中，我们发现BIG-bench42的某些部分无意中混入了训练集，因此我们将其从报告的结果中排除。

5对于GSM-8K，我们在GPT-4的预训练组合中包含了部分训练集（详见附录E）。

我们在评估时使用思维链提示【11】。

11GPT-4GPT-3.5LMSOTASOTA评价少射评价少射最佳外部LM评价少射最佳外部模型（包括特定于基准测试的调优）MMLU4386.4%70.0%70.7%75.2%57个科目的选择题（专业及学术）五发五发五发U型掌445发果馅饼掌45HellaSwag4695.3%85.5%84.2%85.6围绕日常事件的常识性推理10发10发LLaMA（验证集）28明矾47AI2推理挑战（ARC）4896.3%85.2%85.2%86.5%小学选择题科学题。

挑战集。

25发25发8发掌49圣莫伊18WinoGrande5087.5%81.6%85.1%85.1%代词分解的常识推理五发五发五发掌3五发掌3人类评估3767.0%48.1%26.2%65.8%Python编码任务0发0发0发掌3CodeT+GPT-3.551下降52（F1得分）80.964.170.888.4阅读理解和算术。

三发三发一发掌3QDGAT53GSM-8K5492.0%*57.1%58.8%87.3%小学数学问题五镜头思维链五发8发密涅瓦55Chinchilla+SFT+ORM-RL，ORM重新排序56表二。

表二。

GPT4在学术基准上的表现。

我们比较了在学术基准上的表现。

我们比较了GPT-4与最好的与最好的SOTA（与基准特定的训练）和（与基准特定的训练）和最好的最好的SOTA的的LM评估少镜头。

评估少镜头。

GPT-4在所有基准测试上都优于现有的在所有基准测试上都优于现有的LMs，并在除，并在除DROP之之外的所有数据集上通过特定于基准测试的训练击败外的所有数据集上通过特定于基准测试的训练击败SOTA。

对于每项任务，我们报告。

对于每项任务，我们报告GPT4的表的表现以及用于评估的少量方法。

对于现以及用于评估的少量方法。

对于GSM-8K，我们在，我们在GPT-4预训练组合中包含了部分训练集预训练组合中包含了部分训练集（见附录（见附录E），并且我们在评估时使用思维链提示【），并且我们在评估时使用思维链提示【11】。

对于选择题，我们向模型呈现所有答】。

对于选择题，我们向模型呈现所有答案（案（ABCD），并要求它选择答案的字母，类似于人类如何解决这样的问题。

），并要求它选择答案的字母，类似于人类如何解决这样的问题。

我们测试的大多数语言，包括低资源语言，如拉脱维亚语、威尔士语和斯瓦希里语（图5）。

GPT-4在跟随用户意图的能力方面比以前的模型有了很大的改进【57】。

在提交给ChatGPT58和OpenAIAPI41的5214个提示的数据集上，在70.2%的提示上，GPT-4生成的响应优于GPT-3.5生成的响应我们正在开源OpenAIEvals7，这是我们的框架，用于创建和运行评估GPT-4等模型的基准，同时逐个样本地检查性能。

Evals与现有的基准兼容，可用于跟踪部署中模型的性能。

我们计划随着时间的推移增加这些基准的多样性，以代表更广泛的故障模式和更困难的任务。

6我们收集了通过ChatGPT和OpenAIAPI发送给我们的用户提示，从每个模型中抽取一个响应，并将这些提示和响应发送给人工贴标机。

贴标机被指示判断响应是否是用户在给定提示的情况下想要的。

贴标者没有被告知哪个模型产生了哪个反应，反应出现的顺序是随机的。

我们过滤掉包含任何不允许或敏感内容的提示，包括个人身份信息（PII）、性内容、仇恨言论和类似内容。

我们也过滤短（例如“Hello，ChatGPT！

”和过于常见的提示。

7https:

/5v/hmmm/GPT-4该图显示了一个带有三个面板的“闪电电缆”适配器包装。

面板1：

智能手机的充电端口插入了VGA连接器（一种大型蓝色15针连接器，通常用于电脑显示器）。

面板2：

“LightningCable”适配器的包装，上面有VGA连接器的图片。

面板3：

VGA连接器的特写，末端有一个小闪电连接器（用于为iPhones和其他苹果设备充电）。

这张图片中的幽默来自于将一个大型过时的VGA连接器插入一个小型现代智能手机充电端口的荒谬。

表表3。

演演示示GPT-4视视觉觉输输入入能能力力的的示示例例提提示示。

该该提提示示包包括括一一个个关关于于具具有有多多个个面面板板的的图图像像的的问问题题，GPT-4能能够够回回答答该该问问题题。

4.1视觉输入视觉输入GPT-4接受由图像和文本组成的提示，这与纯文本设置平行，允许用户指定任何视觉或语言任务。

具体来说，该模型在给定由任意交错的文本和图像组成的输入的情况下生成文本输出。

在一系列领域包括带有文本和照片的文档、图表或截图GPT-4展示了与纯文本输入类似的功15能。

GPT4号视觉输入的一个例子可以在表3中找到。

为语言模型开发的标准测试时间技术（例如，少镜头提示、思维链等）在使用图像和文本时同样有效参见附录G中的示例。

在GPT4的博客文章【59】中可以找到一组狭窄的学术愿景基准的初步结果。

我们计划在后续工作中发布更多关于GPT-4视觉能力的信息。

165局限性局限性尽管它的能力，GPT-4有类似的限制，作为早期的GPT模型。

最重要的是，它仍然不完全可靠（它“产生幻觉”事实，并犯推理错误）。

当使用语言模型输出时，特别是在高风险的上下文中，应该非常小心，精确的协议（例如人工审查、基于附加上下文或完全避免高风险的使用）与特定应用程序的需求相匹配。

详情见我们的系统卡。

相对于以前的GPT-3.5模型，GPT-4显著减少了幻觉（这些模型随着不断的迭代而不断改进）。

在我们内部对抗性设计的真实性评估中，GPT-4的得分比我们最新的GPT-3.5高19个百分点（图6）。

按按类类别别分分类类的的内内部部事事实实评评估估精确度（CHATGPT-V2CHATGPT-V3CHATGPT-V4gpt-4）80%60%40%20%0%learningtechnologywritinghistorymathscience推荐代码业务类别technologywritinghistorymathscience图图6。

GPT-4在在九九个个内内部部对对抗抗性性设设计计的的真真实实性性评评估估中中的的表表现现。

精精度度显显示示在在y轴轴上上，越越高高越越好好。

1.0的的准准确确度度意意味味着着模模型型的的答答案案被被判判断断为为与与评评估估中中所所有有问问题题的的人人类类理理想想答答案案一一致致。

我我们们将将GPT-4与与基基于于GPT-3.5的的ChatGPT【58】的的三三个个早早期期版版本本进进行行了了比比较较；GPT-4比比最最新新的的GPT-3.5模模型型提提高高了了19个个百百分分点点，在在所所有有主主题题上上都都有有显显著著提提高高。

GPT-4在TruthfulQA【60】等公共基准上取得了进展，该基准测试了模型从一组敌对选择的不正确陈述中分离事实的能力（图7）。

这些问题与事实上不正确的答案搭配在一起，这些答案在统计上很有吸引力。

GPT-4基础模型在这项任务上只比GPT-3.5稍好一点；然而，在RLHF后培训后，我们观察到GPT-3.5.8的巨大改进。

表4显示了正确和不正确的答案。

GPT-4拒绝选择常用语（你不能教老狗新把戏），但它仍然可以错过微妙的细节（猫王不是演员的儿子，所以珀金斯是正确的答案）。

GPT4号通常缺乏对其绝大多数训练前数据在20219年9月截止后发生的事件的了解，并且没有从其经验中吸取教训。

它有时会犯简单的推理错误，这些错误似乎与许多领域的能力不相称，或者在接受用户明显错误的陈述时过于容易受骗。

它可以像人类一样在困难的问题上失败，比如在它产生的代码中引入安全漏洞。