概述

在 2018 年 6 月，OpenAI 提出了 GPT 神经网络模型，该模型立即在多种语言类测试中展现出极佳结果。 GDP-2 于 2019 年出现，而 GPT-3 则于 2020 年 5 月提出。这些模型展示了神经网络生成相关文本的能力。尚有其他实验涉及生成音乐和图像的能力。这一模型的主要缺点与它们涉及的计算资源相关。在配备 8 颗 GPU 的计算机上训练第一个 GPT 花费了一个月的时间。为了解决新问题，使用预先训练的模型，可部分弥补这一缺陷。但考虑到模型的规模，需要大量资源来维持模型的运行。

编辑切换为居中

(资料图)

1. 理解 GPT 模型

从概念来讲，GPT 模型是在之前研究的变换器基础上构建的。主要思路是基于大数据针对模型进行无监督预训练，然后再依据相对少量的标记数据进行微调。

分两步训练的原因在于模型规模。像 GPT 这样的现代深度机器学习模型涉及大量参数，可多达数亿个。因此，这种神经网络的训练需要大量的训练样本。当采用监督学习时，创建带标记的训练样本集合是件劳动密集型工作。与此同时，网站上有许多不同的数字化和无标记文本，这些文本非常适合模型的无监督训练。然而，统计数据表明，无监督学习相较监督学习，其结果要差很多。因此，在无监督训练之后，可依据相对少量的标记数据样本针对模型进行微调。

无监督学习可令 GPT 学习语言类模型，而针对特定任务，可依据标记数据进一步训练，从而调整模型。因此，为了执行不同的语言类任务，可以复制并微调一个预训练的模型。该限制基于采用无监督学习的原始语言集合。

实践表明，这种方法对于广泛的语言问题能产生良好的效果。例如，GPT-3 模型能够针对给定主题生成连贯流畅的文本。不过，请注意，指定的模型包含 1750 亿个参数，按顺序依据 570GB 的数据集合上进行了预训练。

尽管 GPT 模型是为处理自然语言类而开发的，但它们在音乐和图像生成任务中也表现出色。

理论上，GPT 模型可与任何数字化数据序列配合使用。唯一的前置需求是无监督的预学习需要足够的数据和资源。

2. GPT 与之前研究的变换器之间的区别

赫兹量化来研究 GPT 模型与之前研究的变换器有何区别。首先，GPT 模型未使用编码器，因为它们仅使用解码器。当没有编码器时，模型不再拥有“编码器 - 解码器自关注”内层。下图展示了 GPT 变换器模块。

编辑

与经典的变换器相似，GPT 模型中的模块在彼此之上构建。每个模块针对关注机制都有自己的权重矩阵，并具有完全连接的前馈层。模块的数量决定了模型的规模。模块堆栈可能会很庞大。 GPT-1 和最小的 GPT-2（小型 GPT-2）有 12 个模块；GPT-2 特大型有 48 个，而 GPT-3 则有 96 个模块。

与传统语言类模型类似，GPT 仅能够发现与序列中先前元素的关系，但无法窥视未来。但它与变换器不同，GPT 不使用元素的掩码 — 代之，它更改了计算过程。 GPT 会重置 Score 矩阵中后续元素的关注比率。

同时，GPT 可被归类为自回归模型。每次迭代都会生成一个序列令牌。生成的令牌会被添加到输入序列中，并馈入模型进行下一次迭代。

与经典变换器一样，自关注机制内的每个令牌都会生成三个向量：一个 query，一个 key，和一个 value。在自回归模型当中，在每次新迭代里，输入序列仅能由 1 个令牌更改，因此每个令牌无需重新计算向量。因此，GPT 中的每一层只在序列有新元素时计算向量。每个变换器模块都保存其向量，以备后用。

这种方式令模型能够在接收最终令牌之前逐词生成文本。

当然，GPT 模型采用多目击者关注机制。

3. 实现

在开始之前，我们来简要地复习一下算法：

令牌的输入序列会被馈入到变换器模块之中。

针对所有自关注目击者的一个序列。进而，对于每个关注的目击者，2-5 中的动作是相同的。

令牌向量乘以相应的权重矩阵 W（已训练），可计算每个令牌的三个向量（query，key，value）。

将 'query' 和 'key' 相乘，赫兹量化可判定序列元素之间的依赖性。在此步骤，将序列中每个元素的向量 'query' 乘以序列中当前元素和所有先前元素的 'key' 向量。

在每个 query 的上下文中，使用 SoftMax 函数对获得的关注得分矩阵进行常规化。序列的后续元素则设置了零关注分数。

作为第 3 步和第 4 步的结果，赫兹量化获得了平方矩阵 Score，该平方矩阵的大小依据序列中元素的数量来确定，在其内每个 'query' 的上下文中所有元素的合计为 “1”。

将常规化的关注分数乘以序列相应元素的 'value' 向量，然后与结果向量相加，我们可以得到序列 (Z) 的每个元素的关注校正值。

接下来，赫兹量化基于所有关注目击者的结果断定加权 Z 向量。为此，将来自所有关注目击者的校正后的 “value” 向量串联到单一向量，然后乘以正在训练的 W0 矩阵。

所得张量会被添加到输入序列，并进行常规化。

多目击者自关注机制后随前馈模块的两个完全连接层。第一层（隐藏）包含的神经元数量比之含有 ReLU 激活函数的输入序列多 4 倍。第二层的尺寸等于输入序列的尺寸，且神经元不使用激活函数。

完全连接层的结果与张量求和，其张量将被馈入前馈模块。然后将生成的张量常规化。

X 关闭

最近更新

量化交易软件：神经网络变得轻松11

时间： 2023-08-04
体恤退役军人渌口区暖心义诊送健康

时间： 2023-08-04
七十五万分之一！徐州九顶山野生动物园自然繁殖诞下白化小浣熊

时间： 2023-08-04
助学贷款不还会有什么后果？必知八大严重后果

时间： 2023-08-04
一吨沥青的价格是水泥的十倍还不止，明明用水泥铺路，路面更坚硬，成

时间： 2023-08-04
蓝水翡翠很贵吗

时间： 2023-08-04
鹤峰夏日好风光：农家花开引蝶来

时间： 2023-08-04
俄外交部宣布削减罗马尼亚驻俄外交人员数量

时间： 2023-08-04
“三期叠加”，防灾避险提示！

时间： 2023-08-04
展风采创佳绩｜湖北国土资源职业学院参加湖北省教师教学能力比赛再获优异成绩

时间： 2023-08-04
山水比德8月4日快速回调

时间： 2023-08-04
孚能科技上市即变脸连亏三年超25亿广州工控集团拟17.28亿溢价28%入主

时间： 2023-08-04
是什么让上海劳力士赛成为亚洲网球的赛事先锋？

时间： 2023-08-03
龙江森工集团：闻“汛”而动！多点出击打好防汛“组合拳”

时间： 2023-08-03
高凌信息(688175.SH)：802.23万股限售股8月14日起上市流通

时间： 2023-08-03
九州金榜 | 小学阶段，要培养孩子哪些好习惯，家长必读！

时间： 2023-08-03
从沈阳故宫书法展看“篆隶中兴”

时间： 2023-08-03
英飞凌第三季度业绩表现强劲，2023财年展望已确认

时间： 2023-08-03
沧州经济开发区幼儿园2023年秋季招生公告

时间： 2023-08-03
铭利达：子公司拟5亿元投建新能源精密结构件项目

时间： 2023-08-03
广生堂（300436）8月3日主力资金净买入566.93万元

时间： 2023-08-03
“杀死一切癌瘤”！抗癌神药即将诞生？CXO午后再发力，医疗ETF（512170）涨超1%

时间： 2023-08-03
男子徒步旅游迷路，警民联手暖心救助

时间： 2023-08-03
网传门头沟丁家滩村“没了” 村工作人员：村子还在，无人员伤亡！全村今天全部撤离

时间： 2023-08-03
中央气象台发布暴雨蓝色预警

时间： 2023-08-03
2023年小雪贵人运旺盛的四大星座得到质的提升

时间： 2023-08-03
降雨重心转至东北！防汛最新信息汇总

时间： 2023-08-03
杏坛镇入选2022广东文化强省建设示范案例（镇街）

时间： 2023-08-03
修订后的《山东省未成年人保护条例》10月起施行，细化规范未成年人保护

时间： 2023-08-03
今日豆粕价格行情预测

时间： 2023-08-03
富时中国A50指数期货开盘涨0.05%

时间： 2023-08-03
当美国再失去AAA评级，25万亿美债市场何去何从？

时间： 2023-08-03
“服务备战打仗，能抢一秒是一秒”（最美新时代革命军人）

时间： 2023-08-03
征兆的近义词征兆

时间： 2023-08-03
牛津鞋哪个牌子最经典（牛津鞋简介）

时间： 2023-08-03
德惠市菜园子镇：西红柿成为乡村振兴的“加速器”

时间： 2023-08-03
为暴雨受灾民众的健康服务！京东健康上线“抗汛在线义诊专区”

时间： 2023-08-02
首付比例降多少？认房不认贷可能在哪实施？业内静待各部门细则落地

时间： 2023-08-02
电池年检，充电桩价格暴涨，还是劝不退买电车的人？

时间： 2023-08-02
中国西南深层煤层气勘探再获突破

时间： 2023-08-02
国家开发银行上半年新增人民币贷款完成年度计划的71%

时间： 2023-08-02
BOSSINI INT‘L(00592)发盈警，预期中期股东应占亏损同比减少40%至50%

时间： 2023-08-02
永辉超市：不存在“京东洽谈全资收购永辉”相关事宜

时间： 2023-08-02
西媒报道：元宇宙泡沫破裂

时间： 2023-08-02
惠誉下调美国信用评级　预测美国经济将衰退

时间： 2023-08-02
第十七章，道家，乐器篇。

时间： 2023-08-02
三星Galaxy S24有惊喜，再无打孔，视野纯净，惊呆了

时间： 2023-08-02
4000元古驰T恤洗一次褪色

时间： 2023-08-02
这项配置，竟让外国大使放弃 BBA，选择了中国车？

时间： 2023-08-02
全球股市创2009年以来最大涨幅！MSCI指数今年迄今已上涨16.2%

时间： 2023-08-02
大手笔！沙特在麦地那投入3.5亿美元建设现代娱乐设施

时间： 2023-08-02
【江西日报】南昌一名女医生急救落水者

时间： 2023-08-02
券商股逆势拉升，财达证券涨停，券商ETF（159842）涨近2%丨ETF观察

时间： 2023-08-02
电脑怎么设置默认浏览器为谷歌（电脑怎么设置默认浏览器）

时间： 2023-08-02
【小里帮忙】在中公教育报班考不过全额退，学员：被迫分期退，第二期到期款未打

时间： 2023-08-02
七匹狼：因为提前做好防范措施，此次台风造成的损失较小，大部分在保险范围内

时间： 2023-08-02
让诗与远方更“触手可及”（微观）

时间： 2023-08-02
上半年规上互联网企业完成互联网业务收入6433亿元

时间： 2023-08-02
种月（关于种月的基本详情介绍）

时间： 2023-08-02
米哈游：《原神》登解放日报；《星穹铁道》CJ排队排到场馆外

时间： 2023-08-02
市民问：谁给访客登记册“戴”个安全帽？

时间： 2023-08-02
陕西省宝塔区发布大雾黄色预警

时间： 2023-08-02
姜子牙的老婆姓什么名字（姜子牙的老婆）

时间： 2023-08-02
8月首个交易日卡特彼勒一骑绝尘

时间： 2023-08-02
如何提高课堂效率老师有哪些做法如何提高课堂效率

时间： 2023-08-02
平安！因暴雨困住的3列火车乘客已安置在车厢和居民家中等处

时间： 2023-08-02
退税6000元！云梦首笔居民换购住房个人所得税退税业务落地

时间： 2023-08-01
有丝分裂的过程有丝分裂口诀

时间： 2023-08-01
激荡20年，招行信用卡的「功与名」VS「罪与过」

时间： 2023-08-01
LK-99首批重复实验结果出炉：三篇论文两篇来自中国，理论可行但未复现悬浮或超导

时间： 2023-08-01
百胜中国上半年经营利润超去年全年，肯德基狂开468家店

时间： 2023-08-01
中洲控股：南昌联泰拟减持不超过3.41%股份

时间： 2023-08-01
烤盘的正确使用和保养方法（烤盘的正确使用和保养方法视频）

时间： 2023-08-01
理想汽车7月交付34134辆，同比增长227.5%

时间： 2023-08-01
安徽省巢湖市银屏市场监管所开展塑料污染治理专项检查

时间： 2023-08-01
美国超导美股盘前延续涨势飙升超100%

时间： 2023-08-01
亚联发展股东户数增加30.04%，户均持股3.33万元

时间： 2023-08-01
毛书歌（毛书）

时间： 2023-08-01
花生的含油率远高于大豆花生油行业未来的发展趋势分析

时间： 2023-08-01
装修铺地板还是瓷砖好（装修先铺地板还是先刷墙）

时间： 2023-08-01
现身国内！富力地产总裁张力出席项目启动仪式！涉贿赂美官员案暂告一段落

时间： 2023-08-01
湖湘自然历｜虫鸣夏日访花吸蜜的不止蜜蜂，还有……

时间： 2023-08-01
长沙中战集团涉嫌违法集资

时间： 2023-08-01
下午4:30！“高校共青团改革沙龙”福建专场直播与您不见不散！

时间： 2023-08-01
大行评级丨摩根士丹利：下调中国中药目标价至5.2港元评级“增持”

时间： 2023-08-01
《剑啸九州》队友们的坚实盾牌！“天罡”帅气登场！

时间： 2023-08-01
洪水预警暴雨车被淹保险赔不赔？

时间： 2023-08-01
几年前通过支付宝来分期借的资金当时已结清，但是现在又发来信息让还款还申报材料到调理中心

时间： 2023-08-01
歌尔股份：目前订单情况正常

时间： 2023-08-01
泰山石油筹码连续10期集中

时间： 2023-08-01
北青：张源可填补国安中场空缺，加盟国安也有望实现国家队梦想

时间： 2023-08-01
神十五航天员乘组太空归来后首次公开亮相张陆：家乡的洞庭湖是我一直的牵挂

时间： 2023-08-01
新课标搭石教学反思

时间： 2023-08-01
阴雨连天引霉菌作乱家里这四个地方是“重灾区”

时间： 2023-08-01
工伤伤残等级1-10赔偿标准2022（工伤伤残等级）

时间： 2023-08-01
长和（00001.HK）：7月31日南向资金增持4.95万股

时间： 2023-08-01
倪岳峰在邢台市检查防汛抢险救灾工作

时间： 2023-08-01
国内能源供给保障能力稳步提升跨省跨区通道输电能力进一步提升

时间： 2023-07-31
遗迹2双管霰弹枪获取方法攻略

时间： 2023-07-31
思林发电厂：强化防汛巡查筑牢主汛期安全防线

时间： 2023-07-31
天然气怎么充值到ic卡_天然气怎么充值

时间： 2023-07-31
2023华为开发者大会开发者系列活动时间

时间： 2023-07-31
精研科技：控股股东拟减持不超过3%

时间： 2023-07-31
超10000亩！大规模征收！成片开发！南昌这些板块迎大动作！

时间： 2023-07-31
餐饮消费反弹，海底捞预计上半年净利超去年全年

时间： 2023-07-31
电力物联网，谁是盈利最强企业？

时间： 2023-07-31
这孩子像镜子，照出某些大人的“小”

时间： 2023-07-31
中新文娱评封神：尊重观众自会赢得真诚掌声

时间： 2023-07-31
惠普打印机墨盒卡住了怎么办（惠普卡住怎么强制关机）

时间： 2023-07-31
青岛 | 第33届青岛国际啤酒节打造安全放心节会环境

时间： 2023-07-31
顶流来了！花花带你游成都看大运

时间： 2023-07-31
申华控股7月31日盘中涨幅达5%

时间： 2023-07-31
丹丹看天气｜“卡努”上午加强为强台风级未来走向仍不确定

时间： 2023-07-31
三方交易设想：卡佩拉去独行侠西卡赴老鹰猛龙得三将+三选秀权

时间： 2023-07-31
辞任董事长两个月后，众泰汽车实控人黄继宏被爆失踪

时间： 2023-07-31
市值突破400亿港元创新高，三一国际(0631.HK)的持续进化之道

时间： 2023-07-31
国家统计局：7月制造业采购经理指数为49.3%

时间： 2023-07-31
法国留学经验分享：私立大学篇（上）

时间： 2023-07-31
中国技术助力巴西航空城绿色交通发展

时间： 2023-07-31
让阅读发出思考的声音 ——“中小学生阅读书系”有声读物产品推介活动在济南举行

时间： 2023-07-31
黑龙江等4省份公开第二轮中央生态环保督察整改情况

时间： 2023-07-31
随着海外供给增加叠加粗钢平控政策落地铁矿存在累库压力

时间： 2023-07-31
10700k占用率非常低（1070ti显卡占用率低怎么办）

时间： 2023-07-31
毕业季比亚迪成热门就业选择！超3万名应届生入职比亚迪

时间： 2023-07-31
北京发布洪水橙色预警，市民请远离河道

时间： 2023-07-31
理学包括哪些专业_有你的专业吗

时间： 2023-07-31
【聚焦第四届中国（甘肃）中医药产业博览会】陇西：浓浓药香满飘智慧中医堂

时间： 2023-07-30
四川广元9个美景（诗联）

时间： 2023-07-30
下周将有11只新股可申购

时间： 2023-07-30
兽医的工资一般是多少钱一个月（兽医工资一般是多少）

时间： 2023-07-30
第二届邵武是个好地方•严羽诗歌会——全国青年诗人邵武行活动举办

时间： 2023-07-30
通讯：“稳定的供电让我的生意红红火火”——记中国援建布隆迪鲁齐巴齐水电站

时间： 2023-07-30
有点狠！玩家仅靠一只壶壶就通关《宝可梦：晶灿钻石/明亮珍珠》

时间： 2023-07-30
不少网店用AI模特试衣？专家：应标注以避免损害消费者权益

时间： 2023-07-30
开博尔电视盒子如何连接电视开博尔网络机顶盒恢复系统方法

时间： 2023-07-30
京口瓜洲一水间，瓜洲到底是什么样？

时间： 2023-07-30
小学萝莉白袜长筒袜小学生

时间： 2023-07-30
2023年继续提高居民医保筹资标准至1020元

时间： 2023-07-30
已有5家上市公司，何享健父子资本版图欲上新？4200亿元美的又拟“A拆A”

时间： 2023-07-30
专家预测：7-8月复苏交易将推动指数修复，基建和汽车等行业或录得超额收益|宏观看点

时间： 2023-07-30
主持人涂磊被举报性侵后获证清白：拨云见日，痛苦谁偿还

时间： 2023-07-30
移动平均线是什么意思

时间： 2023-07-30
台风“杜苏芮”残余环流北上京津冀鲁豫晋将有极端强降雨

时间： 2023-07-30
中国图片摄影大赛中国图片总汇摄影师登录

时间： 2023-07-30
日本法院判江宏杰胜诉，江宏杰落泪喊话福原爱：把儿子还给我！

时间： 2023-07-29
成都大运会后，如何用好用活大运会体育场馆？龙泉驿、双流将这样做

时间： 2023-07-29
宝黛初会主要内容（宝黛初会）

时间： 2023-07-29
第六届进博会将迎大客流AI赋能、分类监管助力保障

时间： 2023-07-29
水利部和中国气象局7月29日18时联合发布红色山洪灾害气象预警

时间： 2023-07-29
阿斯：阿扎尔的未来充满不确定性，他退役的可能性逐渐提升

时间： 2023-07-29
当父亲用2斤黄芪治好流浪汉身上的脂肪瘤，我才明白何为医者仁心

时间： 2023-07-29
腾讯云副总裁顾伟：未来三年每年房企和物企数字化赛道营收预计将保持30%-40%的增长率

时间： 2023-07-29
儿子跳江身亡，父母犯愁：捞尸人要价1万8，为筹钱尸体泡水一周

时间： 2023-07-29
长安福特新款锐际或将成都车展发布

时间： 2023-07-29
江西浮梁：建成全省首个村社级共享法庭

时间： 2023-07-29
第二金！宋翠芳获成都大运会武术女子南刀冠军

时间： 2023-07-29
未来一周陇东南降水频繁局地还有大到暴雨

时间： 2023-07-29
德明利07月28日被深股通减持13.92万股

时间： 2023-07-29
ChinaJoy迎接互联网大厂的大乱斗

时间： 2023-07-29
红嫂高清完整版在线观看（人奶电影）

时间： 2023-07-29
郑州启动防汛四级应急响应

时间： 2023-07-29
2022中国正能量：跟着青春的手势一起出发！

时间： 2023-07-29
猫鼻支是由什么引起的，可以治好吗?

时间： 2023-07-29
中国斯诺克大捷：5-1、5-1、5-1、5-1，斯佳辉、周跃龙4将晋级冲冠

时间： 2023-07-29
1456.1亿元、增长10.8%！杭州余杭GDP继续领跑全省

时间： 2023-07-28
俞敏洪圆“文旅梦”

时间： 2023-07-28
云南省职工创新成果亮相大国工匠创新交流大会

时间： 2023-07-28
熊猫集体锻炼迎大运快来给它们加油吧~

时间： 2023-07-28
未来漫评：燃聚青春之火，照亮大运精彩

时间： 2023-07-28
血色玫瑰之女子别动队电视剧（关于血色玫瑰之女子别动队电视剧的基本详情介绍）

时间： 2023-07-28
华融化学：预计上半年净利同比增长110.55%-124.59%

时间： 2023-07-28
日本赛！刘雨辰/欧煊屹、陈清晨/贾一凡均进4强，老将擅长打硬仗

时间： 2023-07-28
中国与东北亚国家经贸合作不断深化累计双向投资金额超过2570亿美元

时间： 2023-07-28
昔日鲁能夺冠功勋中场沦落中甲巅峰期曾是当红国脚

时间： 2023-07-28
中央气象台：京津冀豫警惕极端降雨影响！“杜苏芮”将北上

时间： 2023-07-28
2023乐东县故意伤害罪被公安机关逮捕后可以做什么

时间： 2023-07-28
湖北聋哑女子远嫁后与家人失联43年，两个妹妹赴宛寻亲

时间： 2023-07-28
【2023打卡中国】外国网红在和田体验传统手工艺和大漠风情（组图）

时间： 2023-07-28
星辉娱乐：星辉游戏自研《战地无疆》已定档于8月由腾讯在中国大陆地区独家代理发行

时间： 2023-07-28
上海二中院一审公开宣判被告人钟德才集资诈骗案

时间： 2023-07-28
我国消费新动能持续增强

时间： 2023-07-28
深信服科技股份有限公司获得政府补助4548万元

时间： 2023-07-28
上海黄浦区市场监管局通报称“上海某咖啡店低俗营销”：已立案调查

时间： 2023-07-28
东安县开展世界肝炎日宣传活动

时间： 2023-07-28
七星吧亲戚（七星吧）

时间： 2023-07-28
对重点领域和薄弱环节支持力度持续加大

时间： 2023-07-28
王清旺任北京市人社局局长

时间： 2023-07-28
灞桥区市场监管局多措并举开展夏季夜市市场秩序专项整治行动

时间： 2023-07-28
东方甄选店铺被封，抖音为啥与新东方“闹掰了”？

时间： 2023-07-28
龙生九子九子的名字各叫什么?（龙生九子九子的名字各自是什么）

时间： 2023-07-28
椭圆周长的计算公式图解（椭圆周长的计算公式）

时间： 2023-07-28
印度没完没了：对中国游戏下完黑手后，对中国手机厂商们开炮

时间： 2023-07-28
佩莱格里尼：很少有球员能在皇马效力8年，伊斯科做到因他有实力

时间： 2023-07-28
集成墙板如何安装方法图解（集成墙板如何安装方法）

时间： 2023-07-28
刑事侦缉档案第四部为什么换人_刑事侦缉档案第四部

时间： 2023-07-28
农村杀猪照片山村过年杀美女吃肉图片

时间： 2023-07-27
安校园教育读本(关于安校园教育读本简述)

时间： 2023-07-27
兰州新区将于7月28日召开城市公交调价听证会

时间： 2023-07-27
衬衫不再流行，夏日流行“针织衫”，搭配半身裙、九分裤都很高级

时间： 2023-07-27
算力价格打三折青岛为大模型研发“减负”

时间： 2023-07-27