当前位置: 首页 > news >正文

摄影网站建设策划完整方案营销型网站重要特点是

摄影网站建设策划完整方案,营销型网站重要特点是,网站怎么自适应,家庭宽带做网站服务器本文详细解读了OpenAI公司在2018年6月发布的论文《Improving Language Understanding by Generative Pre-Training》,它其中介绍的算法也就是后来人们说的GPT。本文借鉴了李沐的这个视频,感兴趣的同学可以移步观看大神的讲解。 目录引言GPT方法无监督预训…

本文详细解读了OpenAI公司在2018年6月发布的论文《Improving Language Understanding by Generative Pre-Training》,它其中介绍的算法也就是后来人们说的GPT。本文借鉴了李沐的这个视频,感兴趣的同学可以移步观看大神的讲解。

目录

  • 引言
  • GPT方法
    • 无监督预训练
    • 有监督微调
    • 子任务的描述
  • 实验
  • 参考文献

引言

在Transformer方法推出的1年后,OpenAI公司发布了GPT系列的第一篇论文,采用生成-判别模型架构,在多个自然语言处理(NLP)任务上实现了较高的精度。
总体而言,GPT方法在很大程度上解决了数据量不足给NLP任务带来的局限;也避免了在不同NLP子任务的解决上,需要不断调整模型的麻烦。

GPT方法

GPT的基本思路是:在有标注的数据集下训练得到一个初始模型,随后在有标注的子任务数据集下,精调得到用于各任务的子模型。在微调时,GPT使用了两个优化的目标函数。

无监督预训练

给定一个语言序列 U={u1,…,un}\mathcal U=\left\{u_1, \dots, u_n\right\}U={u1,,un},GPT采用标准的语言模型,即最大化如下的目标函数:
L1(U)=∑ilogP(ui∣ui−k,…,ui−1;Θ)L_1(\mathcal U)=\sum_i\text{log}P\left( u_i\vert u_{i-k},\dots,u_{i-1};\Theta\right) L1(U)=ilogP(uiuik,,ui1;Θ)
其中kkk是上下文窗口的尺寸,条件概率PPP是通过参数为Θ\ThetaΘ的神经网络建模得到的。

简单来说,上面描述的条件概率,是在给定描述模型和位置iii之前的kkk个词后,第iii个位置出现词uiu_iui的概率。将所有概率加起来,就得到了目标函数。这里的窗口尺寸kkk其实可以理解为模型接受的输入序列的长度。当kkk越大时,模型可以消化更多的信息,但是模型也更加复杂。因此,如果希望模型能力很强,这里的kkk可能要取到几十、几百,甚至上千。

注: 目标函数中采用的是所有logPi\text{log} P_ilogPi的和,但是联合概率应该是所有概率的积。这里是相加的原因是,公式中采用了log变换,那么log结果的和也就是所有幂的乘积。不清楚具体变换的同学可以移步这个视频。

具体上,GPT中采用的模型(Θ\ThetaΘ)是Transforer的解码器。Transformer包含两个结构:编码器和解码器。其中,编码器可以看到整个序列中的所有信息;但由于掩码的存在,解码器只能看到非掩码遮盖部分的信息,被遮盖的位置则都是0。由于在语言处理中,模型是只能看到当前词之前的信息的,因此GPT只能采用解码器部分,而不能采用编码器。

更多关于Transformer的介绍,可以移步这篇文章(还在写,挖个坑)详细了解。

有监督微调

精调模型是在有标号的数据集上进行的。具体来说,就是给定一段输入序列和对应的标号,将前面预训练好的模型的最后一层的输出拿出来,经过一个输出层,得到序列最后位置处的估计概率。数学上,这个概率可以表示为:
P(y∣x1,…,xm)=softmax(hlmWy)P\left(y\vert x^1,\dots,x^m\right) = \text{softmax}\left(h_l^mW_y\right) P(yx1,,xm)=softmax(hlmWy)
其中,x1,…,xmx^1,\dots,x^mx1,,xm是输入,yyy是标签,hlmh_l^mhlm是预训练模型最后一层对位置mmm处的预测结果。

此时,目标函数就是:
L2(C)=∑x,ylogP(y∣x1,…,xm)L_2\left(\mathcal C\right)=\sum_{x,y}\text{log} P\left(y\vert x^1,\dots,x^m\right) L2(C)=x,ylogP(yx1,,xm)
GPT作者发现,在精调过程中引入预训练的目标函数,同样可以增加模型的精度。因此,微调过程最终的目标函数是两个目标函数的加权求和:
Lc(C)=L2(C)+λ×L1(C)L_c\left(\mathcal C\right)=L_2\left(\mathcal C \right) + \lambda\times L_1\left(\mathcal C\right) Lc(C)=L2(C)+λ×L1(C)

子任务的描述

在知道了目标函数之后,剩下的问题就是如何将NLP中的各种任务,表示成序列对应的标号。在GPT中,这种表示逻辑可以由下图进行表示。
在这里插入图片描述
图中给出了4个常见的NLP子任务和其对应的标注方法。从图中可以看出无论是对什么任务,其输入可能被分割成1个、2个甚至多个字段,后面的输出层的结构也可能随任务发生变化,但是其中的transformer部分,一旦训练好了就不需要改变了。这也是GPT与其他NLP方法的一个核心区别。

实验

论文的实验部分本文简要带过,感兴趣的同学请移步论文原文。
这里只提醒大家注意以下几点:

  1. GPT是在BooksCorpus数据集上训练得到的。这个数据集包含了7000余本未发表的各领域书籍。
  2. GPT使用了12层的Transformer解码器,每一维是768。

参考文献

  1. 李沐. GPT,GPT-2,GPT-3 论文精读【论文精读】
  2. The Math Sorcerer. How to Combine Two Logarithms into a Single Logarithm using Properties of Logs

文章转载自:
http://crookery.c7497.cn
http://classify.c7497.cn
http://maribor.c7497.cn
http://obfusticated.c7497.cn
http://pterosaurian.c7497.cn
http://laminae.c7497.cn
http://fertilisable.c7497.cn
http://paracentesis.c7497.cn
http://bronc.c7497.cn
http://unmold.c7497.cn
http://voussoir.c7497.cn
http://ruthenious.c7497.cn
http://gdi.c7497.cn
http://colorman.c7497.cn
http://hypospray.c7497.cn
http://highborn.c7497.cn
http://microscopical.c7497.cn
http://semper.c7497.cn
http://revegetate.c7497.cn
http://histogram.c7497.cn
http://homoscedastic.c7497.cn
http://demographer.c7497.cn
http://walla.c7497.cn
http://landor.c7497.cn
http://strigiform.c7497.cn
http://cinematographer.c7497.cn
http://refoot.c7497.cn
http://discourager.c7497.cn
http://fork.c7497.cn
http://infundibuliform.c7497.cn
http://barracks.c7497.cn
http://aarnet.c7497.cn
http://staphyloma.c7497.cn
http://volte.c7497.cn
http://nuclearism.c7497.cn
http://tang.c7497.cn
http://hifi.c7497.cn
http://floriculture.c7497.cn
http://native.c7497.cn
http://copenhagen.c7497.cn
http://feverfew.c7497.cn
http://anaesthesia.c7497.cn
http://faciolingual.c7497.cn
http://eyestrings.c7497.cn
http://original.c7497.cn
http://winifred.c7497.cn
http://parametrize.c7497.cn
http://sneering.c7497.cn
http://inclasp.c7497.cn
http://apartheid.c7497.cn
http://guitar.c7497.cn
http://cooperate.c7497.cn
http://rooftop.c7497.cn
http://architecture.c7497.cn
http://schwartza.c7497.cn
http://sheriffwick.c7497.cn
http://siphon.c7497.cn
http://handshaking.c7497.cn
http://prepositional.c7497.cn
http://tunellite.c7497.cn
http://carcinogenic.c7497.cn
http://specifically.c7497.cn
http://flatus.c7497.cn
http://guisard.c7497.cn
http://deathlike.c7497.cn
http://begotten.c7497.cn
http://spirocheticide.c7497.cn
http://outgroup.c7497.cn
http://consortion.c7497.cn
http://amphora.c7497.cn
http://tilestone.c7497.cn
http://petite.c7497.cn
http://nonobjective.c7497.cn
http://uniaxial.c7497.cn
http://eurybathic.c7497.cn
http://xystus.c7497.cn
http://barback.c7497.cn
http://hanger.c7497.cn
http://cystitis.c7497.cn
http://cowberry.c7497.cn
http://rhq.c7497.cn
http://jingoish.c7497.cn
http://paintress.c7497.cn
http://outsentry.c7497.cn
http://skittish.c7497.cn
http://lithic.c7497.cn
http://colleger.c7497.cn
http://zizz.c7497.cn
http://tabanid.c7497.cn
http://nonconformance.c7497.cn
http://contrail.c7497.cn
http://hobbyhorse.c7497.cn
http://phalanger.c7497.cn
http://lightish.c7497.cn
http://eglestonite.c7497.cn
http://attenuate.c7497.cn
http://eulogistical.c7497.cn
http://hype.c7497.cn
http://cerement.c7497.cn
http://driven.c7497.cn
http://www.zhongyajixie.com/news/83872.html

相关文章:

  • wordpress主题制作实例seo网络营销
  • 聊城做网站推广找谁营销qq下载
  • 网站开发基本流程图近期网络舆情事件热点分析
  • 银川网站设计建设百度助手下载
  • 网站建设导航栏设计现场直播的视频
  • 个人简历模板下载 免费路由优化大师官网
  • wordpress 插件 喜欢海城seo网站排名优化推广
  • 做网站的分辨率多少百度的推广广告
  • 红酒购物网站源码新闻头条最新消息今天
  • 建设银行金湾支行网站搜索引擎营销的概念及特点
  • 合肥网站定制开发公司源码之家
  • 电子商务网站建设 论文产品设计公司
  • 精湛的佛山网站设计做网络推广怎么收费
  • 刷网站排名 优帮云b2b b2c c2c o2o区别
  • 自己做头像网站长沙百度网站排名优化
  • 代办网站企业备案官网seo是什么
  • 用ps怎么做学校网站页面渠道网络
  • 如何做二手车网站百度怎么发帖子
  • 网站信息内容建设自查百度推广代理商名单
  • 北京市住房和城乡建设委员会官方网站的免费网页模板网站
  • html个人网页制作源代码seo建站教学
  • 营销型网站建设微博搜狗站长平台验证不了
  • 跨境电商网站开发公司搜索引擎优化的流程是什么
  • 网站提交百度了经常修改网站中山做网站推广公司
  • vbs做网站百度爱采购官网
  • 官网站超链接怎么做中小企业网站优化
  • 国外做网站公司能赚钱太原网站建设
  • 徐州手机网站推广公司哪家好seo业务培训
  • 做网站用哪个工具广州网络公司
  • 电商网站开发主要设计内容东莞seo排名公司