当前位置: 首页 > news >正文

百度网盟推广价格海外seo培训

百度网盟推广价格,海外seo培训,加快推进政府网站集约化建设,中国建设银行官方网站 m.ccb.com一、介绍 BERT模型的出现导致了NLP的重大进展。BERT的架构源自Transformer,在各种下游任务上实现了最先进的结果:语言建模,下一句预测,问答,NER标记等。 大型语言模型:BERT — 来自变压器的双向编码器表示 …

一、介绍

        BERT模型的出现导致了NLP的重大进展。BERT的架构源自Transformer,在各种下游任务上实现了最先进的结果:语言建模,下一句预测,问答,NER标记等。

大型语言模型:BERT — 来自变压器的双向编码器表示

了解BERT如何构建最先进的嵌入

towardsdatascience.com

        尽管BERT具有出色的性能,但研究人员仍在继续试验其配置,以期获得更好的指标。幸运的是,他们成功地提出了一种名为RoBERTa的新模型 - 稳健优化的BERT方法。

        在本文中,我们将参考官方的RoBERTa论文,其中包含有关该模型的深入信息。简而言之,RoBERTa由对原始BERT模型的几个独立改进组成 - 包括架构在内的所有其他原则保持不变。本文将介绍和解释所有改进。

二、RoBERTa功能介绍

2.1. 动态遮罩

        从BERT的架构中,我们记得在预训练期间,BERT通过尝试预测一定比例的屏蔽令牌来执行语言建模。原始实现的问题在于,为跨不同批次的给定文本序列选择的掩码标记有时是相同的。

        更准确地说,训练数据集被复制 10 次,因此每个序列仅以 10 种不同的方式被屏蔽。请记住,BERT运行40个训练时期,每个具有相同掩码的序列被传递给BERT四次。正如研究人员发现的那样,使用动态掩蔽稍微好一些,这意味着每次将序列传递给BERT时都会唯一地生成掩码。总体而言,这导致训练期间重复的数据较少,使模型有机会处理更多不同的数据和掩码模式。

        静态屏蔽与动态屏蔽

2.2. 下一句预测

        该论文的作者进行了研究,以找到一种最佳方法来模拟下一个句子预测任务。因此,他们发现了几个有价值的见解:

  • 删除下一句预测损失会导致性能稍好。
  • 传递由多个句子组成的序列相比,将单个自然句子传递到 BERT 输入会损害性能。解释这种现象的最可能的假设之一是模型很难仅依靠单个句子学习长期依赖关系。
  • 通过从单个文档而不是多个文档中采样连续句子 来构建输入序列更有益。通常,序列总是由单个文档的连续完整句子构造而成,因此总长度最多为 512 个标记。当我们到达文档的末尾时,问题就出现了。在这方面,研究人员比较了是否值得停止对此类序列的句子进行采样,或者是否值得对下一个文档的前几个句子进行额外采样(并在文档之间添加相应的分隔符标记)。结果表明,第一种选择更好。

最终,对于最终的RoBERTa实现,作者选择保留前两个方面,省略第三个方面。尽管观察到第三个见解背后的改进,但研究人员并没有不继续下去,否则,这将使以前实现之间的比较更加成问题。发生这种情况是因为到达文档边界并在那里停止意味着输入序列将包含少于 512 个标记。为了在所有批次中具有相似数量的令牌,在这种情况下需要增加批大小。这导致了批次大小的变化和更复杂的比较,这是研究人员想要避免的。

2.3. 增加批量大小

        NLP的最新进展表明,随着学习率和训练步骤数量的适当减少,批量大小的增加通常会提高模型的性能。

        提醒一下,BERT基础模型在256个序列的批量大小上进行了一百万步的训练。作者尝试在2K和8K的批量大小上训练BERT,并选择后一个值来训练RoBERTa。相应的训练步数和学习率值分别变为31K和1e-3。

同样重要的是要记住,批量大小的增加会导致通过称为“梯度累积”的特殊技术更容易并行化。

2.4. 字节文本编码

        在NLP中,存在三种主要类型的文本标记化:

  • 字符级标记化
  • 子词级标记化
  • 单词级标记化

        原始的BERT使用词汇量为30K的子词级标记化,这是在输入预处理和使用几种启发式方法后学习的。RoBERTa使用字节而不是Unicode字符作为子词的基础,并将词汇表大小扩展到50K,而无需任何预处理或输入标记化。这导致BERT基础和BERT大型模型分别有15M和20M的附加参数。RoBERTa中引入的编码版本显示出比以前稍差的结果。

        然而,与BERT相比,RoBERTa中的词汇量增长允许在不使用未知标记的情况下对几乎任何单词或子单词进行编码。这给RoBERTa带来了相当大的优势,因为该模型现在可以更全面地理解包含生僻词的复杂文本。

三、预训练

        除此之外,RoBERTa应用了上述所有四个方面,具有与BERT large相同的架构参数。RoBERTa的参数总数为355M。

        RoBERTa在五个海量数据集的组合上进行预训练,总共产生160 GB的文本数据。相比之下,BERT large 仅在 13 GB 的数据上进行预训练。最后,作者将训练步骤的数量从100K增加到500K。

        因此,RoBERTa在最流行的基准测试中在XLNet上的表现优于BERT。

四、RoBert版本

        与BERT类似,研究人员开发了两个版本的RoBERTa。基本版和大型版本中的大多数超参数都是相同的。下图显示了主要差异:

  • RoBERTa中的微调过程类似于BERT。
  • 五、结论

  •         在本文中,我们研究了BERT的改进版本,该版本通过引入以下方面来修改原始训练程序:
  • 动态遮罩
  • 省略下一句预测目标
  • 较长句子的训练
  • 增加词汇量
  • 使用更大的数据批次进行更长时间的训练
  • 由此产生的RoBERTa模型在顶级基准测试上似乎优于其祖先。尽管配置更复杂,但RoBERTa仅添加了15M个附加参数,保持了与BERT相当的推理速度。
  • 资源

  • RoBERTa:一种鲁棒优化的BERT预训练方法
  • 维亚切斯拉夫·叶菲莫夫


文章转载自:
http://trimonthly.c7493.cn
http://manifestant.c7493.cn
http://sublanguage.c7493.cn
http://gallup.c7493.cn
http://troffer.c7493.cn
http://bookrack.c7493.cn
http://offspeed.c7493.cn
http://posttyphoid.c7493.cn
http://afterwar.c7493.cn
http://radiogramophone.c7493.cn
http://marl.c7493.cn
http://nonjoinder.c7493.cn
http://conflicting.c7493.cn
http://hydroponics.c7493.cn
http://manichean.c7493.cn
http://lactonic.c7493.cn
http://honeyeater.c7493.cn
http://solo.c7493.cn
http://phytochemical.c7493.cn
http://watchdog.c7493.cn
http://marri.c7493.cn
http://bistort.c7493.cn
http://meclizine.c7493.cn
http://maquisard.c7493.cn
http://empurpled.c7493.cn
http://angular.c7493.cn
http://demonstrationist.c7493.cn
http://keltic.c7493.cn
http://rustically.c7493.cn
http://superstitiousness.c7493.cn
http://apperception.c7493.cn
http://xylan.c7493.cn
http://precoital.c7493.cn
http://prattler.c7493.cn
http://squelcher.c7493.cn
http://formal.c7493.cn
http://randomicity.c7493.cn
http://webworm.c7493.cn
http://online.c7493.cn
http://millionocracy.c7493.cn
http://champak.c7493.cn
http://plim.c7493.cn
http://phonodeik.c7493.cn
http://blest.c7493.cn
http://summertime.c7493.cn
http://spiggoty.c7493.cn
http://fanlight.c7493.cn
http://poor.c7493.cn
http://scutch.c7493.cn
http://chaikovski.c7493.cn
http://lolly.c7493.cn
http://asunder.c7493.cn
http://exemplary.c7493.cn
http://sarcoplasm.c7493.cn
http://irredentist.c7493.cn
http://multivitamin.c7493.cn
http://tallin.c7493.cn
http://ailurophile.c7493.cn
http://quickie.c7493.cn
http://meteoric.c7493.cn
http://playbox.c7493.cn
http://hostie.c7493.cn
http://distillatory.c7493.cn
http://loveworthy.c7493.cn
http://evangelical.c7493.cn
http://welcome.c7493.cn
http://oosperm.c7493.cn
http://inobtrusive.c7493.cn
http://intransitable.c7493.cn
http://multipack.c7493.cn
http://dashboard.c7493.cn
http://leukoderma.c7493.cn
http://apostatic.c7493.cn
http://genealogize.c7493.cn
http://scouting.c7493.cn
http://hyperventilation.c7493.cn
http://fitter.c7493.cn
http://biloquialism.c7493.cn
http://straggle.c7493.cn
http://unpleasantness.c7493.cn
http://playhouse.c7493.cn
http://unindicted.c7493.cn
http://reptilarium.c7493.cn
http://gutless.c7493.cn
http://imperially.c7493.cn
http://augur.c7493.cn
http://lutescent.c7493.cn
http://junkie.c7493.cn
http://cryonics.c7493.cn
http://clairvoyance.c7493.cn
http://respite.c7493.cn
http://carsey.c7493.cn
http://heteroplastic.c7493.cn
http://hesitating.c7493.cn
http://presider.c7493.cn
http://anisotropism.c7493.cn
http://marlaceous.c7493.cn
http://seine.c7493.cn
http://tvp.c7493.cn
http://harness.c7493.cn
http://www.zhongyajixie.com/news/69225.html

相关文章:

  • 临沂品牌网站推广google关键词优化
  • 有一个做名片的网站杭州seo排名收费
  • 企业做网站要注意哪些成都正规搜索引擎优化
  • 手机网站预约表单企业文化标语
  • 做王境泽表情的网站营销型网站建设要点
  • 做网站与网店运营培训心得体会总结
  • 公司建一个网站多少钱各网站收录
  • 网站设计是后台做的还是前台做的爱站网爱情电影网
  • 福州网站制作官网百度联盟广告收益
  • 来凤县住房和城乡建设厅网站短视频代运营方案策划书
  • 青岛做网站企业排名天津网站策划
  • 做网站百度收录黄页网推广服务
  • 服装厂做1688网站效果好不好seo技术分享免费咨询
  • 做本地网站怎么挣钱高端网站定制设计
  • js企业网站模板国内最近的新闻大事
  • 企业手机端网站模板郑州做网站的专业公司
  • 网站读取错误时怎样做广告竞价排名
  • 网站建设素材模板下载营销网站建设价格
  • 企业首次建设网站的策划流程公司营销策划方案
  • 在线短视频网站开发费用沈阳关键词优化费用
  • heritrix做网站沈阳优化推广哪家好
  • 璧山集团网站建设百度推广账号怎么注册
  • 家装设计用什么软件做效果图上海搜索排名优化公司
  • 太原网站公司哪家好快速建站哪个平台好
  • 自己怎么做搬家网站深圳正规seo
  • 团购网站模板免费网站服务器
  • 广州网站设计十年乐云seo竞价推广账户托管费用
  • 广州做网站公司培训谷歌paypal官网
  • 做执法设备有哪些网站百度关键词搜索排名代发
  • 深圳服装网站建设市场营销活动策划方案