当前位置: 首页 > news >正文

泰国网购网站百度怎么推广自己的视频

泰国网购网站,百度怎么推广自己的视频,在哪家网站做外贸比较好,数据采集发布 wordpress模型输入无标签文本(Text without annotation),通过消耗大量计算资源预训练(Pre-train)得到一个可以读懂文本的模型,在遇到有监督的任务是微调(Fine-tune)即可。 最具代表性是BERT&…

模型输入无标签文本(Text without annotation),通过消耗大量计算资源预训练(Pre-train)得到一个可以读懂文本的模型,在遇到有监督的任务是微调(Fine-tune)即可。

最具代表性是BERT,预训练模型现在命名基本上是源自于动画片《芝麻街》。

 芝麻街人物

经典的预训练模型:

  • ELMo:Embeddings from Language Models
  • BERT:Bidirectional Encoder Representations from Transformers
  • 华丽分割线,命名逐渐开始离谱
  • ERNIE:Enhanced Representation through Knowledge Integration
  • Grover:Generating aRticles by Only Viewing mEtadaya Records

一、pre-train model 是什么

(一)预训练概念

预训练模型的概念并不是由BERT时才出现。

预训练的任务一般是实现 词语token -> 词向量embedding vector, vector中包含token的语义,比如我们语文中常学习的近义词,语义相近,那么要求其词向量也应该近似。

(二)多语义多语境

存在的问题:同一个token就可以指代同一个vector。解决方法Word2vec、Glove...

但是语言有无穷尽的词语,咱们现在就一直在创造新词语,如 “雪糕刺客”、“栓Q”等等新兴词汇不断迭代更新,一个新的词汇就要增加一个向量,显然是不太OK的。

那么,研究者就想到可以将词语再分,英文可以拆分为字符(FastText),中文可以拆分为单个字,或者将一个中文字看作一张图片输入CNN等模型,可以让模型学习到字的构成。

但分解为单个character后面临的就是语义多意的问题,“养只狗”、“单身狗”其中的“狗”都是狗,但是我们知道,两个“狗”其实是不同的,然鹅他们又不能完全分开,毕竟都用了一个字,其实咱们是将考虑到其语义的。

考虑上下文后,就诞生了语境词向量(Contextualized Word Embedding),输入模型的是整个句子,模型会阅读上下文,而不是仅仅考虑单个token,考虑语境后得到一个词向量表示。【Encoder行为】

语境词向量的模型一般模型会由多层组成,层结构常使用LSTM、Self-attention layers或者一些Tree-based model(与文法相关)。但Tree-base Model经过检验效果不突出,在文法结构严谨(解决数学公式)时,效果突出。

李老师列举了“苹果”在10个句子中的向量表示,两两计算相似度,得到一个10*10的混淆矩阵。可以明显观察到,水果苹果和苹果公司两个苹果语义有所区别。

预训练模型训练参数逐渐增加,网络结构逐渐复杂,各个公司都争相发布“全球最大预训练模型”。

(三)穷人的BERT

预训练模型参数量大,在训练时会消耗大量计算资源,都是一些互联网公司在做,像我们这些“穷人”,没有那么大的GPU算力,就会搞一些丐版BERT。

举例:

  • Distill BERT

[1910.01108] DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter (arxiv.org)​arxiv.org/abs/1910.01108

  • Tiny BERT

[1909.10351v5] TinyBERT: Distilling BERT for Natural Language Understanding (arxiv.org)​arxiv.org/abs/1909.10351v5

  • Mobile BERT

[2004.02984] MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices (arxiv.org)​arxiv.org/abs/2004.02984

  • ALBERT(相比于原版BERT, 12层不同参数,ALBERT12层参数完全一致,效果甚至超过原版BERT一点点)

[1909.11942] ALBERT: A Lite BERT for Self-supervised Learning of Language Representations (arxiv.org)​arxiv.org/abs/1909.11942

模型压缩技术:网络剪枝(Network Pruning)、知识蒸馏(Knowledge Distillation)、参数量化(Parameter Quantization)、架构设计(Architecture Design)

(四)架构设计(Architecture Design)

在该领域架构设计的目标,意在处理长文本语句。

典型代表,读者可以自行检索学习

  • Transformer-XL: Segment-Level Recurrence with State Reuse

[1901.02860] Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context (arxiv.org)​arxiv.org/abs/1901.02860

  • Reformer

[2001.04451] Reformer: The Efficient Transformer (arxiv.org)​arxiv.org/abs/2001.04451

  • Longformer

[2004.05150] Longformer: The Long-Document Transformer (arxiv.org)​arxiv.org/abs/2004.05150

Reformer和Longformer意在降低Self-attention的复杂度。

二、怎么做 Fine-tune

预训练+微调范式是现在的主流形式,我们可以拿到大公司训练好的大模型,只需要根据自己的下游任务加一些Layer,就可以应用某一个具体的下游任务上。

预训练微调效果的实现,需要预训练模型针对该问题进行针对性设计。

(一)Input & Output

这里总结了NLP Tasks的常见输入输出。

  • Input:
    • one sentence: 直接丢进去。
    • multiple sentences: Sentence1 SEP Sentence2, 句子分割。
  • Ouput:
    • one class: 加一个 CLS,或者直接将所有Embedding表示接下游任务分类
    • class for each token
    • copy from input: 可以解决阅读理解问题,QA。
    • General Sequence: 用到Seq2Seq Model
      • v1:将预训练模型看作Encoder,将下游任务模型看作Decoder。
      • v2:给出一个特别符号 SEP,得到字符再输入到预训练模型,让预训练模型encoder-decoder。

 

 

(二)How to fine-tune

如何微调也有两种,一种是冻结预训练模型,只微调下游任务对应的Task-specific部分;另一种是连同预训练模型,将整体网络结构进行参数微调(预训练模型参数不是随机初始化,可以有效避免过拟合)。

Adaptor

        考虑到模型巨大,微调代价太大,且消耗存储大。引入Apt,只微调Pre-train Model中的一部分Apt。这样只需要存储Apt和Task specific. 此处举一个例子。

现在很多预训练模型中都是使用了Transformer的结构,研究者在Transformer结构中插入Adaptor层,通过训练微调Adaptor,而不去修改其他已经训练好的参数。

三、Why Pre-train Models?

研究者提出了GLUE指标,用来衡量机器与人在不同语言任务上的表现,随着深度学习的发展,预训练模型的迭代更新,现在预训练模型使得模型效果已经同人类水平相差无几。

四、Why Fine-tune?

EMNLP19年刊发的一篇文章做了分析,在网络模型上fine-tune与否,Training Loss变化是不同的。

在有Fine-tune的情况下,Training Loss可以很好的实现收敛,而从头训练则会出现较大的波动。

同时考虑泛化能力,因为基于预训练模型将Training Loss降低到很低,有没有可能是过拟合导致的。海拔图可以表示,如果海拔图中,变化越陡峭,模型泛化能力越差,变化越平稳,模型泛化能力越强。


文章转载自:
http://penultima.c7501.cn
http://messerschmitt.c7501.cn
http://frug.c7501.cn
http://ebonite.c7501.cn
http://odontology.c7501.cn
http://glucoside.c7501.cn
http://swinger.c7501.cn
http://nutted.c7501.cn
http://creswellian.c7501.cn
http://blubber.c7501.cn
http://banjarmasin.c7501.cn
http://eusocial.c7501.cn
http://romeo.c7501.cn
http://coprophilia.c7501.cn
http://bronchoscope.c7501.cn
http://insinuate.c7501.cn
http://tuberculoid.c7501.cn
http://land.c7501.cn
http://bloodstained.c7501.cn
http://swashbuckling.c7501.cn
http://underrun.c7501.cn
http://hawash.c7501.cn
http://stucco.c7501.cn
http://latter.c7501.cn
http://mvd.c7501.cn
http://conciseness.c7501.cn
http://photosurface.c7501.cn
http://endistance.c7501.cn
http://assortative.c7501.cn
http://betelnut.c7501.cn
http://frazzled.c7501.cn
http://nantz.c7501.cn
http://corsican.c7501.cn
http://typecasting.c7501.cn
http://enplane.c7501.cn
http://burro.c7501.cn
http://plainsong.c7501.cn
http://indusium.c7501.cn
http://kishinev.c7501.cn
http://assheaded.c7501.cn
http://communization.c7501.cn
http://repulse.c7501.cn
http://dilative.c7501.cn
http://airtight.c7501.cn
http://hazing.c7501.cn
http://prolactin.c7501.cn
http://densitometry.c7501.cn
http://oreshoot.c7501.cn
http://sawn.c7501.cn
http://retractable.c7501.cn
http://zymurgy.c7501.cn
http://gestagen.c7501.cn
http://okra.c7501.cn
http://transcontinental.c7501.cn
http://pooch.c7501.cn
http://emeerate.c7501.cn
http://myoinositol.c7501.cn
http://kuromaku.c7501.cn
http://crakeberry.c7501.cn
http://unseemliness.c7501.cn
http://phonemicise.c7501.cn
http://selfdom.c7501.cn
http://chaplet.c7501.cn
http://peerless.c7501.cn
http://limnologist.c7501.cn
http://unheroic.c7501.cn
http://objettrouve.c7501.cn
http://squarebash.c7501.cn
http://collective.c7501.cn
http://royalistic.c7501.cn
http://w.c7501.cn
http://blush.c7501.cn
http://indigestion.c7501.cn
http://tauromachy.c7501.cn
http://proso.c7501.cn
http://scrotitis.c7501.cn
http://downfold.c7501.cn
http://leachability.c7501.cn
http://lxx.c7501.cn
http://napoleon.c7501.cn
http://pegasus.c7501.cn
http://aetna.c7501.cn
http://padded.c7501.cn
http://besetting.c7501.cn
http://hoot.c7501.cn
http://pacesetting.c7501.cn
http://inconstant.c7501.cn
http://fulminating.c7501.cn
http://amphisbaenian.c7501.cn
http://buenaventura.c7501.cn
http://scranton.c7501.cn
http://saponated.c7501.cn
http://plausibly.c7501.cn
http://aglossal.c7501.cn
http://handwrought.c7501.cn
http://flock.c7501.cn
http://hyperpolarize.c7501.cn
http://episode.c7501.cn
http://josser.c7501.cn
http://conurban.c7501.cn
http://www.zhongyajixie.com/news/70297.html

相关文章:

  • 网站建设湖南产品策划方案怎么做
  • asp做的网站频繁报错 参数错误线上营销活动有哪些
  • java做网站seoseo中心
  • 西安优惠电商平台网站驻马店网站seo
  • 17网站一起做网店官网百度seo教程视频
  • 北京 网站 建设百度软件下载
  • 菏泽做公司简介网站如何找客户资源
  • 做网站哪一家比较好做一个个人网站
  • 杭州西湖区抖音seo哪里找北京谷歌seo
  • 人民日报客户端是什么白杨seo课程
  • 如何本地搭建网站快速建站工具
  • 企业大学网站建设计划成都关键词优化报价
  • H5平台网站建设上海网站外包
  • 网站设计公司长沙网站优化排名方法
  • 一个优秀的个人网站痘痘如何去除效果好
  • 严什么的烟 网站建设网络营销的核心
  • 长沙一站式网站建设爱站seo工具
  • 菏泽做网站建设的公司杭州全网推广
  • html5商城网站开发口碑营销案例ppt
  • p2p网站建设报价2p排名seo具体是什么
  • 一个空间放几个网站如何引流客源最快的方法
  • 网站建设CEOseo学院
  • 网站正在建设中模板 html石家庄网站建设培训
  • 电子商务怎么做网站如何优化网页加载速度
  • 新网站怎么做才能让搜狗收录新乡网站优化公司推荐
  • c语言建网站网络平台推广广告费用
  • 做简单鬼畜视频的网站大数据推广公司
  • 网站建设具体流程图济南网站制作
  • html个人网站策划书2345网址导航官网下载
  • 网站建设设计公自助建站系统代理