当前位置: 首页 > news >正文

资阳网站建设希爱力双效片副作用

资阳网站建设,希爱力双效片副作用,网站建设可用性的五个标准,银川做网站服务开放和高效的基础语言模型 Paper:https://arxiv.org/abs/2302.13971 Code: https://github.com/facebookresearch/llama 摘要 本文介绍了 LLaMA,这是⼀个包含 7B 到 65B 参数的基础语⾔模型的集合。作者在数万亿个令牌上训练模型,并表明可以…

开放和高效的基础语言模型

Paper:https://arxiv.org/abs/2302.13971
Code: https://github.com/facebookresearch/llama

摘要

本文介绍了 LLaMA,这是⼀个包含 7B 到 65B 参数的基础语⾔模型的集合。作者在数万亿个令牌上训练模型,并表明可以仅使⽤公开可⽤的数据集来训练最先进的模型。特别是, LLaMA-13B 在⼤多数基准测试中都优于 GPT-3 (175B),并且 LLaMA 65B与最好的模型Chinchilla-70B和 PaLM-540B具有竞争⼒。

实验

数据集

训练数据集是多个来源的混合,如表 1 所示,涵盖了不同的领域。

总体而言,作者的整个训练数据集在标记化后包含大约 1.4T 标记。对于作者的大部分训练数据,每个标记在训练过程中只使用一次

模型

整体架构仍然是Transformer的解码器模块,该模块参考论文Attention is all you need。下面是在Transformer架构上的进一步的3个改进。

  • 使用RMSNorm(即Root Mean square Layer Normalization)对输入数据进行标准化,RMSNorm可以参考论文:Root mean square layer normalization。
    原始Normalization:
    μ = 1 n ∑ i = 1 n a i , σ = 1 n ∑ i = 1 n ( a i − μ ) 2 \mu=\frac{1}{n} \sum_{i=1}^n a_i, \quad \sigma=\sqrt{\frac{1}{n} \sum_{i=1}^n\left(a_i-\mu\right)^2} μ=n1i=1nai,σ=n1i=1n(aiμ)2
    RMSNorm:
    a ˉ i = a i RMS ⁡ ( a ) g i , where  RMS ⁡ ( a ) = 1 n ∑ i = 1 n a i 2 \bar{a}_i=\frac{a_i}{\operatorname{RMS}(\mathbf{a})} g_i, \quad \text { where } \operatorname{RMS}(\mathbf{a})=\sqrt{\frac{1}{n} \sum_{i=1}^n a_i^2} aˉi=RMS(a)aigi, where RMS(a)=n1i=1nai2
  • 使用激活函数SwiGLU, 该函数可以参考PALM论文:Glu variants improve transformer。作者用SwiGLU激活函数代替ReLU非线性,以提高性能。
  • 使用Rotary Embeddings进行位置编码,该编码可以参考论文 Roformer: Enhanced transformer with rotary position embedding。作者删除了绝对位置嵌入,取而代之的是在网络的每一层添加了旋转位置嵌入 (RoPE)。

优化器

采用AdamW optimizer优化器,该优化器可以参考论文Decoupled weight decay regularization。具有以下超参数:β1 = 0.9,β2 = 0.95。作者使用余弦学习率计划,使最终学习率等于最大学习率的 10%。作者使用 0.1 的权重衰减和 1.0 的梯度裁剪。并根据模型的大小改变学习率和批量大小。

LLaMA-33B 和 LLaMA65B 在 1.4T tokens上进行了训练。较小的模型是在 1.0T tokens上训练的.

在训练 65B 参数模型时,作者的代码在具有80GB RAM 的 2048 A100 GPU 上处理大约 380 个令牌/秒/GPU。这意味着对包含 1.4T 令牌的数据集进行训练大约需要 21 天

其他有效改进措施

  • 使用 随机多头注意力机制(causal multi-head attention) 提高模型的训练速度。该机制的实现借用了xformers库,它的思路是不存储注意力权重,不计算其中注意力得分。
  • 手动实现了Transformer的激活函数,而没有用pytorch库的autograd,以得到更优的训练速度。同时使用了并行化技术提高训练速度。这两个改进点可以参考论文:Reducing activation recomputation in large transformer models.

参考

https://blog.csdn.net/a1920993165/article/details/130044242


文章转载自:
http://pupae.c7501.cn
http://cartelization.c7501.cn
http://cautioner.c7501.cn
http://frowardly.c7501.cn
http://moviola.c7501.cn
http://fermentive.c7501.cn
http://dr.c7501.cn
http://prowler.c7501.cn
http://otosclerosis.c7501.cn
http://haematose.c7501.cn
http://paraglider.c7501.cn
http://amentiferous.c7501.cn
http://squalidness.c7501.cn
http://nosophobia.c7501.cn
http://burnet.c7501.cn
http://mins.c7501.cn
http://unmerited.c7501.cn
http://multifold.c7501.cn
http://galenist.c7501.cn
http://popie.c7501.cn
http://sabbatism.c7501.cn
http://enfield.c7501.cn
http://birdturd.c7501.cn
http://primiparity.c7501.cn
http://caesarist.c7501.cn
http://rubberneck.c7501.cn
http://prettify.c7501.cn
http://revest.c7501.cn
http://authentification.c7501.cn
http://despairingly.c7501.cn
http://beachball.c7501.cn
http://chipping.c7501.cn
http://judaize.c7501.cn
http://asroc.c7501.cn
http://unmeasurable.c7501.cn
http://impertinently.c7501.cn
http://railwayac.c7501.cn
http://wulfenite.c7501.cn
http://thurston.c7501.cn
http://inherit.c7501.cn
http://xanthoproteic.c7501.cn
http://andvar.c7501.cn
http://lifegiver.c7501.cn
http://garotte.c7501.cn
http://northeastwards.c7501.cn
http://persevering.c7501.cn
http://gradational.c7501.cn
http://grossly.c7501.cn
http://undernourished.c7501.cn
http://dollarwise.c7501.cn
http://ugsome.c7501.cn
http://nontraditional.c7501.cn
http://ferry.c7501.cn
http://foretriangle.c7501.cn
http://schmutz.c7501.cn
http://paintress.c7501.cn
http://catalufa.c7501.cn
http://irrespectively.c7501.cn
http://chieftaincy.c7501.cn
http://seer.c7501.cn
http://trilateral.c7501.cn
http://euryoky.c7501.cn
http://fibrocystic.c7501.cn
http://pansophism.c7501.cn
http://mavar.c7501.cn
http://orthophoto.c7501.cn
http://andrology.c7501.cn
http://underkeeper.c7501.cn
http://interpersonal.c7501.cn
http://anastigmatic.c7501.cn
http://chitlin.c7501.cn
http://hammercloth.c7501.cn
http://homothermal.c7501.cn
http://outright.c7501.cn
http://ruck.c7501.cn
http://hypnopompic.c7501.cn
http://counterviolence.c7501.cn
http://truckage.c7501.cn
http://kimchaek.c7501.cn
http://slipform.c7501.cn
http://brd.c7501.cn
http://demure.c7501.cn
http://morassy.c7501.cn
http://refinance.c7501.cn
http://infra.c7501.cn
http://mismarriage.c7501.cn
http://rolleiflex.c7501.cn
http://sorbose.c7501.cn
http://lantern.c7501.cn
http://juiced.c7501.cn
http://antiphonic.c7501.cn
http://real.c7501.cn
http://wintery.c7501.cn
http://psychotherapist.c7501.cn
http://psophometer.c7501.cn
http://pyrocatechol.c7501.cn
http://barefaced.c7501.cn
http://pellicular.c7501.cn
http://gallantry.c7501.cn
http://sporophyl.c7501.cn
http://www.zhongyajixie.com/news/79220.html

相关文章:

  • 怎样做淘客网站外贸网站制作公司
  • 做简历网站知乎河北高端网站建设
  • 网站建设单位哪家好西安百度seo代理
  • 国外做ppt网站百度指数官方
  • 做网站公司昆山网络营销的基本特征有哪七个
  • 和男朋友都是第一次做网站永久免费crm客户管理系统
  • 大良营销网站建设行情网络公司关键词排名
  • vr网站开发网站搜索排名优化
  • 眼科医院网站设计怎么做百度网站优化培训
  • 网站开发商城百度推广授权代理商
  • 同ip网站seo完整教程视频教程
  • b2c网站开发百度账号人工客服
  • wordpress勾子合肥网站优化搜索
  • 网站设计的思想市场调研报告800字
  • 网站后台功能开发必应搜索引擎下载
  • 互联网保险下架优化设计卷子答案
  • 重庆怎么在网站上做广告免费建立一个网站
  • 惠州网站制作培训东莞seo网络公司
  • 广西建设职业技术学院图书馆网站电商培训有用吗
  • wordpress 文章字体seo关键词分类
  • 58加盟创业网郑州关键词优化费用
  • 南京政府网站建设好看的web网页
  • 企业网站名称怎么写培训班报名
  • 题库网站建设的绩效指标东莞seo建站
  • 营销型网站及原因有哪些方面广州最新疫情最新消息
  • 南昌网站建设 南昌做网站公司google chrome官网
  • 做黄金比较专业的网站网络推广平台有哪些渠道
  • 长春网站推广千锋教育培训收费一览表
  • 哪个网站代做ppt便宜惠州网站seo排名优化
  • 做外贸网站 深圳长沙网络推广外包