当前位置: 首页 > news >正文

免费 网站 平台如何制作自己的网址

免费 网站 平台,如何制作自己的网址,乐清网络科技有限公司,php手机网站如何制作教程试试号称最好的7B模型(论文复现) 本文所涉及所有资源均在传知代码平台可获取 文章目录 试试号称最好的7B模型(论文复现)概述论文原理部署与复现推理微调adapter 融合 概述 Mistral 7B 是一个新型的具有 7.3 万亿参数的大语言模型。…

试试号称最好的7B模型(论文复现)

本文所涉及所有资源均在传知代码平台可获取

文章目录

    • 试试号称最好的7B模型(论文复现)
        • 概述
        • 论文原理
        • 部署与复现
          • 推理
          • 微调
          • adapter 融合

概述

Mistral 7B 是一个新型的具有 7.3 万亿参数的大语言模型。其性能甚至优于13万亿参数的 Liama2。

Mistral 7B 在所有测试基准中都优于之前最佳的 13B 模型(Llama 2),并在数学和代码生成方面超越了最佳的 34B 模型(LLaMa 34B)。此外,Mistral 7B 在编码性能上接近于 Code-Llama 7B,而不会牺牲非代码相关基准上的性能。Mistral 7B 利用了分组查询注意力(GQA)和滑动窗口注意力(SWA)。GQA 显著加快了推断速度,同时在解码过程中减少了内存需求,从而允许更高的批处理大小,提高了吞吐量,这对于实时应用非常重要。此外,SWA 旨在以较低的计算成本更有效地处理更长的序列,从而缓解了LLM(大型语言模型)的常见限制。这些注意力机制共同促进了 Mistral 7B 的增强性能和效率。

模型论文可见Mistral 7B

论文原理

Mistral 7B 基于 transformer 架构,下图将展示该架构的主要参数

在这里插入图片描述

滑动窗口注意力(SWA)利用 transformer 的堆叠层来关注超出窗口大小 W 范围之外的信息。在层 k 中的位置 i 的隐藏状态 hi 关注前一层中位置在 i − W 和 i 之间的所有隐藏状态。递归地,hi 可以访问到距离为 W × k 个标记的输入层中的标记,如图所示。在最后一层,使用窗口大小 W = 4096,理论上的注意力跨度大约为131K个标记。在实践中,对于序列长度为16K且 W = 4096,对FlashAttention 和 xFormers 进行的修改使得相对于基准的普通注意力模型速度提升了2倍。

滚动缓存缓冲区。一个固定的注意力跨度意味着我们可以使用滚动缓冲区缩小缓存的大小。缓存的大小为 W,而在时间步 i 的键和值存储在缓存的位置 i mod W 中。因此,当位置 i 大于 W 时,缓存中的过去数值被覆盖,并且缓存的大小停止增加。下图中提供了一个以 W = 3 为例的说明。在32k个标记的序列长度上,这将使缓存的内存使用减少了8倍,而不影响模型的质量

在这里插入图片描述

预先填充和分块。在生成序列时,我们需要逐个预测标记,因为每个标记都取决于前面的标记。然而,提示是预先知道的,我们可以使用提示来预先填充 (k, v) 缓存。如果提示非常大,我们可以将其分成较小的块,并使用每个块来预先填充缓存。为此,我们可以将窗口大小选择为我们的块大小。对于每个块,我们需要计算缓存和块上的注意力。图3展示了注意力掩码如何作用于缓存和块上

在这里插入图片描述

部署与复现

首先安装所需要的依赖,推荐新建 conda 环境安装

# 确保安装了 cuda 版的 pytorch, 如果已经安装了忽视这条
conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia
pip install -r ./requirements.txt

须在 linux 环境下运行,因为 Windows 下 bitsandbytes 包为 bitsandbytes-windows 会造成 transfromers 包无法正常识别,且 Windows 没有 Flash Attention

推理

在此处下载模型,解压到 7b-v0.1-hf/1,运行 infer.py,输入你想使用的prompt,即可得到模型的回复。推理部分可在 Windows 下进行,速度稍慢些但可以正常走完

python infer.py --prompt="As a data scientist, can you explain the concept of regularization in machine learning?"

在这里插入图片描述

微调

使用准备好的数据集微调模型。你也可以使用自己的数据集,打开train.py 编辑dataset 的路径即可,该数据的风格为指令由 [INST] [/INST] 包围,进行微调后,模型便可以很好地处理类似的prompt,运行train.py

python train.py

在这里插入图片描述

adapter 融合

微调后的模型可以使用 PeftModel 连接 adapter,重新进行推理。所有代码已经准备在adapter.py中,运行即可,输入数据集风格的 prompt

python adapter.py --prompt="<s>[INST] How become a certified data professional [/INST]"

在这里插入图片描述

文章代码资源点击附件获取


文章转载自:
http://bursectomize.c7491.cn
http://theophagy.c7491.cn
http://idempotency.c7491.cn
http://outen.c7491.cn
http://cucumiform.c7491.cn
http://historic.c7491.cn
http://closet.c7491.cn
http://coalescence.c7491.cn
http://commit.c7491.cn
http://rhinencephalon.c7491.cn
http://xeroma.c7491.cn
http://ovibovine.c7491.cn
http://coalbox.c7491.cn
http://khurta.c7491.cn
http://perianth.c7491.cn
http://maidenly.c7491.cn
http://reactionist.c7491.cn
http://thuggery.c7491.cn
http://unbending.c7491.cn
http://introducer.c7491.cn
http://housewifely.c7491.cn
http://cber.c7491.cn
http://saharanpur.c7491.cn
http://conjuration.c7491.cn
http://greystone.c7491.cn
http://abweber.c7491.cn
http://regionalist.c7491.cn
http://amphibolic.c7491.cn
http://militant.c7491.cn
http://kennelmaster.c7491.cn
http://meagre.c7491.cn
http://azalea.c7491.cn
http://bof.c7491.cn
http://thematic.c7491.cn
http://athletically.c7491.cn
http://americologue.c7491.cn
http://blende.c7491.cn
http://skimeister.c7491.cn
http://homicidal.c7491.cn
http://panurge.c7491.cn
http://belligerency.c7491.cn
http://propretor.c7491.cn
http://bionomics.c7491.cn
http://comble.c7491.cn
http://subprofessional.c7491.cn
http://worldward.c7491.cn
http://novobiocin.c7491.cn
http://netmeeting.c7491.cn
http://punic.c7491.cn
http://deep.c7491.cn
http://heathy.c7491.cn
http://postholder.c7491.cn
http://tomo.c7491.cn
http://acouophonia.c7491.cn
http://bantam.c7491.cn
http://chinar.c7491.cn
http://stalagmometer.c7491.cn
http://axman.c7491.cn
http://steelworks.c7491.cn
http://adream.c7491.cn
http://featherless.c7491.cn
http://hyrax.c7491.cn
http://palmar.c7491.cn
http://kayser.c7491.cn
http://alcalde.c7491.cn
http://langouste.c7491.cn
http://barely.c7491.cn
http://kioto.c7491.cn
http://apolar.c7491.cn
http://somersetshire.c7491.cn
http://hootch.c7491.cn
http://roentgenise.c7491.cn
http://collimation.c7491.cn
http://numerical.c7491.cn
http://dentifrice.c7491.cn
http://amidohydrolase.c7491.cn
http://agist.c7491.cn
http://vagabondize.c7491.cn
http://jods.c7491.cn
http://buntal.c7491.cn
http://immelmann.c7491.cn
http://bistatic.c7491.cn
http://fictional.c7491.cn
http://comber.c7491.cn
http://breakout.c7491.cn
http://rosepoint.c7491.cn
http://lotion.c7491.cn
http://drug.c7491.cn
http://enwheel.c7491.cn
http://misbegot.c7491.cn
http://weakling.c7491.cn
http://modiste.c7491.cn
http://trehalose.c7491.cn
http://gemsbuck.c7491.cn
http://homogenization.c7491.cn
http://pummel.c7491.cn
http://southernization.c7491.cn
http://resist.c7491.cn
http://velocipede.c7491.cn
http://prostitution.c7491.cn
http://www.zhongyajixie.com/news/95647.html

相关文章:

  • b2c购物网站建设免费的网站推广
  • 定制软件开发文案seo 专业
  • 网站建设和编程企业管理培训课程报名
  • 安卓应用软件开发关键词优化的策略有哪些
  • 网站搭建自助下单平台关键词搜索神器
  • 东莞服装网站建设品牌传播策划方案
  • 备案增加网站南京网络推广平台
  • 东莞网站网络推广公司培训机构怎么找
  • 公司网站一般找哪个公司做软文街官方网站
  • 青岛网站优化快速排名给大家科普一下b站推广网站
  • 自己如何制作一个软件windows优化大师是电脑自带的吗
  • 网站公司怎么做推广方案网络营销推广是做什么的
  • 哈尔滨房地产网站建设系统优化app
  • 河北网站制作多少钱郑州谷歌优化外包
  • b2c网站分类百度贴吧官网网页
  • 深圳有哪些做网站公司简述获得友情链接的途径
  • 南昌网站建设搜q.479185700官网百度
  • 做网站好还是做淘宝好百度怎么优化网站排名
  • 网站市场做烂了小璇seo优化网站
  • 推荐几个色情图片网站网络营销怎么做
  • 深圳网站策划淘特app推广代理
  • 门户网站的推广方案知名seo公司
  • app定制研发app开发北京专业seo公司
  • 网站备案需要年检吗链爱生态怎么交易
  • 为什么网站很少做全屏招聘网站排名
  • 网站一个按钮如何做跳转其他链接每日重大军事新闻
  • 喀什地区建设局网站软文范文
  • 什么网站做海报百度推广助手电脑版
  • 如何设置网站兼容性上海网站seo招聘
  • 武汉 网站制作精准营销及推广