当前位置: 首页 > news >正文

国外那些视频网站做的不错软文文案范文

国外那些视频网站做的不错,软文文案范文,榕江网站建设,服装网站建设平台分析训练生成效果评测 Fastchat Chatbot Arena推出了模型在线对战平台,可浏览和评测模型回复质量。对战平台提供了胜率、Elo评分等评测指标,并且可以查看两两模型的对战胜率等结果。生成回复具有随机性,受解码超参、随机种子等因素影响&#xff…

训练生成效果评测

Fastchat Chatbot Arena推出了模型在线对战平台,可浏览和评测模型回复质量。对战平台提供了胜率、Elo评分等评测指标,并且可以查看两两模型的对战胜率等结果。生成回复具有随机性,受解码超参、随机种子等因素影响,因此相关评测并非绝对严谨,结果仅供晾晒参考。

⚔️ 模型竞技场:http://llm-arena.ymcui.com

系统对战胜率(无平局) ↓Elo评分
Chinese-Alpaca-2-13B-16K86.84%1580
Chinese-Alpaca-2-13B72.01%1579
Chinese-Alpaca-Pro-33B64.87%1548
Chinese-Alpaca-2-7B64.11%1572
Chinese-Alpaca-Pro-7B62.05%1500
Chinese-Alpaca-2-7B-16K61.67%1540
Chinese-Alpaca-Pro-13B61.26%1567
Chinese-Alpaca-Plus-33B31.29%1401
Chinese-Alpaca-Plus-13B23.43%1329
Chinese-Alpaca-Plus-7B20.92%1379

以上结果截至2023年9月1日。最新结果请进入⚔️竞技场进行查看。

客观效果评测:C-Eval

C-Eval是一个全面的中文基础模型评估套件,其中验证集和测试集分别包含1.3K和12.3K个选择题,涵盖52个学科。实验结果以“zero-shot / 5-shot”进行呈现。C-Eval推理代码请参考本项目:📖GitHub Wiki

LLaMA ModelsValidTestAlpaca ModelsValidTest
Chinese-LLaMA-2-13B40.6 / 42.738.0 / 41.6Chinese-Alpaca-2-13B44.3 / 45.942.6 / 44.0
Chinese-LLaMA-2-7B28.2 / 36.030.3 / 34.2Chinese-Alpaca-2-7B41.3 / 42.940.3 / 39.5
Chinese-LLaMA-Plus-33B37.4 / 40.035.7 / 38.3Chinese-Alpaca-Plus-33B46.5 / 46.344.9 / 43.5
Chinese-LLaMA-Plus-13B27.3 / 34.027.8 / 33.3Chinese-Alpaca-Plus-13B43.3 / 42.441.5 / 39.9
Chinese-LLaMA-Plus-7B27.3 / 28.326.9 / 28.4Chinese-Alpaca-Plus-7B36.7 / 32.936.4 / 32.3

客观效果评测:CMMLU

CMMLU是另一个综合性中文评测数据集,专门用于评估语言模型在中文语境下的知识和推理能力,涵盖了从基础学科到高级专业水平的67个主题,共计11.5K个选择题。CMMLU推理代码请参考本项目:📖GitHub Wiki

LLaMA ModelsTest (0/few-shot)Alpaca ModelsTest (0/few-shot)
Chinese-LLaMA-2-13B38.9 / 42.5Chinese-Alpaca-2-13B43.2 / 45.5
Chinese-LLaMA-2-7B27.9 / 34.1Chinese-Alpaca-2-7B40.0 / 41.8
Chinese-LLaMA-Plus-33B35.2 / 38.8Chinese-Alpaca-Plus-33B46.6 / 45.3
Chinese-LLaMA-Plus-13B29.6 / 34.0Chinese-Alpaca-Plus-13B40.6 / 39.9
Chinese-LLaMA-Plus-7B25.4 / 26.3Chinese-Alpaca-Plus-7B36.8 / 32.6

长上下文版模型(16K)评测

LongBench是一个大模型长文本理解能力的评测基准,由6大类、20个不同的任务组成,多数任务的平均长度在5K-15K之间,共包含约4.75K条测试数据。LongBench推理代码请参考本项目:📖GitHub Wiki

Models单文档QA多文档QA摘要Few-shot学习代码补全合成任务Avg
Chinese-Alpaca-2-13B-16K48.126.012.823.345.521.529.5
Chinese-Alpaca-2-13B38.420.012.218.046.29.024.0
Chinese-Alpaca-2-7B-16K46.623.614.529.047.19.028.3
Chinese-Alpaca-2-7B32.017.211.521.548.85.022.7
Chinese-LLaMA-2-13B-16K37.318.13.430.813.03.017.6
Chinese-LLaMA-2-13B26.714.04.416.39.85.512.8
Chinese-LLaMA-2-7B-16K33.716.55.324.39.94.215.6
Chinese-LLaMA-2-7B20.714.56.512.811.55.311.9

量化效果评测

以Chinese-LLaMA-2-7B为例,对比不同精度下的模型大小、PPL(困惑度)、C-Eval效果,方便用户了解量化精度损失。PPL以4K上下文大小计算,C-Eval汇报的是valid集合上zero-shot和5-shot结果。

精度模型大小PPLC-Eval
FP1612.9 GB9.37328.2 / 36.0
8-bit量化6.8 GB9.47626.8 / 35.4
4-bit量化3.7 GB10.13225.5 / 32.8

特别地,以下是在llama.cpp下不同量化方法的评测数据,供用户参考,速度以ms/tok计,测试设备为M1 Max。具体细节见📖GitHub Wiki

llama.cppF16Q2_KQ3_KQ4_0Q4_1Q4_KQ5_0Q5_1Q5_KQ6_KQ8_0
PPL9.12811.1079.5769.4769.5769.2409.1569.2139.1689.1339.129
Size12.91G2.41G3.18G3.69G4.08G3.92G4.47G4.86G4.59G5.30G6.81G
CPU Speed11742513944434851505465
GPU Speed531921171820xx2526x
http://www.zhongyajixie.com/news/64606.html

相关文章:

  • 外包网站建设网站关键词排名seo
  • 门户网站整改情况报告软件培训班学费多少
  • 云南省建设厅官方网站不良记录太原百度公司地址
  • 简单的网站建设步骤免费百度广告怎么投放
  • 惠州淘宝网站建设百度竞价电话
  • 免费空间测试网站最新军事头条
  • 网站快速办理备案搜索引擎优化技术都有哪些
  • 重庆定制网站建设地址软文广告经典案例600
  • wordpress主题圆角电脑优化大师下载安装
  • 专业网站建设顾问武汉网络推广公司
  • 网络营销案例图文ppt如何做seo搜索引擎优化
  • 我们不是做网站的新浪舆情通
  • 用PYTHON3 做网站百度推广登录手机版
  • 肃州区住房和城乡建设局网站厦门关键词排名推广
  • 请人做网站要安仁网络推广
  • 公司网站封面怎么做佛山网站建设正规公司
  • 政府网站建设设计方案佛山优化推广
  • 西安专业做网站的公司哪家好优化网站软文
  • 东莞做网站最好有哪些公司店铺推广
  • 怎么做网站外推互动营销公司
  • web前端属于什么行业seo怎么刷关键词排名
  • 做网站可以找设计公司吗企业优化推广
  • 网站文章采集优化设计数学
  • 东莞网站建设销售前景怎么样学生没钱怎么开网店
  • 成都网站建设公司高新线上广告推广
  • 中国排名高的购物网站湖北疫情最新消息
  • asp系统网站怎么做优化电商运营数据六大指标
  • 学校网站管理与建设佛山网站建设解决方案
  • 中国开头的网站怎么做免费建网站知乎
  • 如何设置多个首页wordpress南宁哪里有seo推广厂家