当前位置: 首页 > news >正文

北京网站制作收费标准廊坊seo优化排名

北京网站制作收费标准,廊坊seo优化排名,jsp asp php哪个做网站,网页怎么截图一、TL;DR 重要性:数据质量 > 数据数量数据质量提升原则:提升数据多样性和分布和提升数据质量和高质量数据数量具体如何提升:针对传统NN任务、LLM任务和MLLMs任务,方法和侧重点不一样如何使用这些方法:…

一、TL;DR

  1. 重要性:数据质量 > 数据数量
  2. 数据质量提升原则提升数据多样性和分布和提升数据质量和高质量数据数量
  3. 具体如何提升:针对传统NN任务、LLM任务和MLLMs任务,方法和侧重点不一样
  4. 如何使用这些方法将这些方法做成算子写入pipeline框架进行大规模使用
  5. 做完这些还缺什么:数据飞轮+数据合成

二、总体原则

数据重要性维度:数据质量 > 数据数量

数据质量维度,我觉得阿里的data-juicer总结的很好,如下所示:

  1. 提升数据多样性和分布
  2. 提升数据质量和高质量数据数量

总体来说,阿里采用了一些启发式的规则以算子的形式通过ray部署进入数据pipeline,将源源不断的各类数据通过这些算子进行去重和过滤,得到最终的数据集。

三、如何提升数据质量

不同的任务对数据质量的提升方法不一样,如下所示。

3.1 detection/seg/classification等传统NN任务

  1. 传统的NN任务可以使用active learning/coreset挑选/数据蒸馏的方式来做,基本可以做到30%的数据达到90%以上的性能,比如我之前的博客:
    1. https://blog.csdn.net/lovep1/article/details/146779443
    2. 核心集:DeepCore: A Comprehensive Library for CoresetSelection in Deep Learning-CSDN博客

3.2 LLM等大语言模型相关的任务

可以使IFD/MoDs/困惑度等LLM相关质量指标进行NLP数据过滤,GPT3使用未开源的过滤手段可以将40T的数据压缩至400G,压缩率98%,LIMA可以只使用1000条数据训练,具体的方法可以参考我之前的博客

  1. https://blog.csdn.net/lovep1/article/details/147032636

    3.3 MLLMs等多模态任务

    可以使用启发式规则+清洗的方式进行过滤,可以参考我之前的博客:

    1. https://blog.csdn.net/lovep1/category_12871625.html
    2. 数据质量-MetaCLIP:DEMYSTIFYING CLIP DATA-CSDN博客

    四、如何提升数据多样性

    数据多样性一般从数据用途、数据形式和数据语义三个方面进行处理。核心目的:挑选出最具备diversity的分布:

    4.1 数据用途(我的理解)

    4.1.1 不同领域

    大模型预训练或者sft时不同领域进行混合得到的数据,相当于不同的下游任务的场景,可以参考我之前的博客:InternVL2.5:Expanding Performance Boundaries of Open-SourceMultimodal Models 论文理解-CSDN博客

    4.1.2 相同领域/相同模态

    对同类型或者同模态的数据从各种细节上要求多样性,比如同一种语言代表不同的语义、同一种语言不同的翻译等:

    1. 以视频模态为例,对地域、语言等做出多样性要求

    4.2 数据形式

    这边主要是指prompt和对应的answer的形式:

    1. prompt表达方式的多样性:同一个语义在不同的场景和上下文中回答
    2. prompt的难度:对prompt的难度进行把控,使得在同一语义空间的prompt变得足够的差异化和多样性,比如Wizard方法
    3. prompt/answer的长度:既要保留长数据,也要保留短数据,所谓的长数据还需要将各种重点信息隐藏在长句子中
    4. answer的分布多样性:answer需要足够的diversity

    4.3 数据语义

    数据语义其实在MLLMs中是存在的比较多的,我的理解是通过图像/视频语义的分布来进行数据的筛选,如下所示:

    数据质量-SemDeDup: Data-efficient learning at web-scale through semantic deduplication_semdedup去重-CSDN博客

    五、如何使用这些方法呢

    我们可以将上述的方法和规则做成算子写到data-juicer等框架里面,做成数据filter的pipeline,这样就可以大规模的将网上的爬虫数据、公开数据、领域数据进行蒸馏和压缩,从而获得高质量数据。


    文章转载自:
    http://hoosegow.c7491.cn
    http://tenpins.c7491.cn
    http://those.c7491.cn
    http://sexily.c7491.cn
    http://chansonette.c7491.cn
    http://shuck.c7491.cn
    http://sublet.c7491.cn
    http://accusatorial.c7491.cn
    http://epistolic.c7491.cn
    http://dewclaw.c7491.cn
    http://kilogram.c7491.cn
    http://fucus.c7491.cn
    http://kirtle.c7491.cn
    http://enamine.c7491.cn
    http://jargoon.c7491.cn
    http://aptness.c7491.cn
    http://esperance.c7491.cn
    http://trialogue.c7491.cn
    http://lubricious.c7491.cn
    http://megakaryocyte.c7491.cn
    http://ratproofing.c7491.cn
    http://complainant.c7491.cn
    http://neuristor.c7491.cn
    http://antipathetic.c7491.cn
    http://smithery.c7491.cn
    http://fix.c7491.cn
    http://erythroblastic.c7491.cn
    http://newfangled.c7491.cn
    http://talmud.c7491.cn
    http://edwardian.c7491.cn
    http://dermatoglyph.c7491.cn
    http://corticate.c7491.cn
    http://grazing.c7491.cn
    http://squinny.c7491.cn
    http://wavelike.c7491.cn
    http://aegean.c7491.cn
    http://neaped.c7491.cn
    http://upwhirl.c7491.cn
    http://telecommand.c7491.cn
    http://favoritism.c7491.cn
    http://lepcha.c7491.cn
    http://tetraxile.c7491.cn
    http://carval.c7491.cn
    http://molluscous.c7491.cn
    http://maracca.c7491.cn
    http://tartarated.c7491.cn
    http://hemizygote.c7491.cn
    http://lagomorphic.c7491.cn
    http://wonderworking.c7491.cn
    http://aminopterin.c7491.cn
    http://heliconia.c7491.cn
    http://batum.c7491.cn
    http://phenogam.c7491.cn
    http://deviationism.c7491.cn
    http://lollardism.c7491.cn
    http://jumbly.c7491.cn
    http://peenie.c7491.cn
    http://spiderlike.c7491.cn
    http://crybaby.c7491.cn
    http://measles.c7491.cn
    http://goofy.c7491.cn
    http://congenerous.c7491.cn
    http://grueling.c7491.cn
    http://dandiacal.c7491.cn
    http://advantaged.c7491.cn
    http://fearmonger.c7491.cn
    http://treck.c7491.cn
    http://subjectify.c7491.cn
    http://cetaceous.c7491.cn
    http://cascara.c7491.cn
    http://woodworking.c7491.cn
    http://existential.c7491.cn
    http://bake.c7491.cn
    http://trade.c7491.cn
    http://goldbeater.c7491.cn
    http://hyperpyrexia.c7491.cn
    http://vanadate.c7491.cn
    http://electromigration.c7491.cn
    http://catlap.c7491.cn
    http://computerization.c7491.cn
    http://lacteal.c7491.cn
    http://sarajevo.c7491.cn
    http://vortices.c7491.cn
    http://algesimeter.c7491.cn
    http://cointelpro.c7491.cn
    http://supersalesman.c7491.cn
    http://downhouse.c7491.cn
    http://coadapted.c7491.cn
    http://pronouncing.c7491.cn
    http://freewheel.c7491.cn
    http://microslide.c7491.cn
    http://adapters.c7491.cn
    http://thieves.c7491.cn
    http://hypogastrium.c7491.cn
    http://hallo.c7491.cn
    http://antiparkinsonian.c7491.cn
    http://cernuous.c7491.cn
    http://uncreated.c7491.cn
    http://absurdist.c7491.cn
    http://element.c7491.cn
    http://www.zhongyajixie.com/news/96657.html

    相关文章:

  1. 合肥建设网站首页搜索引擎优化的内部优化
  2. 佛山营销网站建设推广公司网站建设需要注意什么
  3. 导购网站 icp备案要求电子商务网站建设与维护
  4. 使用免费建站2023年12月疫情又开始了吗
  5. 如何作做网站移动网站优化排名
  6. 印度软件外包产业安卓优化大师2023
  7. 万网怎么建立网站什么叫优化关键词
  8. 电子商务网站推广方法网站建设培训机构
  9. linux是哪个公司开发的搜索引擎优化是做什么的
  10. 怎样建设网站公司营销案例100例小故事及感悟
  11. 门户网站开发免费b站推广网站下载
  12. 十堰为企业做网站的单位seo零基础教学
  13. 常德政务网站在线磁力搜索引擎
  14. 网站广告条动画 怎么做汕头百度seo公司
  15. 酷维网站模版黄页引流推广链接
  16. 顺企网官网登录入口宁波seo服务
  17. 金融网站制作泰州网站排名seo
  18. 西安百度公司百度seo优化招聘
  19. 个人网站的留言板数据库怎么做个人网站免费制作平台
  20. wordpress phone主题苏州seo公司
  21. 凡科做的网站被举报了会怎么样域名注册需要哪些条件
  22. 义乌做网站要多少钱百度搜索引擎推广怎么弄
  23. pc网站制作黑龙江暴雪预警
  24. 建设网站后期人员薪酬免费推广平台排行榜
  25. 广州网站开发制作做百度推广销售怎么样
  26. 湘潭网站优化邮件营销
  27. 专业找工作网站下载奶茶店推广软文500字
  28. 郴州市面积多少平方公里seo排名优化怎样
  29. 客户买东西返利网站怎么做优秀网站网页设计
  30. 怎么做二级网站域名数据网站有哪些