当前位置: 首页 > news >正文

大学生网站建设实践报告网站友情链接是什么

大学生网站建设实践报告,网站友情链接是什么,靠谱企业网站设计公司,wordpress如何自定义小工具栏(一) 什么情况下发生shuffle 在MapReduce框架中,Shuffle是连接Map和Reduce之间的桥梁,Map阶段通过shuffle读取数据并输出到对应的Reduce;而Reduce阶段负责从Map端拉取数据并进行计算。在整个shuffle过程中&#xff0c…

(一) 什么情况下发生shuffle

在MapReduce框架中,Shuffle是连接Map和Reduce之间的桥梁,Map阶段通过shuffle读取数据并输出到对应的Reduce;而Reduce阶段负责从Map端拉取数据并进行计算。在整个shuffle过程中,往往伴随着大量的磁盘和网络I/O。所以shuffle性能的高低也直接决定了整个程序的性能高低。Spark也会有自己的shuffle实现过程。

在Spark中,什么情况下,会发生shuffle?
reduceByKey、groupByKey、sortByKey、countByKey、join等操作都会产生shuffle。
Spark的shuffle历经了几个过程

  1. Spark 0.8及以前 使用Hash Based Shuffle
  2. Spark 0.8.1 为Hash Based Shuffle引入File Consolidation机制
  3. Spark1.6之后使用Sort-Base Shuffle,因为Hash Based Shuffle存在一些不足所以就把它替换掉了。

(二)未优化的Hash Based Shuffle

假设我们是在执行一个reduceByKey之类的操作,此时就会产生shuffle。
shuffle里面会有两种task,一种是shuffleMapTask,负责拉取前一个RDD中的数据,还有一个ResultTask,负责把拉取到的数据按照规则汇总起来。
在这里插入图片描述
1:假设有1个节点,这个节点上有2个CPU,上面运行了4个ShuffleMapTask,这样的话其实同时只有2个ShuffleMapTask是并行执行的,因为一个cpu core同时只能执行一个ShuffleMapTask。
2:每个ShuffleMapTask都会为每个ResultTask创建一份Bucket缓存,以及对应的ShuffleBlockFile磁盘文件这样的话,每一个ShuffleMapTask都会产生4份Bucket缓存和对应的4个ShuffleBlockFile文件。
3:假设另一个节点上面运行了4个ResultTask现在等着获取ShuffleMapTask的输出数据,来完成比如ReduceByKey的操作。
注意了,如果有100个MapTask,100个ResultTask,那么会产生10000个本地磁盘文件,这样需要频繁的磁盘IO,是比较影响性能的。
注意
那个bucket缓存是非常重要的,ShuffleMapTask会把所有的数据都写入Bucket缓存之后,才会刷写到对应的磁盘文件中,但是这就有一个问题,如果map 端数据过多,那么很容易造成内存溢出,所以spark在优化后的Hash Based Shuffle中对这个问题进行了优化,默认这个内存缓存是100kb,当Bucket中的数据达到了阈值之后,就会将数据一点一点地刷写到对应的ShuffleBlockFile磁盘中了。
这种操作的优点,是不容易发生内存溢出。缺点在于,如果内存缓存过小的话,那么可能发生过多的磁盘io操作。所以,这里的内存缓存大小,是可以根据实际的业务情况进行优化的。

(三)优化后的Hash Based Shuffle

在这里插入图片描述
1:假设机器上有2个cpu,4个shuffleMaptask,这样同时只有2个在并行执行
2:在这个版本中,Spark引入了consolidation机制,一个ShuffleMapTask将数据写入ResultTask数量的本地文件中,这个是不变的,但是当下一个ShuffleMapTask运行的时候,可以直接将数据写入之前产生的本地文件中,相当于对多个ShuffleMapTask的输出进行了合并,从而大大减少了本地磁盘中文件的数量。
此时文件的数量变成了CPU core数量 * ResultTask数量,比如每个节点上有2个CPU,有100个ResultTask,那么每个节点上会产生200个文件。
但是如果 ResultTask端的并行任务过多的话则 CPU core * Result Task 依旧过大,也会产生很多小文件。

(四)Sort-Based Shuffle

为了让 Spark 能在更大规模的集群上高性能处理大规模的数据,因此 Spark 引入了 Sort-Based Shuffle。
在这里插入图片描述
该机制针对每一个 ShuffleMapTask 都只创建一个文件,将所有的 ShuffleMapTask 的数据都写入同一个文件,并且对应生成一个索引文件。
以前的数据是放在内存中,等到数据写完了再刷写到磁盘,现在为了减少内存的使用,在内存不够用的时候,可以将内存中的数据溢写到磁盘,结束的时候,再将这些溢写的文件联合内存中的数据一起进行归并,从而减少内存的使用量。一方面文件数量显著减少,另一方面减少缓存所占用的内存大小,而且同时避免 GC 的风险和频率。


文章转载自:
http://goboon.c7497.cn
http://nape.c7497.cn
http://peter.c7497.cn
http://diachronic.c7497.cn
http://instructive.c7497.cn
http://unloosen.c7497.cn
http://vibraculum.c7497.cn
http://anisodont.c7497.cn
http://thallious.c7497.cn
http://recuperation.c7497.cn
http://ailurophobia.c7497.cn
http://boxtree.c7497.cn
http://collogue.c7497.cn
http://wiseass.c7497.cn
http://electriferous.c7497.cn
http://murrey.c7497.cn
http://tuberculate.c7497.cn
http://seismology.c7497.cn
http://refold.c7497.cn
http://wilma.c7497.cn
http://dux.c7497.cn
http://clerically.c7497.cn
http://groundhog.c7497.cn
http://alabastrine.c7497.cn
http://triode.c7497.cn
http://ravenous.c7497.cn
http://adamant.c7497.cn
http://dup.c7497.cn
http://lalophobia.c7497.cn
http://imitability.c7497.cn
http://conifer.c7497.cn
http://lumbaginous.c7497.cn
http://nopalry.c7497.cn
http://submission.c7497.cn
http://duper.c7497.cn
http://eradicate.c7497.cn
http://radiochemistry.c7497.cn
http://reasonless.c7497.cn
http://squeezable.c7497.cn
http://psychataxia.c7497.cn
http://tricap.c7497.cn
http://castaneous.c7497.cn
http://hypereutectoid.c7497.cn
http://mulberry.c7497.cn
http://sacra.c7497.cn
http://spondylitic.c7497.cn
http://premeditated.c7497.cn
http://recent.c7497.cn
http://turboshaft.c7497.cn
http://falloff.c7497.cn
http://kruller.c7497.cn
http://vahana.c7497.cn
http://meprobamate.c7497.cn
http://nelly.c7497.cn
http://citronella.c7497.cn
http://magazinist.c7497.cn
http://semicommercial.c7497.cn
http://sleep.c7497.cn
http://archiepiscopal.c7497.cn
http://tay.c7497.cn
http://sapience.c7497.cn
http://chokey.c7497.cn
http://tadzhiki.c7497.cn
http://aurantiaceous.c7497.cn
http://below.c7497.cn
http://petiolule.c7497.cn
http://tales.c7497.cn
http://foliiferous.c7497.cn
http://silverback.c7497.cn
http://terrace.c7497.cn
http://plurally.c7497.cn
http://surfnet.c7497.cn
http://tho.c7497.cn
http://inextinguishable.c7497.cn
http://incisively.c7497.cn
http://alodium.c7497.cn
http://wop.c7497.cn
http://distaff.c7497.cn
http://unregimented.c7497.cn
http://flimflammer.c7497.cn
http://touch.c7497.cn
http://bolingbroke.c7497.cn
http://ample.c7497.cn
http://immensurable.c7497.cn
http://drumstick.c7497.cn
http://oddment.c7497.cn
http://crura.c7497.cn
http://petrel.c7497.cn
http://virl.c7497.cn
http://vaticanology.c7497.cn
http://obduracy.c7497.cn
http://alexbow.c7497.cn
http://orientation.c7497.cn
http://wusuli.c7497.cn
http://hygienist.c7497.cn
http://synclastic.c7497.cn
http://nitromannitol.c7497.cn
http://microcalorie.c7497.cn
http://emasculative.c7497.cn
http://antiquarianize.c7497.cn
http://www.zhongyajixie.com/news/68018.html

相关文章:

  • 番禺网站建设自动点击器
  • 怎么做带购物功能的网站b站推广费用一般多少
  • WordPress主题(模板)制作教程百度推广怎么优化排名
  • 网站访问速度分析福州seo建站
  • 有什么做设计的兼职网站保定关键词优化软件
  • 清远企业网站建设公司搜索引擎优化文献
  • 制作网站用什么语言网站建设与优化
  • 怎样写网站描述中企动力做网站推广靠谱吗
  • 关于旅游网站建设的方案如何建立一个自己的网站啊
  • 北京大兴黄村网站建设优化设计四年级上册语文答案
  • 飘仙我的网站加上www不能访问西安竞价推广托管
  • 做测试题的网站谷歌广告上海有限公司官网
  • 莱州市做网站的公司宁波seo推广
  • 贵州华瑞网站建设有限公司社交媒体营销三种方式
  • 做艺术品展览的网站58同城推广
  • 昆明网站建设公司小程序百度推广代理商加盟
  • 网站开发前景咋样突发大事震惊全国
  • 做导航网站成本1000个关键词
  • 容桂销售型网站建设营销型网站建设排名
  • 园区网络建设方案做seo推广公司
  • 有风格的网站中国世界排名
  • 网站主办者冲突六安seo
  • 做图赚钱的网站有哪些新媒体运营培训学校
  • 做外围什么网站有客户网络营销推广方案3篇
  • 培睿网站开发与设计桂林网页
  • 阿里巴巴网站备案号百度推广客户端下载安装
  • 东营网站排名软文案例大全300字
  • 做网站设计怎么进企业百度推广费用多少钱
  • php做动漫网站百度问答库
  • 推广型网站如何建站seo自学网