当前位置: 首页 > news >正文

低价网站建设靠谱吗今日头条网页版入口

低价网站建设靠谱吗,今日头条网页版入口,网站上怎么做推广比较好呢,网站建设流量是怎么回事spark 相关概念补充 课程目标 了解spark的安装部署知道spark作业提交集群的过程 6.1 spark的安装部署 1、下载spark安装包 http://spark.apache.org/downloads.html 高版本不存在cdh的编译版本,可以从官网下载源码版本,指定高版本hadoop进行编译 编译…

spark 相关概念补充

课程目标

  • 了解spark的安装部署
  • 知道spark作业提交集群的过程

6.1 spark的安装部署

  • 1、下载spark安装包

    http://spark.apache.org/downloads.html

    高版本不存在cdh的编译版本,可以从官网下载源码版本,指定高版本hadoop进行编译

    编译步骤:

    • 1,安装java(JDK 1.7及以上)

      export JAVA_HOME=/xxx
      export JRE_HOME=/xxx
      export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib:$CLASSPATH
      export PATH=$JAVA_HOME/bin:$PATH
      
    • 2,安装Maven, 版本为3.3.9或者以上

      下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache//maven/maven-3/3.3.9/binaries

      配置MAVEN_HOME

      export MAVEN_HOME=/xxx
      export PATH=$MAVEN_HOME/bin:$PATH
      
    • 3,下载spark源码

      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0srZc7VH-1690872631229)(C:/Users/beibei/Desktop/%E6%89%80%E6%9C%89%E8%B5%84%E6%96%99/spark-core/pics/s1.png)]

    • 4,增加cdh的repository

      解压spark的源码包,编辑pom.xml文件, 在repositories节点 加入如下配置:

      <repository><id>cloudera</id><url>https://repository.cloudera.com/artifactory/cloudera-repos/</url></repository>
      
    • 5,编译

      设置内存:

      export MAVEN_OPTS=“-Xmx2g -XX:ReservedCodeCacheSize=512m”

      开始编译:

      ./dev/make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz  -Pyarn -Phadoop-2.6 -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.7.0 -DskipTests clean package
      

      源码编译后,bin目录下的文件可能不存在可执行权限,需要通过chmod指令添加可执行权限

      chmod +x xxx

  • 2、规划spark安装目录

  • 3、解压安装包

  • 4、重命名安装目录

  • 5、修改配置文件

    • spark-env.sh(需要将spark-env.sh.template重命名)
      • 配置java环境变量
        • export JAVA_HOME=java_home_path
      • 配置PYTHON环境
        • export PYSPARK_PYTHON=/xx/pythonx_home/bin/pythonx
      • 配置master的地址
        • export SPARK_MASTER_HOST=node-teach
      • 配置master的端口
        • export SPARK_MASTER_PORT=7077
  • 6、配置spark环境变量

    • export SPARK_HOME=/xxx/spark2.x
    • export PATH=$PATH:$SPARK_HOME/bin

6.2 spark 集群相关概念

  • spark集群架构(Standalone模式)

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-u4nro2Hr-1690872631231)(/img/spark1.png)]

    • Application

      用户自己写的Spark应用程序,批处理作业的集合。Application的main方法为应用程序的入口,用户通过Spark的API,定义了RDD和对RDD的操作。

    • Master和Worker

      整个集群分为 Master 节点和 Worker 节点,相当于 Hadoop 的 Master 和 Slave 节点。

      • Master:Standalone模式中主控节点,负责接收Client提交的作业,管理Worker,并命令Worker启动Driver和Executor。
      • Worker:Standalone模式中slave节点上的守护进程,负责管理本节点的资源,定期向Master汇报心跳,接收Master的命令,启动Driver和Executor。
    • Client:客户端进程,负责提交作业到Master。

    • Driver: 一个Spark作业运行时包括一个Driver进程,也是作业的主进程,负责作业的解析、生成Stage并调度Task到Executor上。包括DAGScheduler,TaskScheduler。

    • Executor:即真正执行作业的地方,一个集群一般包含多个Executor,每个Executor接收Driver的命令Launch Task,一个Executor可以执行一到多个Task。

  • Spark作业相关概念

    • Stage:一个Spark作业一般包含一到多个Stage。

    • Task:一个Stage包含一到多个Task,通过多个Task实现并行运行的功能。

    • DAGScheduler: 实现将Spark作业分解成一到多个Stage,每个Stage根据RDD的Partition个数决定Task的个数,然后生成相应的Task set放到TaskScheduler中。

    • TaskScheduler:实现Task分配到Executor上执行。

      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-byrLH5ms-1690872631232)(/img/spark2.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5jpaPOks-1690872631232)(/img/spark3.png)]

http://www.zhongyajixie.com/news/38990.html

相关文章:

  • 河南做网站 河南网站建设营销策略怎么写模板
  • 石家庄集团公司网站建设网上seo研究
  • 太原网络营销网站优化网站的方法有哪些
  • 怎么样上传网站资料广西网站建设
  • 个人网站做微擎百度2022第三季度财报
  • 可以做策略回测的网站济南网站建设哪家便宜
  • 专业做汽车的网站推广seo公司
  • 郑州网站开发建设怎么做推广
  • 重庆网红景点排行榜前十名东莞seo建站如何推广
  • 网站推广要我营业执照复印件seo外链购买
  • 模板建站和仿站seo招聘信息
  • 做图用哪个素材网站色盲测试图看图技巧
  • myeclipse网站开发百度网页版浏览器入口
  • 政府网站建设栏目情况怎么做市场推广
  • 玄武模板网站制作品牌搜索seo优化托管
  • 网站公安备案时间限制站长推广工具
  • 长春电商网站建设哪家专业电销名单渠道在哪里找
  • premium wordpress themes信息流优化师是什么
  • 网站建设费用价格申请网址怎么申请的
  • 网站建设新闻 常识网络营销与传统营销的区别
  • 公司如何做自己的网站国内最好的搜索引擎
  • 昆明网站设计建设百度帐号个人中心
  • 做公司网站需要多少钱简单网页制作成品免费
  • 做网站汉中抖音宣传推广方案
  • 怎样做企业手机网站首页东莞做网络推广的公司
  • 淘宝联盟必须要网站备案app推广方案怎么写
  • 城市管理如何宣传市建设网站seo百科大全
  • 网站页面做平台怎样推广
  • wordpress文章变成html代码关键词排名优化网站
  • 政府网站问题建设调研报告最近发生的重大新闻