当前位置: 首页 > news >正文

免费网站建设站推广竞价托管费用

免费网站建设站,推广竞价托管费用,wordpress 查询函数,营口做网站企业目录 一、概念 1.1 Hadoop是什么 1.2 历史 1.3 三大发行版本(了解) 1.4 优势 1.5 组成💗 1.6 HDFS架构 1.7 YARN架构 1.8 MapReduce概述 1.9 HDFS\YARN\MapReduce关系 二、环境准备 2.1 准备模版虚拟机 2.2 安装必要软件 2.3 安…

目录=

一、概念

1.1 Hadoop是什么

1.2 历史

1.3 三大发行版本(了解)

1.4 优势

1.5 组成💗

1.6 HDFS架构

1.7 YARN架构

1.8 MapReduce概述

1.9 HDFS\YARN\MapReduce关系

二、环境准备

2.1 准备模版虚拟机

2.2 安装必要软件

2.3 安装xshell

2.4 创建用户并赋予root权限

2.5 克隆虚拟机

2.6 时间同步

2.7 ssh免密登录

2.8 xsync脚本分发

2.9 安装JDK和Mysql

安装jdk(三个节点)

安装mysql(主节点)目前不需要

三、完全分布式集群搭建

3.1 安装hadoop(三台)

3.2 集群部署

3.2.1 部署规划

3.2.2 配置文件(三台)

3.2.3 启动集群

参考:


一、概念

1.1 Hadoop是什么

  • apache的分布式系统基础架构
  • Hadoop实际上是一个生态圈,里面有多个组件,主要解决海量数据存储和分析计算问题

1.2 历史

  • Hadoop是Apache Lucene创始人 Doug Cutting 创建的。最早起源于Nutch,它是Lucene的子项目。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题:如何解决数十亿网页的存储和索引问题。
  • 2003年Google发表了一篇论文为该问题提供了可行的解决方案。论文中描述的是谷歌的产品架构,该架构称为:谷歌分布式文件系统(GFS),可以解决他们在网页爬取和索引过程中产生的超大文件的存储需求。
  • 2004年 Google发表论文向全世界介绍了谷歌版的MapReduce系统。
  • 同时期,以谷歌的论文为基础,Nutch的开发人员完成了相应的开源实现HDFS和MAPREDUCE,并从Nutch中剥离成为独立项目HADOOP
  • 到2008年1月,HADOOP成为Apache顶级项目,迎来了它的快速发展期。
  • 2006年Google发表了论文是关于BigTable的,这促使了后来的Hbase的发展。

因此,Hadoop及其生态圈的发展离不开Google的贡献。

1.3 三大发行版本(了解)

  • Apache 最基础的版本,完全开源免费
  • CDH,集成了大数据框架 发行版本
  • HDP,Ambari是HDP的安装工具和管理界面

    Cloudera公司已经正式终止了对CDH的支持。分别在2021年12月、2022年3月,Cloudera正式终止了对HDP(Hortonworks Data Platform)及CDH的支持

    后续推出CDP,新一代数据平台产品,它整合了HDP和CDH的功能并进行了优化和扩展。

1.4 优势

  1. 高可靠性:底层维护多个数据副本,避免故障时数据丢失
  2. 高扩展性:集群间分配任务数据,方便扩展节点,动态扩容缩减
  3. 高效性:并行工作
  4. 高容错性:自动将失败的任务重新分配

1.5 组成💗

Hadoop1.x、2.x、3.x的区别

  • Hadoop1.*中MapReduce中计算和资源调度同时处理,耦合性比较大
  • Hadoop2.*新增了YARN进行资源调度,MapReduce只用来计算
  • Hadoop2和3在组成上没有区别

1.6 HDFS架构

分布式文件系统

  • NameNode 数据存储位置(存储文件元数据,如:文件名 目录结构 文件属性 所在位置),相当于目录
  • DataNode 存储数据,相当于内容
  • 2NN 辅助NameNode工作(每隔一段时间对NameNode做数据备份)

1.7 YARN架构

资源管理器

  • Resource Manager 集群资源管理(内存、cup)
  • Node Manager 单节点资源管理
  • Container 容器,相当于一台独立服务器
  • ApplicationMaster,单个任务资源管理

1.8 MapReduce概述

  • map阶段,并行处理输入数据
  • reduce阶段,对map结果汇总

1.9 HDFS\YARN\MapReduce关系

大数据技术生态体系

二、环境准备

目标:需要准备3台虚拟机(本次使用Ubuntu24.04,但是教程大多是Centos,大差不差),机器名为hadoop102、hadoop103、hadoop104,对应ip:192.168.10.102、192.168.10.103、192.168.10.104

2.1 准备模版虚拟机

软件操作系统安装参考:(这部分没有详细记录,一般使参考视频和博客,要细心)

VMware 虚拟机图文安装和配置 Ubuntu Server 22.04 LTS 教程_00-installer-config.yaml-CSDN博客

19_尚硅谷_Hadoop_入门_Centos7.5软硬件安装_哔哩哔哩_bilibili

  • 配置静态ip 192.168.10.100,nat桥接模式
  • 配置文件修改/etc/netplan
  • 配置主机名称和ip映射:修改服务器hosts文件 192.168.10.100 hadoop100
  • 修改一些配置虚拟机和windows上的

2.2 安装必要软件

安装vim、iputils-ping、net-tools、rsync(一般安装最小体积的server版本才需要安装这些)

  • sudo apt install vim
  • sudo apt update
  • sudo apt-get update
  • sudo apt install iputils-ping
  • sudo apt install net-tools
  • sudo apt install rsync

测试网络:ping www.baidu.com

测试:ip ifconfig

2.3 安装xshell

c21_尚硅谷_Hadoop_入门_Xshell远程访问工具_哔哩哔哩_bilibili参考:21_尚硅谷_Hadoop_入门_Xshell远程访问工具_哔哩哔哩_bilibili

主要是做本机和虚拟机的交互和文件上传。因为本地安装了termius就不需要这个了,感觉termius更好用

2.4 创建用户并赋予root权限

给用户mlj root权限:vim /etc/sudoers

mlj ALL=(ALL:ALL) NOPASSWD:ALL

2.5 克隆虚拟机

  • 在vmware上克隆模版虚拟机
  • 修改ip和主机名分别为hadoop102 hadoop103 hadoop104
  • 修改ip和主机名的映射:vim /etc/hosts
192.168.10.102 hadoop102192.168.10.103 hadoop103192.168.10.104 hadoop104

报错:使用termius进行root用户登录时报错:SSH配置不允许root登录

  • 修改/etc/ssh/sshd_config PermitRootLogin:yes
  • 重启生效sudo systemctl restart sshd

2.6 时间同步

如果服务器在公网环境(能连接外网),可以不采用集群时间同步

  • 安装ntp时间同步服务器(所有节点):apt install ntp
  • 查看状态、启动、设置开机自启
systemctl status ntpdsecsystemctl start ntpsecsystemctl enable ntpsec
  • 重启服务器:reboot
  • 所有节点设置时区:中国上海 timedatectl set-timezone Asia/Shanghai
  • 修改配置同步时间的机器 vim /etc/ntpsec/ntp.conf
#注释(主节点需要,子节点注释掉)
#集群在局域网中,不使用其他互联网上的时间
pool 0.ubuntu.pool.ntp.org iburst
pool 1.ubuntu.pool.ntp.org iburst
pool 2.ubuntu.pool.ntp.org iburst
pool 3.ubuntu.pool.ntp.org iburst
#pool ntp.ubuntu.com#(子节点配置,使用102作为时间同步机器)
server hadoop102#当该节点丢失网络连接,依然可以采用本地时间作为时间服务器为集群中的其他节点提供时间同步
#(所有节点需要)
server 127.127.1.0fudge 
127.127.1.0 stratum 10#授权网段(主节点需要)
restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap
  • ntpq -p 查看同步情况

问题:时间和windows实践不一致

(1)安装ntpdate工具:sudo apt-get install ntpdate

(2)同步系统时间与网络时间:sudo ntpdate cn.pool.ntp.org

(3)其他节点同步hadoop102的时间: sudo ntpdate hadoop102

2.7 ssh免密登录

~/.ssh/

(1)102生成公私钥 三次回车 ssh-keygen -t rsa

(2)copy公钥到102 103 104 (本机也要配置)ssh-copy-id hadoop103

(3)103、104执行相同的步骤

(4)验证:ssh hadoop103

2.8 xsync脚本分发

(1)编写分发脚本xsync

注意:每台机器都要有rsync才能分发成功

/home/mlj/bin目录下,新建xsync

#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
thenecho Not Enough Arguement!exit;
fi
#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
doecho ====================  $host  ====================#3. 遍历所有目录,挨个发送for file in $@do#4 判断文件是否存在if [ -e $file ]then#5. 获取父目录pdir=$(cd -P $(dirname $file); pwd)#6. 获取当前文件的名称fname=$(basename $file)ssh $host "mkdir -p $pdir"rsync -av $pdir/$fname $host:$pdirelseecho $file does not exists!fidone
done

(2)修改xsync环境变量,否则找不到该命令

export PATH=$PATH:/home/mlj/bin

注意:rsync基于ssh服务需要配置秘钥,免密登录

2.9 安装JDK和Mysql

安装jdk(三个节点)

(1)下载上传到虚拟机:scp .\jdk-8u202-linux-x64.tar.gz root@192.168.10.104:/opt/soft/

(2)解压缩:sudo tar -zxvf jdk-8u202-linux-x64.tar.gz -C /opt/module/

(3)环境变量配置

#JAVA_HOMEexport JAVA_HOME=/opt/module/jdk1.8.0_202export PATH=$PATH:$JAVA_HOME/bin

(4)验证:java-version 

安装mysql(主节点)目前不需要

步骤:

  • 安装docker
  • 使用docker安装mysql
  • docker-compose启动mysql

问题:

(1)docker-compose报错,缺少python的一个包setuptools

  • 安装pipx :sudo apt install pipx
  • 安装包setuptools :sudo pipx install setuptools
  • docker-compose -version

(2)拉取镜像报错修复:Get "https://registry-1.docker.io/v2/": net/http: request canceled while waiting for connection (Client.Timeout exceeded while awaiting headers)

使用第三方镜像库:

AtomHub 可信镜像仓库平台 · OpenAtom Foundation

三、完全分布式集群搭建

3.1 安装hadoop(三台)

(1)上传hadoop包:tar -zxvf hadoop-3.4.1.tar.gz -C /opt/module

(2)解压缩 tar -zxvf hadoop-3.4.1.tar.gz -C /opt/module

(3)环境变量配置

#hadoop环境变量 
export HADOOP_HOME=/opt/module/hadoop-3.4.1 export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

(4)集群配置

3.2 集群部署

3.2.1 部署规划
  • NameNode和SecondaryNameNode不要安装同一台
  • ResourceManager也很消耗内存,不要和NameNode和SecondaryNameNode配置在一台机器

 

3.2.2 配置文件(三台)

自定义配置文件 4个

配置core-site.xml

<!-- 指定 NameNode 的地址 --><property><name>fs.defaultFS</name><value>hdfs://hadoop102:8020</value></property><!-- 指定 hadoop 数据的存储目录 --><property><name>hadoop.tmp.dir</name><value>/opt/module/hadoop-3.4.1/data</value></property><!-- 配置 HDFS 网页登录使用的静态用户为 mlj --><property><name>hadoop.http.staticuser.user</name><value>mlj</value></property>

hdfs-site.xml

<!-- nn web 端访问地址-->
<property><name>dfs.namenode.http-address</name><value>hadoop102:9870</value>
</property>
<!-- 2nn web 端访问地址-->
<property><name>dfs.namenode.secondary.http-address</name><value>hadoop104:9868</value>
</property>
<!--HDFS 中是否启用权限检查-->
<property><name>dfs.permissions</name><value>false</value>
</property>

yarn-site.xml

<!-- Site specific YARN configuration properties -->
<property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value>
</property>
<!-- 指定 ResourceManager 的地址-->
<property><name>yarn.resourcemanager.hostname</name><value>hadoop10</value>
</property>
<!--是否将对容器实施虚拟内存限制-->
<property><name>yarn.nodemanager.vmem-check-enabled</name><value>false</value>
</property>

mapred-site.xml

<!-- 指定 MapReduce 程序运行在 Yarn 上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

配置works(不能有空格换行!)

hadoop102hadoop103hadoop104
3.2.3 启动集群
  • 配置目录权限

sudo chmod -R a+w /opt/module/hadoop-3.4.1/

  • 初次启动初始化(初始化失败可能是没有权限,执行上一步)

hdfs namenode -format

  • 修改hadoop的环境变量hadoop-env.sh:vim /opt/module/hadoop-3.4.1/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_202
  • 脚本分发(文件夹需要修改权限),xsync 脚本
  • 启动dfs集群:sbin/start-dfs.sh
  • jps 验证
  • 访问hdfs web页面 http://192.168.10.102:9870/
  • 启动yarn sbin/start-yarn.sh
  • 登录yarn web页面 http://192.168.10.103:8088/

参考:

尚硅谷大数据Hadoop教程,hadoop3.x搭建到集群调优,百万播放_哔哩哔哩_bilibili

Hadoop3.1.4完全分布式集群搭建_hadoop 3.1.4-CSDN博客

http://www.zhongyajixie.com/news/17449.html

相关文章:

  • 提供手机网站建设哪家好seo技术培训海南
  • 北京代理网站备案无锡seo网站排名
  • 怎么在网站里做宣传个人网站设计方案
  • 外贸单证流程大连网络营销seo
  • 营销网站建设公司有哪些网络营销的应用
  • 河北网站建设与管理批量外链工具
  • 网站建设关键要素免费com网站域名注册
  • 青岛互联网公司排名湖南seo快速排名
  • 做网站要在工商备案吗做网站的费用
  • 网站开发毕设ppt售卖链接
  • 网站怎么自己做优化网站建设图片
  • 网站建设与管理报告seo搜索引擎优化排名哪家更专业
  • 厚街网站仿做泉州百度竞价开户
  • 甘肃建投土木工程建设有限公司网站网站模板哪家好
  • 驾校推广网络营销方案陕西新站seo
  • 我做网站啦 圆通导航公众号软文是什么意思
  • 怎样选择网站的关键词网络舆情分析报告模板
  • 魔方网站建设网站制作网站黄页推广软件
  • 做100个网站seo软件工具箱
  • 济南企业网站建设哪家好成都互联网公司排名
  • 苏州网站关键词优化推广企业seo网站推广
  • 平面设计高端网站杭州网站设计制作
  • 安阳做网站优化深圳优化公司统高粱seo
  • 扬州建设公司网站百度信息流广告代理
  • seo的主要分析工具广州seo代理
  • 建设项目 环评申报网站电商代运营公司100强
  • 哪些行业需要网站有哪些内容本周热点新闻事件
  • iis7 无法访问此网站网站管理系统
  • 网站开发温州网站优化排名公司
  • 申请域名后怎样做网站2022最新永久地域网名