当前位置: 首页 > news >正文

毕业设计代写网站全国疫情高峰感染进度查询

毕业设计代写网站,全国疫情高峰感染进度查询,网站分享链接怎么做,中小企业建网站注意一、目的 作为日志采集工具Flume,它在项目中最常见的就是采集Kafka中的数据然后写入HDFS或者HBase中,这里就是用flume采集Kafka的数据导入HDFS中 二、各工具版本 (一)Kafka kafka_2.13-3.0.0.tgz (二)…

一、目的

作为日志采集工具Flume,它在项目中最常见的就是采集Kafka中的数据然后写入HDFS或者HBase中,这里就是用flume采集Kafka的数据导入HDFS中

二、各工具版本

(一)Kafka

kafka_2.13-3.0.0.tgz

(二)Hadoop(HDFS)

hadoop-3.1.3.tar.gz

(三)Flume

apache-flume-1.9.0-bin.tar.gz

三、实施步骤

(一)到flume的conf的目录下

# cd  /home/hurys/dc_env/flume190/conf

(二)创建配置文件evaluation.properties

# vi  evaluation.properties

### Name agent, source, channels and sink alias
a1.sources = s1
a1.channels = c1
a1.sinks = k1

### define kafka source
a1.sources.s1.type = org.apache.flume.source.kafka.KafkaSource

# Maximum number of messages written to Channel in one batch
a1.sources.s1.batchSize = 5000

# Maximum time (in ms) before a batch will be written to Channel The batch will be written whenever the first of size and time will be reached.
a1.sources.s1.batchDurationMillis = 2000

# set kafka broker address
a1.sources.s1.kafka.bootstrap.servers = 192.168.0.27:9092

# set kafka consumer group Id and offset consume
# 官网推荐1.9.0版本只设置了topic,但测试后不能正常消费,需要添加消费组id(自己写一个),并定义偏移量消费方式
a1.sources.s1.kafka.consumer.group.id = evaluation_group
a1.sources.s1.kafka.consumer.auto.offset.reset = earliest

# set kafka topic
a1.sources.s1.kafka.topics = topic_b_evaluation


### defind hdfs sink
a1.sinks.k1.type = hdfs
# set store hdfs path
a1.sinks.k1.hdfs.path = hdfs://hurys22:8020/rtp/evaluation/evaluation_%Y-%m-%d
# set file size to trigger roll
a1.sinks.k1.hdfs.rollSize = 0
a1.sinks.k1.hdfs.rollCount = 0
a1.sinks.k1.hdfs.rollInterval = 3600
a1.sinks.k1.hdfs.threadsPoolSize = 30
a1.sinks.k1.hdfs.fileType=DataStream
a1.sinks.k1.hdfs.writeFormat=Text


### define channel from kafka source to hdfs sink
# memoryChannel:快速,但是当设备断电,数据会丢失
# FileChannel:速度较慢,即使设备断电,数据也不会丢失
a1.channels.c1.type = file
# 这里不单独设置checkpointDir和dataDirs文件位置,参考官网不设置会有默认位置
# channel store size
a1.channels.c1.capacity = 100000
# transaction size
a1.channels.c1.transactionCapacity = 10000


### 绑定source、channel和sink
a1.sources.s1.channels = c1
a1.sinks.k1.channel = c1

(三)配置文件创建好后启动flume服务

# cd /home/hurys/dc_env/flume190/

# ./bin/flume-ng agent -n a1  -f /home/hurys/dc_env/flume190/conf/evaluation.properties

(四)到HDFS文件里验证一下

HDFS中生成evaluation_2023-09-07 文件夹,里面有很多小文件

(五)注意:小文件里的数据是JSON格式,即使我设置文件后缀名为csv也没用(可能配置文件中的文件类型设置需要优化

a1.sinks.k1.hdfs.writeFormat=Text

(六)jps查看Flume的服务

[root@hurys22 conf]# jps
16801 ResourceManager
4131 Application
18055 AlertServer
16204 DataNode
22828 Application
17999 LoggerServer
2543 launcher.jar
22224 Application
17393 QuorumPeerMain
16980 NodeManager
17942 WorkerServer
16503 SecondaryNameNode
11384 Application
32669 Application
17886 MasterServer
10590 Jps
16031 NameNode
18111 ApiApplicationServer

注意:Application就是Flume运行的任务

(七)关闭Flume服务

如果想要关闭Flume服务,直接杀死服务就好了

# kill -9 32669

(八)checkpointDir和dataDirs默认的文件位置

默认的文件位置:/root/.flume/file-channel/

总之,Flume这个工具的用法还需进一步研究优化,当然kettle也可以,所以这个项目目前还是用kettle吧!

http://www.zhongyajixie.com/news/51620.html

相关文章:

  • 重庆的汽车网站建设二级域名查询入口
  • WordPress无法发布临沂做网络优化的公司
  • 推进门户网站建设 用好用活推广方案有哪些
  • 网站空间怎么做优化网站的软件下载
  • 网站建设排行谷歌搜图
  • 哪里可以做虚拟货币网站网站运营
  • 免费网站做seo网络培训心得
  • 高端网站建设公司成都百度广告联盟下载
  • 交互式网站建设免费域名申请个人网站
  • 长春怎样建网站?网络营销常用的方法有哪些
  • 怎么做漫画网站怎么做线上推广
  • 一个网站是怎么建立的北京债务优化公司
  • 怎么做卡盟网站网站快速收录
  • 慈溪想做网站的公司软文代写费用
  • 黑糖 wordpressseo 专业
  • asp网站如何迁移单词优化和整站优化
  • 有哪些做的好的网站百度录入网站
  • 网站开发保密协议范本南京网站推广排名
  • seo优化谷歌网络seo排名
  • 龙口网站建设哪家好吸引人的推广标题
  • 网片加工机器seo一个月赚多少钱
  • 建设卒中中心几个网站站长工具忘忧草社区
  • wordpress 又拍云插件企业seo顾问服务
  • 河南网站建设价格大全指数函数图像及性质
  • 视频上传网站建设网站排名怎么做上去
  • asp.net 网站开发框架网站需要改进的地方
  • 河北住建局与建设厅网站媒体网络推广价格优惠
  • 做本地网站怎么挣钱网站超级外链
  • 网站做软件有哪些网盘网页版
  • java网站开发属于哪个部门营销策划的八个步骤