当前位置: 首页 > news >正文

现在那个网站做视频最赚钱成都百度推广电话

现在那个网站做视频最赚钱,成都百度推广电话,舟山网站建设设计,网站建设完毕后怎么加后台Debezium系列之:记录一次数据库某张表部分数据未同步到hive表的原因 一、背景二、查找数据丢失流程三、数据丢失原因四、解决方法一、背景 反馈mysql数据库中某张表的数据没有同步到hive中,现在需要排查定位下原因数据丢失一般常见需求排查的方向: 数据是否采集到hdfs上采集…

Debezium系列之:记录一次数据库某张表部分数据未同步到hive表的原因

  • 一、背景
  • 二、查找数据丢失流程
  • 三、数据丢失原因
  • 四、解决方法

一、背景

  • 反馈mysql数据库中某张表的数据没有同步到hive中,现在需要排查定位下原因

数据丢失一般常见需求排查的方向:

  • 数据是否采集到hdfs上
  • 采集到hdfs的话,进一步去确认数据是否是因为Spark任务资源不够导致没有加载到hive表中
  • 数据没有采集到的话,进一步定位分析没有采集到的原因,目前比较常见的是数据库原因导致、业务场景导致

二、查找数据丢失流程

  • 首先拿一条丢失数据的id,去确认这条数据是否采集到hdfs上,发现成功采集到了hdfs上
  • 观察hdfs文件生成时间,发现这张表的数据文件生成时间比较晚
    • 初步判断出现了数据库主从延迟或者采集延迟,但是spark任务会等到主从延迟或者采集延迟结束才会执行,这样应该能确保不会遗漏数据,进一步确认任务执行情况
    • 发现spark任务并没有出现延迟执行的情况,因此就出现了特殊情况
  • 再去查看数据库中其他表的采集情况,发现其他表的hdfs数据文件生成并没有延迟,这就说明只有这张数据丢失的表产生了采集延迟,进一步排查分析这张表
  • 发现丢失数据这张表近一天的hdfs文件生成时间是在同一时间点生成的,这表明近一天的数据是在同一时间采集到了hdfs
  • 查看这张数据丢失表数据情况,发现这张表在不同小时的数据工用了相同的gtid,这表明这些数据来自同一个事件
  • 进一步查看数据库其他表在不同小时gtid的情况,通过比较gtid,发现丢失数据这张表使用的gtid符合递增情况
  • 至此,基本找到数据没有加载到hive的原因
  • <
http://www.zhongyajixie.com/news/51631.html

相关文章:

  • 中建八局一公司待遇怎么样seo搜索引擎优化案例
  • 做搜狗pc网站软件下载中国制造网外贸平台
  • 网站建设有哪些技术软文广告经典案例200字
  • 海口网络平台网站开发游戏推广合作平台
  • 手机网站建设设计6seo新人怎么发外链
  • 网站后台数据分析怎么做深圳发布最新通告
  • 崇左做网站公司产品营销策划方案怎么做
  • 什么网站可以做英语题今日军事新闻头条打仗
  • 南通外贸建站电脑培训班电脑培训学校
  • 毕业设计代写网站全国疫情高峰感染进度查询
  • 重庆的汽车网站建设二级域名查询入口
  • WordPress无法发布临沂做网络优化的公司
  • 推进门户网站建设 用好用活推广方案有哪些
  • 网站空间怎么做优化网站的软件下载
  • 网站建设排行谷歌搜图
  • 哪里可以做虚拟货币网站网站运营
  • 免费网站做seo网络培训心得
  • 高端网站建设公司成都百度广告联盟下载
  • 交互式网站建设免费域名申请个人网站
  • 长春怎样建网站?网络营销常用的方法有哪些
  • 怎么做漫画网站怎么做线上推广
  • 一个网站是怎么建立的北京债务优化公司
  • 怎么做卡盟网站网站快速收录
  • 慈溪想做网站的公司软文代写费用
  • 黑糖 wordpressseo 专业
  • asp网站如何迁移单词优化和整站优化
  • 有哪些做的好的网站百度录入网站
  • 网站开发保密协议范本南京网站推广排名
  • seo优化谷歌网络seo排名
  • 龙口网站建设哪家好吸引人的推广标题