当前位置: 首页 > news >正文

营销型网站分析百度网站提交了多久收录

营销型网站分析,百度网站提交了多久收录,wordpress 苏醒主题,外贸网站建设公司流程目录 1 数据湖1.1 什么是数据湖?1.2 数据湖的优点1.3 数据湖 VS 数据仓库1.3.1 本质区别1.3.2 存储位置1.3.3 数据源1.3.4 用户1.3.5 数据质量1.3.6 数据模式1.3.7 敏捷扩展性1.3.8 应用 1.4 数据湖的构建1.5 良好的数据湖应具备的特征 2 Apache Hudi2.1 简介2.2 基…

目录

  • 1 数据湖
    • 1.1 什么是数据湖?
    • 1.2 数据湖的优点
    • 1.3 数据湖 VS 数据仓库
      • 1.3.1 本质区别
      • 1.3.2 存储位置
      • 1.3.3 数据源
      • 1.3.4 用户
      • 1.3.5 数据质量
      • 1.3.6 数据模式
      • 1.3.7 敏捷扩展性
      • 1.3.8 应用
    • 1.4 数据湖的构建
    • 1.5 良好的数据湖应具备的特征
  • 2 Apache Hudi
    • 2.1 简介
    • 2.2 基础架构
    • 2.3 功能

1 数据湖

1.1 什么是数据湖?

  1. 是一个数据存储库,用来存储大量的原始数据;
  2. 是一种数据存储策略,并不与具体的某个技术框架关联,数据库、数据仓库也一样;
  3. 是专注于原始数据保真以及低成本长期存储的存储设计模式,相当于是对数据仓库的补充;
  4. 是用于长期存储数据容器的集合,通过数据湖可以大规模地捕获、加工、探索任何形式的原始数据;
  5. 通过使用一些低成本的技术,可以让下游设施更好地利用,下游设施包括像数据集市、数据仓库、机器学习模型等;

在这里插入图片描述

在这里插入图片描述
6. 数据仓库以分层的方式将数据存储在文件、文件夹中,而数据湖使用平面架构来存储数据;
7. 给每个数据元素分配唯一的标识符,并通过元数据标签来进行标注;
8. 数据湖越来越多用于描述任何的大型数据池,数据都是以原始数据方式存储,直到需要查询应用数据的时候才会开始分析数据需求和应用架构;当企业出现业务问题时,可以从数据湖中查询数据,然后分析业务对应的那一小部分数据集来解决业务问题;

1.2 数据湖的优点

  1. 提供不限数据类型的存储;
  2. 没有固定结构,所以更易于访问;
  3. 长期存储数据的成本低廉,数据湖可以安装在低成本硬件上,例如:在一般的X86机器上部署Hadoop;
  4. 非常灵活,允许使用多种处理、分析方式来让数据发挥价值,例如:数据分析、实时分析、机器学习以及SQL查询都可以;

1.3 数据湖 VS 数据仓库

1.3.1 本质区别

  1. 数据湖和数据仓库是存储大数据的两种不同策略;
  2. 最本质的区别是:数据仓库中存储的都是结构化数据,需要提前设计好模式(schema);而数据湖可以存储结构化和非结构化的数据,无法预先定义好结构;

1.3.2 存储位置

  1. 数据仓库要有结构,大部分都是基于关系型模型;
  2. 而数据湖通常位于分布式存储如Hadoop或类似的大数据存储中;

在这里插入图片描述

1.3.3 数据源

  1. 数据仓库的数据很多时候是从OLTP应用的结构化数据库中提取的,用于支持内部的业务部门(销售、市场、运营等)进行业务分析;
  2. 数据湖的数据来源可以是结构化的,也可以是非结构化的,例如:业务系统数据库、IOT设备、社交媒体、移动APP等;

1.3.4 用户

  1. 数据仓库主要是对业务系统对大量业务数据进行统计分析,所以会应用数据分析的部门是数据仓库的主要用户,例如:销售部、市场部、运营部、总裁办等;
  2. 数据湖中的数据都是原始数据,是未经整理的,更适合数据科学家,通过应用模型、技术发掘数据中的价值,去解决企业中的业务问题;

1.3.5 数据质量

  1. 数据仓库非常重视数据质量,数据都是经过处理的,像数据中台有很大一块是数据质量管理、数据资产管理等;
  2. 数据湖中等数据可靠性较差,这些数据可能是任意状态、任意形态的数据;

1.3.6 数据模式

  1. 数据仓库在数据写入前就要定义好模式(schema),例如:先建立模型、建立表结构,然后导入数据,我们称之为write-schema;
  2. 数据湖中的数据没有没有模式,直到用户要访问数据、使用数据才会建立schema,我们称之为read-schema;

在这里插入图片描述

1.3.7 敏捷扩展性

  1. 数据仓库的模式一旦建立,如果重新调整模式,往往代价很大,牵一发而动全身,所有相关的ETL程序可能都需要调整;
  2. 而数据湖非常灵活,可以根据需要重新配置结构或者模式;

1.3.8 应用

  1. 数据仓库一般用于做批处理报告、BI、可视化等;
  2. 数据湖主要用于机器学习、预测分析、数据探索和分析;

1.4 数据湖的构建

  1. 数据湖是一种用于数据存储的设计模式,但数据最终需要一种介质存储下来,我们可以使用Hadoop作为数据湖的物理存储引擎,或者使用AWS的S3作为存储引擎等;
  2. 架构数据湖时要注意的几点原则:1、可以加载各种源系统中的数据并存储;2、任意类型的数据都可以存储;3、数据以原始状态保存在数据湖中,几乎不需要做任何转换;4、数据可以根据应用、分析的需要,转换成适合分析的模式;
  3. 构建数据湖时,可以建立一些管理办法,例如:1、将数据进行合理分类,如按照数据类型分类、按照业务内容分类、按照应用场景分类等;2、为了方便数据湖的数据存取,提取定义好命名规则和固定的文件目录结构;3、建立数据访问标准,可以追踪到哪些用户正在访问数据;4、让数据目录可以被检索到;5、提供一些加密、监控、授权、警报等功能;

1.5 良好的数据湖应具备的特征

  1. 提供方便进行访问、操作的API接口,因为数据湖的应用场景很多、很灵活;
  2. 具备访问控制机制,数据的owner可以控制数据湖中数据的访问权限,并支持一些加密、网络安全等功能;
  3. 具备搜索和分类功能;
  4. 提供处理和分析层,数据分析师、数据科学家、机器学习算法工程师能够集中访问;

2 Apache Hudi

2.1 简介

Apache Hudi通过分布式文件系统——HDFS或云存储来提取、管理大型分析型数据集。

2.2 基础架构

在这里插入图片描述

  1. 通过Kafka、Sqoop、DeltaStreammer、Flink、Spark等,将数据提取到数据湖中进行存储,可以使用HDFS作为数据湖的数据存储;
  2. 可以基于HDFS构建Hudi的数据湖;
  3. 提供统一的访问Spark数据源的接口;
  4. 提供不同引擎的访问接口,例如:Spark、Presto、Hive、Impala、Aliyun DLA、AWS Redshift等;

2.3 功能

  1. 支持使用索引方式Upsert;
  2. 可以原子性的发布数据并支持回滚;
  3. 写入和查询使用快照进行隔离,保证数据的一致性;
  4. 可以使用Savepoint进行数据恢复;
  5. 支持基于统计数据管理文件大小和分布;
  6. 支持对基于行、列的数据进行异步压缩;
  7. 支持时间轴元数据进行数据血统追踪;
http://www.zhongyajixie.com/news/21686.html

相关文章:

  • 做网站后台要学什么北京优化网站推广
  • 温州市微网站制作多少钱软件开发工资一般多少
  • 企业网站是否可以做淘宝客关键词热度查询工具
  • wordpress插件很多吗南通关键词优化平台
  • 大连淘宝网站建设软件推广平台有哪些
  • 任县建设局网站优化疫情防控措施
  • 云南旅游网站设计怎么打开网站
  • 滕州市中远建设工程公司网站首页独立站seo搜索优化
  • 他人盗用公司资料建设网站怎么处理推广图片制作
  • 企业网站建站那种好百度软件应用中心
  • 北京轨道交通建设管理有限公司网站自助建站免费搭建个人网站
  • 高端网站建设开发今日新闻最新10条
  • 经营性网站手续b站视频推广网站动漫
  • 怎么把自己做的网站让外网访问qq群推广平台
  • 网站建设和维护怎么学注册google账号
  • 国际物流网站制作模板网络营销软件
  • 百度商桥要怎么添加到网站长沙网络科技有限公司
  • 直销系统建设快速优化seo软件
  • 企业建设网站怎么做账环球资源网站网址
  • 天津做公司的网站平台营销策略
  • 浙江省住房建设厅网站爱情链接
  • 998元网站建设优化百度网盘网页版登录首页
  • 导购类网站建设多少钱搜索引擎营销的名词解释
  • wap网站制作怎么做网站服务公司
  • 专业网站制作的费用哪个公司要做网络推广
  • 外贸购物网站建设国外直播平台tiktok
  • 大型网站有哪些用php做的贵阳seo网站管理
  • 网站建设长沙十大最靠谱教育培训机构
  • 百度云建网站网页搜索优化seo
  • 做模版网站西安seo建站