一、数据仓库基础理论
阿里云国内75折 回扣 微信号:monov8 |
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6 |
一、数据仓库
1、概念
数据仓库Data Warehouse, DW一个面向主题的、集成的、非易失的、反应历史变化的、用来支持企业管理决策的数据集合。
2、数据仓库分层结构
缓冲层、贴源层、基础明细层、数据服务层、集市层
贴源层ODS 业务系统数据的集合
基础明细层DWD层基于ODS层进行统一范式建模规整基础数据
数据中间层DWM层对一些基础指标进行汇总
数据服务层DWS层以企业视角建立多个主题域模型
数据集市层DM层为特定主题提供定制化服务
3、为什么要分层
- 复杂问题简单化每层的职责明确
- 减少重复开发规范数据分层减少重复计算量增加计算结果的复用性
- 隔离原始数据使真实数据与最终统计数据解耦
- 空间换时间通过大量的预处理来提升系统的用户体验、分析效率
二、数据集市
数据集市是一个针对某个主题、某个部门或者某些特殊用户而进行分类的数据集合也称为“小数据仓库”或“部门级数据仓库”
- 满足特定部门或用户需求
- 能够聚焦特定主题
- 统一的高质量数据
- 数据仓库的子集
独立型数据集市自下而上开发先做独立的数据集市当达到一定规模后再从各个数据集市进行数据的整合建立企业级的数据仓库。
- 不能以全局视角分析数据可能产生大量冗余数据
- 搭建快成本低
从属型数据集市自上而下开发 先建立企业级数据仓库然后从数据仓库中为各个部门抽取必要的数据建立部门级的数据集市。
- 可提高数据分析的质量
- 体系结构更稳定
- 实施周期长、难度大、风险高
三、数据湖
1、数据湖和数据仓库
数据湖的核心是提供一个统一的数据存储模式。
数据湖主要提供一个统一的数据存储模式分析类应用数据中台、数据仓库可以在其基础上搭建。
狭义的数据湖只是一种底层的数据存储模型而广义的数据湖包括了数据集成数据治理数据处理与分析数据挖掘安全管控质量检验等。