大数据---离线数仓实战项目(二)

离线数仓实战---网站流量日志分析系统

一、数仓理论

在大数据—离线数仓实战项目(一)中，介绍了网站流量日志分析的背景，这一部分介绍具体分析所用到的数据仓库的理论部分。

1.1、什么是数据仓库

数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它是单个数据存储，出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。

1.2、数据仓库的分层 1.2.1、数据仓库的分层

ODS层:原始数据层，存放原始数据，直接加载原始日志、数据，数据保持原貌不做处理

DWD层:对ODS层数据进行清洗（去除空值，脏数据，超过极限范围的数据）、脱敏等。保存业务事实明细，一行信息代表一次业务行为，例如一次下单。

DIM层，维度层，保存维度数据，主要是对业务事实的描述信息，例如何人，何时，何地等

DWS层，以DWD为基础，按天进行轻度汇总。一行信息代表一个主题对象一天的汇总行为，例如一个用户一天下单次数

DWS层，以DWS为基础，对数据进行累积汇总。一行信息代表一个主题对象的累积行为，例如一个用户从注册那天开始至今一共下了多少次单

ADS层，为各种统计报表提供数据

1.2.2、数据仓库为什么要分层 1.3、数据仓库命名规范 1.3.1、表命名

	ODS层命名为ods_表名
	DIM层命名为dim_表名
	DWD层命名为dwd_表名
	DWS层命名为dws_表名  
	DWT层命名为dwt_表名
	ADS层命名为ads_表名
	临时表命名为tmp_表名

1.3.2、脚本命名

	数据源_to_目标_db/log.sh
	用户行为脚本以log为后缀；业务数据脚本以db为后缀。

1.3.3、表字段类型

	数量类型为bigint
	金额类型为decimal(16, 2)，表示：16位有效数字，其中小数部分2位
	字符串(名字，描述信息等)类型为string
	主键外键类型为string
	时间戳类型为bigint

1.4、数据仓库的建模

数据仓库采用维度建模对数据进行管理。

维度模型以数据分析作为出发点，不遵循三范式，故数据存在一定的冗余。维度模型面向业务，将业务用事实表和维度表呈现出来。表结构简单，故查询简单，查询效率较高。

1.4.1、维度表

一般是对事实的描述信息。每一张维表对应现实世界中的一个对象或者概念。例如：用户、商品、日期、地区等。

维度表的特征：

1.4.2、事实表

事实表中的每行数据代表一个业务事件（下单、支付、退款、评价等）。“事实”这个术语表示的是业务事件的度量值（可统计次数、个数、金额等）。

每一个事实表的行包括：具有可加性的数值型的度量值、与维表相连接的外键，通常具有两个和两个以上的外键。

事实表的特征：

事实表的分类：

1.4.3、维度模型分类

在维度建模的基础上又分为三种模型：星型模型、雪花模型、星座模型。

雪花模型与星型模型的区别主要在于维度的层级，标准的星型模型维度只有一层，而雪花模型可能会涉及多级。

雪花模型，比较靠近3NF，但是无法完全遵守，因为遵循3NF的性能成本太高。

星座模型与前两种情况的区别是事实表的数量，星座模型是基于多个事实表。

基本上是很多数据仓库的常态，因为很多数据仓库都是多个事实表的。所以星座不星座只反映是否有多个事实表，他们之间是否共享一些维度表。

所以星座模型并不和前两个模型冲突。

首先就是星座不星座这个只跟数据和需求有关系，跟设计没关系，不用选择。

星型还是雪花，取决于性能优先，还是灵活更优先。目前实际企业开发中，不会绝对选择一种，根据情况灵活组合，甚至并存（一层维度和多层维度都保存）。但是整体来看，更倾向于维度更少的星型模型。尤其是Hadoop体系，减少Join就是减少Shuffle，性能差距很大。(关系型数据可以依靠强大的主键索引)

1.4.4、ODS层

（1）保持数据原貌不做任何修改，起到备份数据的作用。
（2）数据采用压缩，减少磁盘存储空间（例如：原始数据100G，可以压缩到10G左右）
（3）创建分区表，防止后续的全表扫描

1.4.5、DIM层和DWD层

DIM层DWD层需构建维度模型，一般采用星型模型，呈现的状态一般为星座模型。（在业务多，事实表多的情况下采用星型模型）

维度建模一般按照以下四个步骤：

选择业务过程→声明粒度→确认维度→确认事实

（1）选择业务过程

在业务系统中，挑选我们感兴趣的业务线，比如下单业务，支付业务，退款业务，物流业务，一条业务线对应一张事实表。

本文由转载于互联网，如有侵权请联系删除！

爱皮屋