数据分析实战45讲-12-数据集成

数据集成

数据集成就是将多个数据源合并存放在一个数据存储中(如数据仓库),从而方便后续的数据挖掘工作。在数据挖掘前,需要的数据往往分布在不同的数据源中,需要考虑字段表达是否一样,以及属性是否冗余。

数据集成的两种架构:ELT 和 ETL

ELT与ETL - Extract(抽取),Transform(转换)、Load(加载)

  1. 抽取:就是将数据从已有的数据源中提取出来
  2. 转换:是对原始数据进行处理
  3. 加载:合并数据,写入数据库

两种架构

简介
  1. ETL: 提取-转换-加载,在数据抽取后首先进行转换,然后将转换的结果写入目的地
  2. ELT: 提取-加载-变化,在抽取后将结果先写入目的地,然后利用数据库的聚合分析能力或者外部计算框架来完成转换步骤。
对比
  1. ELT和ETL相比, 最大的区别是”重抽取和加载,轻转换“,使用ELT方法,在提取完成之后,数据加载会立刻开始。另一方面ELT允许BI分析人员无限制地访问整个原始数据,为分析师提供了更大的灵活性,使之更好地支持业务。
  2. 在ELT架构中,数据变换这个过程根据后续使用情况,需要在SQL中进行,而不是在加载阶段进行。可以从数据源中提取数据,经过少量预处理后进行加载。