数据分析实战45讲-06学习数据分析需要掌握哪些基础概念

商业智能BI,数据仓库DW,数据挖掘DM 三者之间的关系

  1. 百货商店利用数据预测用户购物行为属于商业智能,他们积累的顾客的消费行为习惯会存储在数据仓库中,通过对个体进行缴费分析总结出来的规律属于数据挖掘

  2. BI,DW,DM

    • 商业智能:BI, 商业智能是基于数据仓库,经过了数据挖掘后,得到了商业价值的过程。 可以说,数据仓库是金矿,数据挖掘是炼金术,而商业价值报告则是黄金。
    • 数据仓库:DW, 是BI的基础,搭建好数据仓库,才能进行分析使用,最后产生价值
      数据仓库可以说是数据库的升级概念。从逻辑上理解,数据库和数据仓库没有太大区别,都是通过数据库技术来存储数据的。从数量上来讲,数据仓库的量更庞大,适用于数据挖掘和数据分析,数据库可以理解是一项技术。
      数据仓库将原来的有多个数据来源的数据进行汇总、整理而得。数据进入数据仓库钱,必须消除数据的不一致性,方便后续进行数据分析和挖掘。
    • 数据挖掘:DM,数据挖掘的核心包括 分类,聚类,预测,关联分析等任务,通过这些炼金术,可以从数据仓库中得到宝藏,比如商业报告。
  3. 元数据与数据元

    • 元数据:描述其他数据的数据,也成为 “中介数据”
    • 数据元:就是最小数据单元
  4. 数据挖掘的流程

    1. 分类:
      • 就是通过训练集得到一个分类模型,然后用这个模型可以对其他数据进行分类。
      • 训练集是用来给机器做训练的,通常是人们整理好训练数据,以及这些数据对应的分类标识。
      • 通过训练,机器产生了自我分类的模型,然后机器就可以拿着这个分类模型,对测试集中的数据进行分类预测。
      • 如果测试集中,人们已经给出了测试结果,我们就可以用测试结果来做验证,从而了解分类器在测试环境下的表现
    2. 聚类:
      • 将数据自动聚类成几个类别,聚到一起的相似度打,不在一起的差异性大
      • 常常利用聚类来做数据划分
    3. 预测:
      • 通过当前和历史数据来预测未来趋势,可以更好地帮助我们识别机遇和风险
    4. 关联分析:
      • 就是发现数据中的关联规则。
  5. 数据处理

    1. 数据清洗
      • 为了去除重复数据,去噪声(即干扰数据)以及填匆缺失值。
    2. 数据集成
      • 将多个数据源中的数据存放在一个统一的数据存储中
    3. 数据转换
      • 将数转换成适合数据挖掘的形式