数据分析实战45讲-02数据挖掘的最佳路径

数据挖掘的基本流程

  1. 商业理解:数据挖掘不是我们的目的,目的是更好地帮助业务,从商业的角度理解项目需求,在这个需求上,再对数据挖掘的目标进行定义。
  2. 数据理解:尝试搜集部分数据,然后对数据进行探索,包括数据描述,数据质量验证等。有助于对收集的数据有个初步的认识。
  3. 数据准备: 开始收集数据,并对数据进行清洗,数据集成等操作,完成数据挖掘前的准备工作。
  4. 模型建立:选择和应用各种数据挖掘模型,并进行优化,以便得到更好的分类结果。
  5. 模型评估:对模型进行评估,并检查构建的每个步骤,确认模型是否实现了预定的商业目标。
  6. 上线开发:模型的作用就是从数据中找到金矿,也就是我们所说的”知识“,获得的只是需要转化成用户可以使用的方式,呈现的形式可以是一份报告,也可以是实现一个比较复杂的,可重复的数据挖掘。

数据挖掘的十大算法

* 分类算法: C4.5 、朴素贝叶斯,SVM,KNN,Adaboost,CART
* 聚类算法:K-Means,EM
* 关联分析:APriori
* 连接分析:PageRank

数据挖掘的数学原理

  1. 概率论与数理统计
  2. 线性代数
  3. 图论
  4. 最优化方法