数据分析实战45讲-08-09-数据采集相关内容

数据采集

数据采集是数据挖掘的基础,没有数据,挖掘也没有意义。 拥有多少数据源,多少数据量,以及数据质量如何,将决定我们挖掘产出的成果会如何。

一个数据的走势,是由多个维度影响的。我们需要通过多源的数据采集,收集到尽可能多的数据维度,同时保证数据的质量,这样才能得到高质量的数据挖掘结果。

数据源分类

  1. 开放性数据源
    • 开放数据源一般是针对行业的数据库
  2. 爬虫抓取
    • 针对特定的网站或App,编写爬虫程序抓取
  3. 日志采集
    • 统计用户的操作。
  4. 传感器
    • 传感器采集物理信息

如何使用开放数据源

开放数据源可以从两个维度来考虑

  1. 一个是单位的维度,比如政府、企业、高校
  2. 一个就是行业维度,比如交通,金融,能源等领域

如何使用爬虫抓取

  1. 自己写爬虫
  2. 工具
    • 火车采集器
    • 八爪鱼
    • 集搜客

如何使用日志采集工具

日志采集的作用

通过分析用户访问情况,提升系统的性能,从而提高系统承载量。及时发现系统承载瓶颈,也可以方便技术人员基于用户实际的访问情况进行优化。

日志形式

  1. 通过Web服务器采集
  2. 自定义采集用户行为

埋点

埋点就是在有需要的位置采集相应的信息,进行上报。每一个买点就像一台摄像头,采集用户行为数据,将数据进行多维度的交叉分析,可真是还原出用户使用场景,和用户使用需求。