大数据分析是如何进行数据采集?
下面我们来了解一下常用的数据采集方法:
1.传感器采集方法。传感器通常用于测量物理变量,一般包括声音、温湿度、距离、 电流 等,将测量值转化为 数字信号 ,传送到数据采集点,让物体有了触觉、味觉和嗅觉等感官,让物体慢慢变得活了起来。
2.网络爬虫采集方法。网络爬虫(又被称为网页蜘蛛,网络 机器人 ,在FOFA社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动 索引 、 模拟 程序或者蠕虫。(百度百科)最常见的爬虫便是我们经常使用的搜索引擎,如百度,360搜索等。此类爬虫统称为通用型爬虫,对于所有的网页进行无条件采集。
3.系统日志采集方法。很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。
