分享

爬虫

 BIGDATA云 2018-07-13
爬虫

数据从哪里来?
传统的数据库、web日志信息,转移到HDFS/Hive/HBase等等中进行存储。
百度,google等等这些搜索引擎公司中为用户提供搜索服务的数据从哪里来?
获取互联网中海量数据的过程或者行为就是爬虫。
Hadoop/Hive -----> 存储
Storm---->计算

需求:
由互联网比价项目转化而来,做自己的爬虫。
全网爬虫
爬取多个网站的数据
垂直爬虫
爬取一个网站各个分类的数据
项目构建模式:
maven
测试驱动开发

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多