# data-provider **Repository Path**: keyuefei/data-provider ## Basic Information - **Project Name**: data-provider - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2018-05-22 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## 项目简介 ### step 1:数据采集、数据提供。 ### step 2:数据分析(第二阶段)。 ## 整体架构 ![image](http://res.cloudinary.com/djtumznxs/image/upload/v1526989099/data-provider/%E6%9C%AA%E5%91%BD%E5%90%8D%E6%96%87%E4%BB%B6_3.png) ## Crawler(抓取)模块 ### 目的 1. 提供统一配置页面,配置化抓取目标网页数据。 2. 提供统一监控页面,监控抓取情况。 3. 抓取模块将抓取数据生产至kafka集群。 ### 技术选型 > Linux、Git、Spring Boot、MyBatis、MySql、WebMagic、Redis、Kafka、Vue、Tomcat、Docker 1. spring boot: 便于后期升级接入spring could 2. webmagic: 灵活的爬虫框架 3. kafka: 作为消息队列 4. vue:便于后期进行前后端分离 5. docker:容器化部署 ### 具体设计 ![image](http://res.cloudinary.com/djtumznxs/image/upload/v1526988039/data-provider/crwal.png) #### 1. 配置、监控模块 - 配置抓取网页、抓取字段与对应数据类型、所需Headear参数、是否需要配置代理IP池、是否需要登录(门户用户名/密码)、是否有替代网页(迭代上述配置)等等;配置抓取频率。 - 监控抓取网页是否正常。 #### 2. 抓取模块 - 每个门户对应在Redis中一个BloomFilter,存在则不抓取(存在误差,可控制误差率)。快速去重。 - 抓取模块则根据配置模块信息,去网页抓取信息及解析,放入kafka集群。