### 知识点4:逻辑架构
**目标:掌握反爬虫项目的总体逻辑架构**
![1556717552766](\image\1556717552766.png)
数据采集层:使用数据采集器(lua)将数据采集到分布式消息系统(kafka)
数据处理层:
1、读取kafka当中的数据(两种方式)
2、进行数据清洗、数据脱敏、数据分类、数据解析、历史爬虫判断、数据结构化
3、将结构化数据推送回kafka
实时计算层:
1、读取web中配置的规则
2、通过规则进行反爬虫实时计算
3、将计算结果(爬虫)推送到redis
4、将计算当中指标推送到hdfs
离线/准实时计算层:
1、读取hdfs中的计算指标
2、通过指标进行数据的报表统计
3、统计完的数据推送到mysql中
数据展示层:
1、mysql通过web报表进行展示
### 知识点5:功能描述
**目标:详细了解企业端需要那些模块**
数据采集模块:
展示:展示了数据采集的数量(多链路),昨天、前天、前三天
监控:通过采集数量来监控lua采集脚本是否正常工作
数据分类和处理模块:
读取规则:
1、规则起始的时候是在mysql数据库中的,是通过web端动态配置的。
2、将mysql中的数据读取到redis中使用,提高性能,并提供动态更新功能
3、将redis中的规则同步到广播变量中,达到每个节点都能使用的效果。
数据处理:
1、拿到规则进行数据的清洗、分类等功能
2、设计到了部分的指标:cookie、agent、高频ip
报表模块:
1、报表是通过离线进行统计的,离线的数据来源是通过流式处理打到hdfs的
2、报表的指标包含:购票的转化率、查定比、爬虫的规律、系统稳定性
数据采集
| Requst | 请求的连接 |
| ----------------- | --------------------------- |
| Request Method | 请求的方法 |
| Remote Address | 客户端地址 |
| Request parameter | 请求参数(包括Form 表单) |
| Content-Type | "Content-Type" 请求头字段 |
| Cookie | 请求cookie |
| Server Address | 服务器地址 |
| Referer | 跳转来源 |
| User-Agent | 用户终端浏览器信息 |
| Time-Iso8601 | 访问时间ISO格式 |
| Time_local | 访问时间 |
### 知识点6:系统架构
**目标:了解本项目的总体技术架构**
设计策略:tcast_filter_rule 过滤规则表
analyzerrule 分类解析规则表
itcast_classify_rule分类规则表
itcast_book_critical_pages预定关键页面表
itcast_query_critical_pages查询关键页面表
--流程策略配置规则(重点)
itcast_process_info流程表
itcast_process_num流程明细数量表
itcast_rule规则表
itcast_strategy策略表
--流式计算结果表
itcast_ip_blacklist ip黑名单
itcast_ip_whitelist ip白名单
climb_monitor 反爬监控表
datacollect数据采集
datahandle结构化数据
real_time_comput_data实时计算监控数据
system_data_analysis系统数据分析速度
system_function_info系统功能运行情况
itcast_performancemonitor_offlinespeed 离线分析时间表
--报表结果
itcast_link_traffic_information链路流量信息(TPS)
itcast_agency_customer_analysis 代购客户分析
itcast_crawler_curday_info爬虫识别情况
itcast_crawler_query_routes_rank爬虫查询航线排行
itcast_domestic_inter_conversion_rate国内、国际转化率
itcast_flight_query_conversion_rate爬虫航班转化率
itcast_flight_query_rule航班查询爬取规律
itcast_flow_info流量情况
itcast_flow_query_rate流量查订比
itcast_four_flow_num四类用户流量值
itcast_hit_user_detail命中用户详情
itcast_illegal_occ_flight_rank爬虫非法占座航班排行
itcast_user_conversion_rate用户转化率 |
|