A股上市公司传智教育(股票代码 003032)旗下技术交流社区北京昌平校区

 找回密码
 加入黑马

QQ登录

只需一步,快速开始

© gjf 初级黑马   /  2019-11-28 15:43  /  1042 人查看  /  1 人回复  /   0 人收藏 转载请遵从CC协议 禁止商业使用本文

### 知识点4:逻辑架构

**目标:掌握反爬虫项目的总体逻辑架构**

![1556717552766](\image\1556717552766.png)



数据采集层:使用数据采集器(lua)将数据采集到分布式消息系统(kafka)

数据处理层:

​                        1、读取kafka当中的数据(两种方式)

​                        2、进行数据清洗、数据脱敏、数据分类、数据解析、历史爬虫判断、数据结构化

​                        3、将结构化数据推送回kafka

实时计算层:

​                        1、读取web中配置的规则

​                        2、通过规则进行反爬虫实时计算

​                        3、将计算结果(爬虫)推送到redis

​                        4、将计算当中指标推送到hdfs

离线/准实时计算层:

​                        1、读取hdfs中的计算指标

​                        2、通过指标进行数据的报表统计

​                        3、统计完的数据推送到mysql中

数据展示层:

​                        1、mysql通过web报表进行展示

### 知识点5:功能描述

**目标:详细了解企业端需要那些模块**

数据采集模块:

​                        展示:展示了数据采集的数量(多链路),昨天、前天、前三天

​                        监控:通过采集数量来监控lua采集脚本是否正常工作

数据分类和处理模块:

​                        读取规则:

​                                        1、规则起始的时候是在mysql数据库中的,是通过web端动态配置的。

​                                        2、将mysql中的数据读取到redis中使用,提高性能,并提供动态更新功能

​                                        3、将redis中的规则同步到广播变量中,达到每个节点都能使用的效果。

​                        数据处理:

​                                        1、拿到规则进行数据的清洗、分类等功能

​                                        2、设计到了部分的指标:cookie、agent、高频ip

报表模块:

​                        1、报表是通过离线进行统计的,离线的数据来源是通过流式处理打到hdfs的

​                        2、报表的指标包含:购票的转化率、查定比、爬虫的规律、系统稳定性

数据采集



| Requst            | 请求的连接                  |
| ----------------- | --------------------------- |
| Request Method    | 请求的方法                  |
| Remote Address    | 客户端地址                  |
| Request parameter | 请求参数(包括Form 表单)   |
| Content-Type      | "Content-Type"   请求头字段 |
| Cookie            | 请求cookie                  |
| Server Address    | 服务器地址                  |
| Referer           | 跳转来源                    |
| User-Agent        | 用户终端浏览器信息          |
| Time-Iso8601      | 访问时间ISO格式             |
| Time_local        | 访问时间                    |

### 知识点6:系统架构

**目标:了解本项目的总体技术架构**

设计策略:tcast_filter_rule 过滤规则表

​        analyzerrule 分类解析规则表

​        itcast_classify_rule分类规则表

​        itcast_book_critical_pages预定关键页面表

​        itcast_query_critical_pages查询关键页面表

--流程策略配置规则(重点)

​        itcast_process_info流程表

​        itcast_process_num流程明细数量表

​        itcast_rule规则表

​        itcast_strategy策略表

--流式计算结果表

​        itcast_ip_blacklist ip黑名单
​        itcast_ip_whitelist ip白名单
​        climb_monitor 反爬监控表
​        datacollect数据采集
​        datahandle结构化数据
​        real_time_comput_data实时计算监控数据
​        system_data_analysis系统数据分析速度
​        system_function_info系统功能运行情况
​        itcast_performancemonitor_offlinespeed 离线分析时间表       

--报表结果

​        itcast_link_traffic_information链路流量信息(TPS)
​        itcast_agency_customer_analysis 代购客户分析
​        itcast_crawler_curday_info爬虫识别情况
​        itcast_crawler_query_routes_rank爬虫查询航线排行
​        itcast_domestic_inter_conversion_rate国内、国际转化率
​        itcast_flight_query_conversion_rate爬虫航班转化率
​        itcast_flight_query_rule航班查询爬取规律
​        itcast_flow_info流量情况
​        itcast_flow_query_rate流量查订比
​        itcast_four_flow_num四类用户流量值
​        itcast_hit_user_detail命中用户详情
​        itcast_illegal_occ_flight_rank爬虫非法占座航班排行
​        itcast_user_conversion_rate用户转化率       

1 个回复

倒序浏览
只要朝着一个方向努力,一切都会变得得心应手。加油
回复 使用道具 举报
您需要登录后才可以回帖 登录 | 加入黑马