黑马程序员技术交流社区

标题: 【郑州校区】网络爬虫是怎么运行的 [打印本页]

作者: 我是楠楠 时间: 2019-4-9 16:47
标题: 【郑州校区】网络爬虫是怎么运行的

【郑州校区】网络爬虫是怎么运行的

2.2.1知识概述

网络爬虫究竟是怎么运行的？

单个页面是如何运行的？
* 1）指定一个url
* 2）使用技术发送get请求
* 3）获得服务端的响应
* 4）将二进制的数据，转化成HTML文档

网络爬虫一般会爬取很多很多很多的页面
for（）{

* 1）指定一个url
* 2）使用技术发送get请求
* 3）获得服务端的响应
* 4）将二进制的数据，转化成HTML文档

}

2.2.2视频详情

2.2.3总结与补充

无

2.2.4课堂提问与练习

运行流程及所需要的技术？

2.2.5习题答案

爬虫开发的一个技术点：

· 爬虫中需要一个容器来保存等待爬取的url

· 爬虫中需要一个技术来模拟http请求

· 爬虫中需要将二进制数据转化成html文档（document对象）

· 爬虫中需要一个技术从document对象中解析数据

o getElementById/ByTagName

o 解析的数据存放到的哪里？

§ 保存到数据库中，其它的任务地方

两个额外的问题：
等待爬取的url队列中有重复的元素该怎么办？需要过滤掉
如果一个页面中包含了其它更多的url，是否要爬取？根据需求。

传智播客·黑马程序员郑州校区地址

河南省郑州市高新区长椿路11号大学科技园（西区）东门8号楼三层

联系电话 0371-56061160/61/62

来校路线地铁一号线梧桐街站A口出

欢迎光临黑马程序员技术交流社区 (http://bbs.itheima.com/)

黑马程序员IT技术论坛 X3.2