A股上市公司传智教育(股票代码 003032)旗下技术交流社区北京昌平校区

 找回密码
 加入黑马

QQ登录

只需一步,快速开始

© 我是楠楠 黑马粉丝团   /  2019-4-9 16:47  /  860 人查看  /  0 人回复  /   1 人收藏 转载请遵从CC协议 禁止商业使用本文

【郑州校区】网络爬虫是怎么运行的

2.2.1知识概述
网络爬虫究竟是怎么运行的?

单个页面是如何运行的?
* 1)指定一个url
* 2)使用技术发送get请求
* 3)获得服务端的响应
* 4)将二进制的数据,转化成HTML文档


网络爬虫一般会爬取很多很多很多的页面
for(){

* 1)指定一个url
* 2)使用技术发送get请求
* 3)获得服务端的响应
* 4)将二进制的数据,转化成HTML文档

}
2.2.2视频详情
图片11.png
2.2.3总结与补充
        无
2.2.4课堂提问与练习
        运行流程及所需要的技术?
2.2.5习题答案
爬虫开发的一个技术点:
· 爬虫中需要一个容器来保存等待爬取的url
· 爬虫中需要一个技术来模拟http请求
· 爬虫中需要将二进制数据转化成html文档(document对象)
· 爬虫中需要一个技术从document对象中解析数据
o getElementById/ByTagName
o 解析的数据存放到的哪里?
§ 保存到数据库中,其它的任务地方
两个额外的问题:
等待爬取的url队列中有重复的元素该怎么办? 需要过滤掉
如果一个页面中包含了其它更多的url,是否要爬取? 根据需求。
传智播客·黑马程序员郑州校区地址
河南省郑州市 高新区长椿路11号大学科技园(西区)东门8号楼三层
联系电话 0371-56061160/61/62
来校路线  地铁一号线梧桐街站A口出

0 个回复

您需要登录后才可以回帖 登录 | 加入黑马