黑马程序员技术交流社区
标题:
笔记:简单爬虫,爬取表情包
[打印本页]
作者:
许警
时间:
2019-3-28 19:23
标题:
笔记:简单爬虫,爬取表情包
本帖最后由 许警 于 2019-3-29 09:24 编辑
# 第一步导入第三方库
# 第二部获取目标网页
# 第三部解析目标网页
# 第四 部下载目标网页数据
import
requests
import
re
def
get_urls
():
# 1.1获取网页
response = requests.get(
'http://www.wowoqq.com/qqbiaoqing/class_1/3429.html'
)
# 找到每张图片的地址--->正则表达式
# 共有的东西保留下来border="0" 不一样的东西用通配符.*? .*任意数量不换行的字符
url_add =
r'<img border="0" .*?src="(.*?)"'
url_list = re.findall(url_add
,
response.text)
# 1.3找我们想要的数据
# 打印
return
url_list
# 第2步 下载目标网页
def
get_git
(url
,
name):
# 2.1 思考图片url从哪里来
response = requests.get(url)
# 2.3 图片保存到我的文件相应路径 ft 变量名
with
open
(
'F:
\\
python
\\
data
\\
'
+ name +
'.jpg'
,
'wb'
)
as
ft:
ft.write(response.content)
# 1.6启动函数
if
__name__ ==
'__main__'
:
url_list = get_urls()
# 1.7把列表信息提取出来
# 2.4 定义一个变量 存储图片名字
a =
1
for
url
in
url_list:
com_url =
'http://www.wowoqq.com'
+ url
# 2.2调用get_gif(url)
get_git(com_url
,
a)
# 2.5
a +=
1
print
(
"url"
)
欢迎光临 黑马程序员技术交流社区 (http://bbs.itheima.com/)
黑马程序员IT技术论坛 X3.2