黑马程序员技术交流社区

标题: 笔记:简单爬虫，爬取表情包 [打印本页]

作者: 许警 时间: 2019-3-28 19:23
标题: 笔记:简单爬虫，爬取表情包
本帖最后由许警于 2019-3-29 09:24 编辑

# 第一步导入第三方库
# 第二部获取目标网页
# 第三部解析目标网页
# 第四部下载目标网页数据

import requests
import re

def get_urls():
# 1.1获取网页
response = requests.get('http://www.wowoqq.com/qqbiaoqing/class_1/3429.html')
# 找到每张图片的地址--->正则表达式
# 共有的东西保留下来border="0" 不一样的东西用通配符.*？  .*任意数量不换行的字符
url_add = r'<img border="0" .*?src="(.*?)"'
url_list = re.findall(url_add, response.text)
# 1.3找我们想要的数据
# 打印
return url_list

# 第2步下载目标网页
def get_git(url, name):
# 2.1 思考图片url从哪里来
response = requests.get(url)

# 2.3 图片保存到我的文件相应路径 ft 变量名
with open('F:\\python\\data\\' + name + '.jpg', 'wb') as ft:
      ft.write(response.content)

# 1.6启动函数
if __name__ == '__main__':
url_list = get_urls()
# 1.7把列表信息提取出来
# 2.4 定义一个变量存储图片名字
a = 1
for url in url_list:
      com_url = 'http://www.wowoqq.com' + url
      # 2.2调用get_gif(url)
      get_git(com_url, a)
      # 2.5
      a += 1
print("url")

欢迎光临黑马程序员技术交流社区 (http://bbs.itheima.com/)

黑马程序员IT技术论坛 X3.2