黑马程序员技术交流社区

标题: 笔记:简单爬虫,爬取表情包 [打印本页]

作者: 许警    时间: 2019-3-28 19:23
标题: 笔记:简单爬虫,爬取表情包
本帖最后由 许警 于 2019-3-29 09:24 编辑



# 第一步导入第三方库
# 第二部获取目标网页
# 第三部解析目标网页
# 第四 部下载目标网页数据

import requests
import re


def get_urls():
    # 1.1获取网页
    response = requests.get('http://www.wowoqq.com/qqbiaoqing/class_1/3429.html')
    # 找到每张图片的地址--->正则表达式
    # 共有的东西保留下来border="0" 不一样的东西用通配符.*?  .*任意数量不换行的字符
    url_add = r'<img border="0" .*?src="(.*?)"'
    url_list = re.findall(url_add, response.text)
    # 1.3找我们想要的数据
    # 打印
    return url_list


# 第2步 下载目标网页
def get_git(url, name):
    # 2.1 思考图片url从哪里来
    response = requests.get(url)

    # 2.3 图片保存到我的文件相应路径 ft 变量名
    with open('F:\\python\\data\\' + name + '.jpg', 'wb') as ft:
        ft.write(response.content)


# 1.6启动函数
if __name__ == '__main__':
    url_list = get_urls()
    # 1.7把列表信息提取出来
    # 2.4 定义一个变量 存储图片名字
    a = 1
    for url in url_list:
        com_url = 'http://www.wowoqq.com' + url
        # 2.2调用get_gif(url)
        get_git(com_url, a)
        # 2.5
        a += 1
    print("url")





欢迎光临 黑马程序员技术交流社区 (http://bbs.itheima.com/) 黑马程序员IT技术论坛 X3.2