A股上市公司传智教育(股票代码 003032)旗下技术交流社区北京昌平校区

 找回密码
 加入黑马

QQ登录

只需一步,快速开始

许警

初级黑马

  • 黑马币:22

  • 帖子:8

  • 精华:0

© 许警 初级黑马   /  2019-3-28 19:23  /  1102 人查看  /  0 人回复  /   0 人收藏 转载请遵从CC协议 禁止商业使用本文

本帖最后由 许警 于 2019-3-29 09:24 编辑



# 第一步导入第三方库
# 第二部获取目标网页
# 第三部解析目标网页
# 第四 部下载目标网页数据

import requests
import re


def get_urls():
    # 1.1获取网页
    response = requests.get('http://www.wowoqq.com/qqbiaoqing/class_1/3429.html')
    # 找到每张图片的地址--->正则表达式
    # 共有的东西保留下来border="0" 不一样的东西用通配符.*?  .*任意数量不换行的字符
    url_add = r'<img border="0" .*?src="(.*?)"'
    url_list = re.findall(url_add, response.text)
    # 1.3找我们想要的数据
    # 打印
    return url_list


# 第2步 下载目标网页
def get_git(url, name):
    # 2.1 思考图片url从哪里来
    response = requests.get(url)

    # 2.3 图片保存到我的文件相应路径 ft 变量名
    with open('F:\\python\\data\\' + name + '.jpg', 'wb') as ft:
        ft.write(response.content)


# 1.6启动函数
if __name__ == '__main__':
    url_list = get_urls()
    # 1.7把列表信息提取出来
    # 2.4 定义一个变量 存储图片名字
    a = 1
    for url in url_list:
        com_url = 'http://www.wowoqq.com' + url
        # 2.2调用get_gif(url)
        get_git(com_url, a)
        # 2.5
        a += 1
    print("url")

0 个回复

您需要登录后才可以回帖 登录 | 加入黑马