本帖最后由 许警 于 2019-3-29 09:24 编辑
# 第一步导入第三方库
# 第二部获取目标网页
# 第三部解析目标网页
# 第四 部下载目标网页数据
import requests
import re
def get_urls():
# 1.1获取网页
response = requests.get('http://www.wowoqq.com/qqbiaoqing/class_1/3429.html')
# 找到每张图片的地址--->正则表达式
# 共有的东西保留下来border="0" 不一样的东西用通配符.*? .*任意数量不换行的字符
url_add = r'<img border="0" .*?src="(.*?)"'
url_list = re.findall(url_add, response.text)
# 1.3找我们想要的数据
# 打印
return url_list
# 第2步 下载目标网页
def get_git(url, name):
# 2.1 思考图片url从哪里来
response = requests.get(url)
# 2.3 图片保存到我的文件相应路径 ft 变量名
with open('F:\\python\\data\\' + name + '.jpg', 'wb') as ft:
ft.write(response.content)
# 1.6启动函数
if __name__ == '__main__':
url_list = get_urls()
# 1.7把列表信息提取出来
# 2.4 定义一个变量 存储图片名字
a = 1
for url in url_list:
com_url = 'http://www.wowoqq.com' + url
# 2.2调用get_gif(url)
get_git(com_url, a)
# 2.5
a += 1
print("url")
|
|