A股上市公司传智教育(股票代码 003032)旗下技术交流社区北京昌平校区

 找回密码
 加入黑马

QQ登录

只需一步,快速开始

本帖最后由 我是色色 于 2018-1-17 14:08 编辑

爬虫小程序,获取主网页的内容,并获取在该主网页内容下的连接
[AppleScript] 纯文本查看 复制代码
#coding:utf-8
import re
import requests
url='http://ai.51cto.com/'
con=requests.get(url)
file=open(r'D:\Python27\sevenot_test\curbug3\test.txt','wb')
file.write(con.content)
file.close()
href=re.findall('<a href="(http.*?)"',con.content,re.S)
 
a=0
for i in href: 
    print str(a)+' '+i
    cc=requests.get(i)
    file_=open(r'D:\Python27\sevenot_test\curbug3\test' + str(a) + '.txt','wb')
    file_.write(cc.content)
    file_.close()
    a+=1

2 个回复

倒序浏览
回复 使用道具 举报
比较入门的
回复 使用道具 举报
您需要登录后才可以回帖 登录 | 加入黑马