黑马程序员技术交流社区

标题: 【上海校区】我用 Python 爬取了妹子网100G的套图 [打印本页]

作者: 不二晨    时间: 2018-11-23 09:45
标题: 【上海校区】我用 Python 爬取了妹子网100G的套图
前言
最近在做监控相关的配套设施,发现很多脚本都是基于Python的。很早之前就听说其大名,人生苦短,我学Python,这并非一句戏言。随着人工智能、机器学习、深度学习的崛起,目前市面上大部分的人工智能的代码 大多使用Python 来编写。所以人工智能时代,是时候学点Python了。
进军指南
对于没有任何语言开发经验的同学,建议从头系统的学起,无论是书、视频还是文字教程都可以。
如果是有其他语言开发经验的同学,建议从一个案例入手,比如爬取某个网站的套图。
因为语言都是想通的,语法之类的只要你要语感,代码基本能读个八九不离十。
所以不建议有经验的开发者从头学起,无论是视频还是书,对于开始学一门语言来说都是太浪费时间了。
当然,等你深入进去以后,还是要系统的去学习,这是后话。
软件工具Python3
这里选择的是最新版 Python 3.7.1
安装教程推荐:
http://www.runoob.com/python3/python3-install.html
Win下载地址:
https://www.python.org/downloads/windows
Linux下载地址:
https://www.python.org/downloads/source
PyCharm
可视化开发工具:
http://www.jetbrains.com/pycharm
案例
实现步骤
以妹子图为例,其实很简单,分以下四步:
注意事项
爬取过程中,还需要注意以下几点,可能对你有所帮助:
1)导库,其实就类似于Java中框架或者是工具类,底层都被封装好了
安装第三方库
导入第三方库
2)定义方法函数,一个爬虫可能会几百行,所以尽量不要写成一坨
3)定义全局变量
4)防盗链
有些网站加入了防盗链,无所不能的 python 解决方案
5)切换版本
Linux服务器使用的是阿里云服务器,默认版本 python2,python3 自行安装
6)异常捕获
在爬取的过程中可能存在异常页面,这里我们进行捕获,不影响后续操作
代码实现
编辑脚本:vi mzitu.py
        
脚本在Linux服务器下运行,执行以下命令
目前只爬取了一个栏目的套图,一共17G,5332张图片。






作者: 小影姐姐    时间: 2018-11-26 14:17

作者: 不二晨    时间: 2018-11-28 15:48
奈斯
作者: 梦缠绕的时候    时间: 2018-11-29 18:03





欢迎光临 黑马程序员技术交流社区 (http://bbs.itheima.com/) 黑马程序员IT技术论坛 X3.2