随着人工智能 大数据的火热 Python成为了广大科学家和普通大众的学习语言, 也是这个原因毅然选择跟着未来潮流趋势走, 在各行各业都需要大数据谋求快准稳的发展, Python显然是最适合生存在未来的语言之一.
相信大多同学在学习Python之前 肯定都自己了解过这门语言,也知道Python有很多的学习方向,比如说数据采集方向(爬虫),或者Web开发方向,也可能是最近特别火热的人工智能方向。每个方向所需要的技术都是不尽相同的,所以在我们学习完成Python的基础语法之后,一定要慎重选择自己之后的进阶方向, 而本人作为行业小白, 毅然选择了来黑马学习Python的数据采集方向(爬虫).
个人觉得, 在学习前最重要的是明白学python的目的是什么,是数据挖掘还是想刷个火车票啥的,是机器学习还是搞个小脚本装下,是想成为厉害的harker还是强大的web开发者。只有明白了目的,才有学下去的动力。
下面说说, 自己在学习爬虫时候的一些体会:
因为说实在的,python爬虫工程师这个工作资源也是很多的.目前接触的爬虫已经有一些了,像一些小说网站,电影资源网站,招聘网站的信息,我已经能够独立把数据爬取出来了,当然我也知道,这只是开始,但起码我已经在努力丰富自己的爬虫经验了.
慢慢逐渐形成了, 网上的任何东西都可以看成资源,一个网站可能就是一段html+css,一张图片可能就是某个地址下的XXX.jpg文件,无数的网络资源存放在互联网上,人们通过地址(URL,统一资源定位符)来访问这些资源,大致过程如下:
用户在浏览器中输入访问地址,浏览器向服务器发送HTTP(或者HTTPS)请求(其中请求资源常用get请求,提交数据常用post请求,post也可做数据请求)。服务器接收到了这些请求之后找到对应的资源返回给浏览器,再经过浏览器的解析,最终呈现在用户面前。
这就是用户上网的一个简单的过程。那么,如果我们需要大量的从网上请求数据,依靠人工一个个得机械操作显然是不现实的,这时候爬虫就起作用了。
一开始先要搞清楚什么是爬虫:
其实本质上来说爬虫就是一段程序代码。任何程序语言都可以做爬虫,只是繁简程度不同而已。从定义上来说,爬虫就是模拟用户自动浏览并且保存网络数据的程序,当然,大部分的爬虫都是爬取网页信息(文本,图片,媒体流)。但是人家维护网站的人也不是傻的,大量的用户访问请求可以视为对服务器的攻击,这时候就要采取一些反爬机制来及时阻止人们的不知道是善意的还是恶意的大量访问请求(当然了= =不这样人家服务器吃枣爆炸)
最后希望, 黑马越做越好, 当然做好的之余, 还得记得为我们的导师和班主任("""陈冬梅[此处高亮注释]""")加薪加薪加薪加薪, 黑马的成功, 少不了各位导师和班主任对工作的责任心
欢迎光临 黑马程序员技术交流社区 (http://bbs.itheima.com/) | 黑马程序员IT技术论坛 X3.2 |