A股上市公司传智教育(股票代码 003032)旗下技术交流社区北京昌平校区

 找回密码
 加入黑马

QQ登录

只需一步,快速开始

© 夜雨声繁233 初级黑马   /  2019-11-15 19:32  /  1064 人查看  /  0 人回复  /   0 人收藏 转载请遵从CC协议 禁止商业使用本文

    ‘hello world’这大概是每个初学计算机的人都会敲下的第一段代码,对于无基础的我看了很多所谓的入门到大师的教程,这个hello world自然也敲了很多遍,不过因为个人原因(主要是太懒),外界诱惑(游戏,吃的)等等。课程通常是看个前三章就放弃,书买了最多看个序言,就摆在书架吃灰。    其间自己的工作也兜兜转转换了好几个,但都不是自己喜欢的,让一个不怎么爱说话的去做偏销售性质的工作,而且产品效果夸大十倍二十倍,简直太难为人了。于是提了辞职,领导谈话是老三样,初心,愿景,等上市。遂更坚定,走人,学python去。
    学的时间不长,也就基础班的十几天,不过发现代码的世界还是还是很有趣的,当你指尖敲下那一个个字符,系统立马会给你一个反馈,是名称出错亦或者是成功执行。你想要把文件夹里的文件全部重命名,一行代码就能搞定。你想排一个星期的课表,依然是几行代码就能搞定。你输入什么,它就给你反馈什么。真实的感觉很美妙。
    这是我的第一篇博客,也是最近学习以来的一点小感受。接下来,期望自己能写出更多的帖子。
    最后分享一个自己很感兴趣的简易爬虫小代码。
    准备工作
简易的爬虫,主要用到的模块是requests模块,以及Beautiful soup。
    requests模块如果没有安装过,可以win +r ,在空方框中输入cmd调出命令行,打开后再输入pip install requests即可安装成功。requests库是一个用于http请求的第三方模块,可以方便的对网页进行爬取,安装完成后,运行import requests命令,如果没提示错误,那说明已经安装成功。
   接下来,小试牛刀,可以用这个模块来爬取一下百度的首页。代码如下:
[Python] 纯文本查看 复制代码
import requests
url = 'https://www.baidu.com/'
req = requests.get(url)
print(req.text)



爬取的百度页面
    全是大段的英文单词,也没什me规律,看的头都疼了。别急,我们还有Beautiful soup这个好帮手。它的官方解释是:
beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.
   通俗来说,他能从你爬到的大段英文代码中,通过代码将你想要的内容提取出来给到你。


待续~~~~

   
   



   



0 个回复

您需要登录后才可以回帖 登录 | 加入黑马