A股上市公司传智教育(股票代码 003032)旗下技术交流社区北京昌平校区

 找回密码
 加入黑马

QQ登录

只需一步,快速开始

开门见山,HTML的学习可分为三个层次。
读懂,修改,编写。
读懂:只有读懂了HTML,才能看得懂网页结构,才有可能运用Python的其他模块去解析数据和提取数据。想写爬虫程序一定要先学好HTML基础。
修改:在读懂HTML文档的基础上修改HTML代码。
编写:如果达到了这个水平,那就可以去应聘前端工程师了,这是专业的程序员水平。
所以此篇只写如何读懂HTML、修改HTML文档。

HTML概念
HTML(Hyper Text Markup Language)是用来描述网页的一种语言,也叫超文本标记语言 。

查看网页的HTML代码
首先,推荐使用这俩浏览器。

谷歌需要翻墙,不会翻墙的用火狐。操作一样。

开始操作。
随便打开一个网站。我这里打开的是微信表情开放平台。

在网页任意地方点击鼠标右键,然后点击“显示网页源代码”。
(Windows系统的电脑可使用快捷键ctrl+u来查看网页源代码)

浏览器会弹出一个新的标签页。如上图。

这样查看的好处是,整个网页的源代码都完整地呈现在你面前。
坏处是,在大部分情况下,它都会经过压缩,导致结构不够清晰,不太容易懂每行代码的含义。而且,源代码和网页分开在两个页面展示。

更多时候,我们会用这样一种方法:
在网页的空白处点击右键,然后选择“检查”(快捷方式是ctrl+shift+i)。

将鼠标放在HTML源不同行代码上,你会发现,左边网页上有一些内容会被标亮。这其实就是这行代码所描述的网页内容,它们一左一右,相互对应。

HTML的组成
标签和元素
首先,来看一个最简单的HTML文档。

<html>
<head>
  <meta charset="utf-8">
</head>
    <body>
        <h1>我是一级标题</h1>
        <h2>我是二级标题</h2>
        <h3>我是三级标题</h3>
        <p>我是一个段落。一级标题、二级标题和我,我们三个一起组成了body。
         </p>
    </body>
</html>

可以看到很多夹在尖括号<>中间的字母,它们叫做【标签】。
标签通常是成对出现的:前面的是【开始标签】,比如 < body >;后面的是【结束标签】,如< /body>。
不过,也有标签是形单影只地出现,比如第3行(定义网页编码格式为 utf-8),就是此类。这些知道就好,大部分情况下用的都是成双成对出现的标签。
开始标签+结束标签+中间的所有内容,它们在一起就组成了【元素】。
这是几个常见元素:

根据表格,回看一下上面那段HTML代码,里面就有< h1>,< h2>和< p>。对照看代码的显示结果,< h1>是一级标题,< h2>是二级标题,< p>是段落文本,它们一一对应。
注意:HTML标签是可以嵌套标签的,而且可以多层嵌套。
未完待续。
持续更新 欢迎关注哦
网页头、网页体等更多内容可点关注 过一阵会出Python爬虫精简步骤3 HTML基础(下)。
————————————————
原文链接:「鳃鳃鳃鳃」 https://blog.csdn.net/LoraRae/article/details/104331778

0 个回复

您需要登录后才可以回帖 登录 | 加入黑马