黑马程序员技术交流社区

标题: 【上海校区】从数据获取到话题提取 [打印本页]

作者: 梦缠绕的时候    时间: 2019-2-26 10:52
标题: 【上海校区】从数据获取到话题提取
ML–从数据获取到话题提取
主要涉及的知识点有:

使用Requests进行网页爬取
使用BeautiSoup进行HTML解析
正则表达式
使用潜在狄利克雷分布模型进行话题提取

一.简单页面的爬取

1.准备Requests库和User-Agent
User-Agent一般翻译为"用户代理",它的作用是向服务器"自报家门",告诉服务器我们的电脑操作系统是什么,CPU的类型是什么,浏览器是哪一款,以及浏览器版本是什么

想要知道自己的user agent,方法也有很多,最简单的方式就是在百度中搜索"ua查询"


2.确定一个目标网站并分析其结构
平时我们没有什么事情的时候,多多看看新闻和新政策,有利于我们
我们以中华人民共和国中央人民政府官网作为目标,爬取最新的政策文件。首先我们先打开中华人民共和国中央人民政府官网来了解一下它的结构,在浏览器地址栏输入:http://www.gov.cn

最新政策栏目的地址是:http://www.gov.cn/zhengce/zuixin.htm



# 导入requests库
import requests

# 指定我们的User Agent
user_agent='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'

headers={'User_Agent':user_agent}

该条政策文件页面的连接地址为:http://www.gov.cn/zhengce/2019-02/23/content_5367987.htm


3.进行爬取并保存为本地文件
# requests库用来发送请求的语句是requests.get
r=requests.get('http://www.gov.cn/zhengce/2019-02/23/content_5367987.htm',headers=headers)

print(r.text)

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
<head><script id="allmobilize" charset="utf-8" src="http://ysp.www.gov.cn/013582404bd78ad3c016b8fffefe6a9a/allmobilize.min.js"></script><meta http-equiv="Cache-Control" content="no-siteapp" /><link rel="alternate" media="handheld" href="#"/>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<meta http-equiv="x-ua-compatible" content="IE=edge" >
<link href="http://www.gov.cn/govweb/xhtml/favicon.ico" rel="shortcut icon" type="image/x-icon">
<title>中å
±ä¸­å¤®ã€å›½åŠ¡é™¢å°å‘《中国教育现代化2035》_最新政策_中国政府网</title>

</div>
    <!--面åŒ


[结果分析] 返回结果本来应该显示中文字体的地方却是显示乱码

我们使用encoding来查询一下requests的编码方式

# 使用.encoding查询编码方式
print('编码方式:',r.encoding)

编码方式: ISO-8859-1

# 修改encoding为utf-8
r.encoding='utf-8'

print(r.text)

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
<head><script id="allmobilize" charset="utf-8" src="http://ysp.www.gov.cn/013582404bd78ad3c016b8fffefe6a9a/allmobilize.min.js"></script><meta http-equiv="Cache-Control" content="no-siteapp" /><link rel="alternate" media="handheld" href="#"/>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<meta http-equiv="x-ua-compatible" content="IE=edge" >
<link href="http://www.gov.cn/govweb/xhtml/favicon.ico" rel="shortcut icon" type="image/x-icon">
<title>中共中央、国务院印发《中国教育现代化2035》_最新政策_中国政府网</title>
<meta name="others" content="页面生成时间 2019-02-23 19:31:23" />
<meta name="template,templategroup,version" content="2486,100039,6.8" />
<meta name="keywords" content="教育,现代化,推进,发展,机制,">
<meta name="description" content='中国教育现代化2035》分为五个部分:一、战略背景;二、总体思路;三、战略任务;四、实施路径;五、保障措施。,2019-02-23-18:02:00' />
<meta name="catalog" content="c148211">
<meta name="lanmu" content="最新政策">
<meta name='manuscriptId' content="5367987">
<meta name='author' content="祁培育">
<meta name='firstpublishedtime' content="2019-02-23-18:02:00">
<meta name='lastmodifiedtime' content="2019-02-23-19:02:00">
<link rel="stylesheet" type="text/css" href="/govweb/xhtml/2016gov/css/base.css">
<link rel="stylesheet" type="text/css" href="/govweb/xhtml/2016gov/css/common.css">
<link rel="stylesheet" type="text/css" href="/govweb/xhtml/2016gov/css/common_detail.css">
<link rel="stylesheet" type="text/css" href="/govweb/xhtml/2016gov/css/common_detail_n920.css">
<link rel="stylesheet" type="text/css" href="/govweb/xhtml/2016gov/css/date.css">
<script src="/govweb/xhtml/2016gov/js/jquery-1.8.3.min.js"></script>
<script type="text/javascript" src="/govweb/xhtml/2016gov/js/manuscript.js"></script>
<script type="text/javascript" src="/govweb/xhtml/2016gov/js/hover.js"></script>

[结果分析] 这个页面夹杂了大量的html语言,给我们的阅读造成极大的不便。为了能够让页面更加清晰易读,我们有两种方式:一是将这个页面保存为html文件,这样就可以用浏览器打开,从而侵清晰地阅读其中的内容;另一种方法是使用html解析器,将页面中重要的内容抽取出来,保存为我们需要的任意格式的文件(如CSV文件)

我们介绍第一种方法的实现

# 指定保存html文件的路径,文件名和编码方式
with open('requests.html','w',encoding='utf8') as f:
    f.write(r.text)


二.稍微复杂一点的爬取

1.确定目标页面并进行分析
网站地址仍然是:http://www.gov.cn/zhengce/zuixin.htm


2.python中的正则表达式
# 导入re模块
import re

# 指定匹配模式为从开始位置匹配数字
pattern=re.compile(r'\d+')

# 第一句话前面是文本,后面是数字
result1=re.match(pattern,'你说什么都是对的23333')

# 如果匹配成功
if result1:
    print(result1.group())
else:
    print('匹配失败')

# 第二句话前面是数字,后面是文本
result2=re.match(pattern,'23333你说什么到时对的')

# 如果匹配成功
if result2:
    print(result2.group())
else:
    print('匹配失败')

匹配失败
23333

# 用search来进行搜索
result3=re.search(pattern,'你说什么23333都是对的')

if result3:
    print(result3.group())
else:
    print('匹配失败')

23333

更多关于正则表达式的使用,参考:https://www.yuque.com/lq6h/201901/re


3.使用BeautifulSoup进行HTML解析
在python中,有两个常用的用于HTML解析的库,分别是lxml和BeautifulSoup,它们都可以从HTML文件或者XML文件中提取各种类型的数据

# 导入BeautifulSoup
from bs4 import BeautifulSoup

# 创建一个名为soup的对象
soup=BeautifulSoup(r.text,'lxml',from_encoding='utf8')
print(soup)

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
<head><script charset="utf-8" id="allmobilize" src="http://ysp.www.gov.cn/013582404bd78ad3c016b8fffefe6a9a/allmobilize.min.js"></script><meta content="no-siteapp" http-equiv="Cache-Control"/><link href="#" media="handheld" rel="alternate"/>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="IE=edge" http-equiv="x-ua-compatible"/>
<link href="http://www.gov.cn/govweb/xhtml/favicon.ico" rel="shortcut icon" type="image/x-icon"/>
<title>中共中央、国务院印发《中国教育现代化2035》_最新政策_中国政府网</title>
<meta content="页面生成时间 2019-02-23 19:31:23" name="others"/>
<meta content="2486,100039,6.8" name="template,templategroup,version"/>
<meta content="教育,现代化,推进,发展,机制," name="keywords"/>
<meta content="中国教育现代化2035》分为五个部分:一、战略背景;二、总体思路;三、战略任务;四、实施路径;五、保障措施。,2019-02-23-18:02:00" name="description"/>
<meta content="c148211" name="catalog"/>
<meta content="最新政策" name="lanmu"/>
<meta content="5367987" name="manuscriptId"/>
<meta content="祁培育" name="author"/>
<meta content="2019-02-23-18:02:00" name="firstpublishedtime"/>
<meta content="2019-02-23-19:02:00" name="lastmodifiedtime"/>
<link href="/govweb/xhtml/2016gov/css/base.css" rel="stylesheet" type="text/css"/>
<link href="/govweb/xhtml/2016gov/css/common.css" rel="stylesheet" type="text/css"/>
<link href="/govweb/xhtml/2016gov/css/common_detail.css" rel="stylesheet" type="text/css"/>
<link href="/govweb/xhtml/2016gov/css/common_detail_n920.css" rel="stylesheet" type="text/css"/>
<link href="/govweb/xhtml/2016gov/css/date.css" rel="stylesheet" type="text/css"/>
<script src="/govweb/xhtml/2016gov/js/jquery-1.8.3.min.js"></script>
<script src="/govweb/xhtml/2016gov/js/manuscript.js" type="text/javascript"></script>
<script src="/govweb/xhtml/2016gov/js/hover.js" type="text/javascript"></script>

下面使用BeautifulSoup将title进行提取

print(soup.title)

<title>中共中央、国务院印发《中国教育现代化2035》_最新政策_中国政府网</title>

使用string来提取文字部分

# 使用string即可提取这部分内容中的文本数据
print(soup.title.string)

中共中央、国务院印发《中国教育现代化2035》_最新政策_中国政府网

另一种方法,是使用get_text()来提取文字部分

# 使用get_text()也可提取这部分内容中的文本数据
print(soup.title.get_text())

中共中央、国务院印发《中国教育现代化2035》_最新政策_中国政府网

使用BeautifulSoup来提取标签"
"中的内容,默认情况下,BeautifulSoup只提取第一个
标签中的内容

print(soup.p.string)

新华社北京2月23日电 近日,中共中央、国务院印发了《中国教育现代化2035》,并发出通知,要求各地区各部门结合实际认真贯彻落实。

使用fint_all来找到所有
标签中的内容

# 使用find_all找到所有的<p>标签中的内容
texts=soup.find_all('p')

for text in texts:
    print(text.string)

新华社北京2月23日电 近日,中共中央、国务院印发了《中国教育现代化2035》,并发出通知,要求各地区各部门结合实际认真贯彻落实。
《中国教育现代化2035》分为五个部分:一、战略背景;二、总体思路;三、战略任务;四、实施路径;五、保障措施。
《中国教育现代化2035》提出推进教育现代化的指导思想是:以习近平新时代中国特色社会主义思想为指导,全面贯彻党的十九大和十九届二中、三中全会精神,坚定实施科教兴国战略、人才强国战略,紧紧围绕统筹推进“五位一体”总体布局和协调推进“四个全面”战略布局,坚定“四个自信”,在党的坚强领导下,全面贯彻党的教育方针,坚持马克思主义指导地位,坚持中国特色社会主义教育发展道路,坚持社会主义办学方向,立足基本国情,遵循教育规律,坚持改革创新,以凝聚人心、完善人格、开发人力、培育人才、造福人民为工作目标,培养德智体美劳全面发展的社会主义建设者和接班人,加快推进教育现代化、建设教育强国、办好人民满意的教育。将服务中华民族伟大复兴作为教育的重要使命,坚持教育为人民服务、为中国共产党治国理政服务、为巩固和发展中国特色社会主义制度服务、为改革开放和社会主义现代化建设服务,优先发展教育,大力推进教育理念、体系、制度、内容、方法、治理现代化,着力提高教育质量,促进教育公平,优化教育结构,为决胜全面建成小康社会、实现新时代中国特色社会主义发展的奋斗目标提供有力支撑。
《中国教育现代化2035》提出了推进教育现代化的八大基本理念:更加注重以德为先,更加注重全面发展,更加注重面向人人,更加注重终身学习,更加注重因材施教,更加注重知行合一,更加注重融合发展,更加注重共建共享。明确了推进教育现代化的基本原则:坚持党的领导、坚持中国特色、坚持优先发展、坚持服务人民、坚持改革创新、坚持依法治教、坚持统筹推进。
《中国教育现代化2035》提出,推进教育现代化的总体目标是:到2020年,全面实现“十三五”发展目标,教育总体实力和国际影响力显著增强,劳动年龄人口平均受教育年限明显增加,教育现代化取得重要进展,为全面建成小康社会作出重要贡献。在此基础上,再经过15年努力,到2035年,总体实现教育现代化,迈入教育强国行列,推动我国成为学习大国、人力资源强国和人才强国,为到本世纪中叶建成富强民主文明和谐美丽的社会主义现代化强国奠定坚实基础。2035年主要发展目标是:建成服务全民终身学习的现代教育体系、普及有质量的学前教育、实现优质均衡的义务教育、全面普及高中阶段教育、职业教育服务能力显著提升、高等教育竞争力明显提升、残疾儿童少年享有适合的教育、形成全社会共同参与的教育治理新格局。
《中国教育现代化2035》聚焦教育发展的突出问题和薄弱环节,立足当前,着眼长远,重点部署了面向教育现代化的十大战略任务:
一是学习习近平新时代中国特色社会主义思想。把学习贯彻习近平新时代中国特色社会主义思想作为首要任务,贯穿到教育改革发展全过程,落实到教育现代化各领域各环节。以习近平新时代中国特色社会主义思想武装教育战线,推动习近平新时代中国特色社会主义思想进教材进课堂进头脑,将习近平新时代中国特色社会主义思想融入中小学教育,加强高等学校思想政治教育。加强习近平新时代中国特色社会主义思想系统化、学理化、学科化研究阐释,健全习近平新时代中国特色社会主义思想研究成果传播机制。
二是发展中国特色世界先进水平的优质教育。全面落实立德树人根本任务,广泛开展理想信念教育,厚植爱国主义情怀,加强品德修养,增长知识见识,培养奋斗精神,不断提高学生思想水平、政治觉悟、道德品质、文化素养。增强综合素质,树立健康第一的教育理念,全面强化学校体育工作,全面加强和改进学校美育,弘扬劳动精神,强化实践动手能力、合作能力、创新能力的培养。完善教育质量标准体系,制定覆盖全学段、体现世界先进水平、符合不同层次类型教育特点的教育质量标准,明确学生发展核心素养要求。完善学前教育保教质量标准。建立健全中小学各学科学业质量标准和体质健康标准。健全职业教育人才培养质量标准,制定紧跟时代发展的多样化高等教育人才培养质量标准。建立以师资配备、生均拨款、教学设施设备等资源要素为核心的标准体系和办学条件标准动态调整机制。加强课程教材体系建设,科学规划大中小学课程,分类制定课程标准,充分利用现代信息技术,丰富并创新课程形式。健全国家教材制度,统筹为主、统分结合、分类指导,增强教材的思想性、科学性、民族性、时代性、系统性,完善教材编写、修订、审查、选用、退出机制。创新人才培养方式,推行启发式、探究式、参与式、合作式等教学方式以及走班制、选课制等教学组织模式,培养学生创新精神与实践能力。大力推进校园文化建设。重视家庭教育和社会教育。构建教育质量评估监测机制,建立更加科学公正的考试评价制度,建立全过程、全方位人才培养质量反馈监控体系。
三是推动各级教育高水平高质量普及。以农村为重点提升学前教育普及水平,建立更为完善的学前教育管理体制、办园体制和投入体制,大力发展公办园,加快发展普惠性民办幼儿园。提升义务教育巩固水平,健全控辍保学工作责任体系。提升高中阶段教育普及水平,推进中等职业教育和普通高中教育协调发展,鼓励普通高中多样化有特色发展。振兴中西部地区高等教育。提升民族教育发展水平。
四是实现基本公共教育服务均等化。提升义务教育均等化水平,建立学校标准化建设长效机制,推进城乡义务教育均衡发展。在实现县域内义务教育基本均衡基础上,进一步推进优质均衡。推进随迁子女入学待遇同城化,有序扩大城镇学位供给。完善流动人口子女异地升学考试制度。实现困难群体帮扶精准化,健全家庭经济困难学生资助体系,推进教育精准脱贫。办好特殊教育,推进适龄残疾儿童少年教育全覆盖,全面推进融合教育,促进医教结合。
五是构建服务全民的终身学习体系。构建更加开放畅通的人才成长通道,完善招生入学、弹性学习及继续教育制度,畅通转换渠道。建立全民终身学习的制度环境,建立国家资历框架,建立跨部门跨行业的工作机制和专业化支持体系。建立健全国家学分银行制度和学习成果认证制度。强化职业学校和高等学校的继续教育与社会培训服务功能,开展多类型多形式的职工继续教育。扩大社区教育资源供给,加快发展城乡社区老年教育,推动各类学习型组织建设。
六是提升一流人才培养与创新能力。分类建设一批世界一流高等学校,建立完善的高等学校分类发展政策体系,引导高等学校科学定位、特色发展。持续推动地方本科高等学校转型发展。加快发展现代职业教育,不断优化职业教育结构与布局。推动职业教育与产业发展有机衔接、深度融合,集中力量建成一批中国特色高水平职业院校和专业。优化人才培养结构,综合运用招生计划、就业反馈、拨款、标准、评估等方式,引导高等学校和职业学校及时调整学科专业结构。加强创新人才特别是拔尖创新人才的培养,加大应用型、复合型、技术技能型人才培养比重。加强高等学校创新体系建设,建设一批国际一流的国家科技创新基地,加强应用基础研究,全面提升高等学校原始创新能力。探索构建产学研用深度融合的全链条、网络化、开放式协同创新联盟。提高高等学校哲学社会科学研究水平,加强中国特色新型智库建设。健全有利于激发创新活力和促进科技成果转化的科研体制。
七是建设高素质专业化创新型教师队伍。大力加强师德师风建设,将师德师风作为评价教师素质的第一标准,推动师德建设长效化、制度化。加大教职工统筹配置和跨区域调整力度,切实解决教师结构性、阶段性、区域性短缺问题。完善教师资格体系和准入制度。健全教师职称、岗位和考核评价制度。培养高素质教师队伍,健全以师范院校为主体、高水平非师范院校参与、优质中小学(幼儿园)为实践基地的开放、协同、联动的中国特色教师教育体系。强化职前教师培养和职后教师发展的有机衔接。夯实教师专业发展体系,推动教师终身学习和专业自主发展。提高教师社会地位,完善教师待遇保障制度,健全中小学教师工资长效联动机制,全面落实集中连片特困地区生活补助政策。加大教师表彰力度,努力提高教师政治地位、社会地位、职业地位。
八是加快信息化时代教育变革。建设智能化校园,统筹建设一体化智能化教学、管理与服务平台。利用现代技术加快推动人才培养模式改革,实现规模化教育与个性化培养的有机结合。创新教育服务业态,建立数字教育资源共建共享机制,完善利益分配机制、知识产权保护制度和新型教育服务监管制度。推进教育治理方式变革,加快形成现代化的教育管理与监测体系,推进管理精准化和决策科学化。
九是开创教育对外开放新格局。全面提升国际交流合作水平,推动我国同其他国家学历学位互认、标准互通、经验互鉴。扎实推进“一带一路”教育行动。加强与联合国教科文组织等国际组织和多边组织的合作。提升中外合作办学质量。优化出国留学服务。实施留学中国计划,建立并完善来华留学教育质量保障机制,全面提升来华留学质量。推进中外高级别人文交流机制建设,拓展人文交流领域,促进中外民心相通和文明交流互鉴。促进孔子学院和孔子课堂特色发展。加快建设中国特色海外国际学校。鼓励有条件的职业院校在海外建设“鲁班工坊”。积极参与全球教育治理,深度参与国际教育规则、标准、评价体系的研究制定。推进与国际组织及专业机构的教育交流合作。健全对外教育援助机制。
十是推进教育治理体系和治理能力现代化。提高教育法治化水平,构建完备的教育法律法规体系,健全学校办学法律支持体系。健全教育法律实施和监管机制。提升政府管理服务水平,提升政府综合运用法律、标准、信息服务等现代治理手段的能力和水平。健全教育督导体制机制,提高教育督导的权威性和实效性。提高学校自主管理能力,完善学校治理结构,继续加强高等学校章程建设。鼓励民办学校按照非营利性和营利性两种组织属性开展现代学校制度改革创新。推动社会参与教育治理常态化,建立健全社会参与学校管理和教育评价监管机制。
《中国教育现代化2035》明确了实现教育现代化的实施路径:一是总体规划,分区推进。在国家教育现代化总体规划框架下,推动各地从实际出发,制定本地区教育现代化规划,形成一地一案、分区推进教育现代化的生动局面。二是细化目标,分步推进。科学设计和进一步细化不同发展阶段、不同规划周期内的教育现代化发展目标和重点任务,有计划有步骤地推进教育现代化。三是精准施策,统筹推进。完善区域教育发展协作机制和教育对口支援机制,深入实施东西部协作,推动不同地区协同推进教育现代化建设。四是改革先行,系统推进。充分发挥基层特别是各级各类学校的积极性和创造性,鼓励大胆探索、积极改革创新,形成充满活力、富有效率、更加开放、有利于高质量发展的教育体制机制。
为确保教育现代化目标任务的实现,《中国教育现代化2035》明确了三个方面的保障措施:
一是加强党对教育工作的全面领导。各级党委要把教育改革发展纳入议事日程,协调动员各方面力量共同推进教育现代化。建立健全党委统一领导、党政齐抓共管、部门各负其责的教育领导体制。建设高素质专业化教育系统干部队伍。加强各级各类学校党的领导和党的建设工作。深入推进教育系统全面从严治党、党风廉政建设和反腐败斗争。
二是完善教育现代化投入支撑体制。健全保证财政教育投入持续稳定增长的长效机制,确保财政一般公共预算教育支出逐年只增不减,确保按在校学生人数平均的一般公共预算教育支出逐年只增不减,保证国家财政性教育经费支出占国内生产总值的比例一般不低于4%。依法落实各级政府教育支出责任,完善多渠道教育经费筹措体制,完善国家、社会和受教育者合理分担非义务教育培养成本的机制,支持和规范社会力量兴办教育。优化教育经费使用结构,全面实施绩效管理,建立健全全覆盖全过程全方位的教育经费监管体系,全面提高经费使用效益。
三是完善落实机制。建立协同规划机制、健全跨部门统筹协调机制,建立教育发展监测评价机制和督导问责机制,全方位协同推进教育现代化,形成全社会关心、支持和主动参与教育现代化建设的良好氛围。

接下来我们要学习如何从中提取链接,还是让我们回到soup对象

# 找到倒数第一个<a>标签
link=soup.find_all('a')[-2]


#print('BeautifulSoup提取的链接:\n',link.get('href'))
print(link.get('href'))

http://www.gov.cn/home/2014-02/18/content_5046260.htm
1

4.对目标页面进行爬取并保存到本地
我们要爬取的文件标题所对应的链接中,都包含了一个单词"content"。只要我们使用正则表达式匹配"content"就可以获得所有的标题和链接



# 导入requests库
import requests

# 导入csv库便于我们把抓取的内容保存为csv文件
import csv

from bs4 import BeautifulSoup

import re

user_agent='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'

headers={'User-Agent':user_agent}

# 使用requests发送请求
policies=requests.get('http://www.gov.cn/zhengce/zuixin.htm',headers=headers)

# 指定编码为utf8
policies.encoding='utf8'

p=BeautifulSoup(policies.text,'lxml')

contents=p.find_all(href=re.compile('content'))

# 定义一个空列表
rows=[]

for content in contents:
    href=content.get('href')
    row=('国务院',content.string,href)
    rows.append(row)

header=['发文部门','标题','链接']

with open('policies.csv','w',encoding='gb18030') as f:
    f_csv=csv.writer(f)
    f_csv.writerow(header)
    f_csv.writerows(rows)

print('最新信息回获取完成')

最新信息回获取完成
1



三.对文本数据进行话题提取

1.寻找目标网站并分析结构
我们就使用:www.budejie.com/text/ ,我们进行分析可以得出,每个页面包含20个文字文字段子,单击下一页,地址栏的内容变成:www.budejie.com/text/2

这个网站只显示50页最新的段子,翻到第51页,就挂掉了

我们把目标页面锁定在1-50,下面我们来检查一下页面的结构


2.编写爬虫进行内容爬取
# 导入requests库
import requests

# 导入BeautifulSoup
from bs4 import BeautifulSoup

import re
import time

# 定义爬虫的headers
user_agent='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'

headers={'User-Agent':user_agent}

# 创建一个空列表
all_jokes=[]

# 设置for循环,让爬虫从第1页到第50页
for i in range(1,51):
    content=requests.get('http://www.budejie.com/text/{}'.format(i),headers=headers)

    # 替换掉网页中的<br>和<br />等无用标签
    replaced=content.text.replace('<br>',' ').replace('<br />',' ').replace('<br/>',' ')
    soup=BeautifulSoup(replaced,'lxml')
    jokes=soup.find_all('div',class_='j-r-list-c-desc')
    for joke in jokes:
        text=joke.a.string
        all_jokes.append(text)

    print('正在爬取第{}页'.format(i))
    time.sleep(2)

正在爬取第1页
正在爬取第2页
正在爬取第3页
正在爬取第4页
正在爬取第5页
正在爬取第6页
正在爬取第7页
正在爬取第8页
正在爬取第9页
正在爬取第10页
正在爬取第11页
正在爬取第12页
正在爬取第13页
正在爬取第14页
正在爬取第15页
正在爬取第16页
正在爬取第17页
正在爬取第18页
正在爬取第19页
正在爬取第20页
正在爬取第21页
正在爬取第22页
正在爬取第23页
正在爬取第24页
正在爬取第25页
正在爬取第26页
正在爬取第27页
正在爬取第28页
正在爬取第29页
正在爬取第30页
正在爬取第31页
正在爬取第32页
正在爬取第33页
正在爬取第34页
正在爬取第35页
正在爬取第36页
正在爬取第37页
正在爬取第38页
正在爬取第39页
正在爬取第40页
正在爬取第41页
正在爬取第42页
正在爬取第43页
正在爬取第44页
正在爬取第45页
正在爬取第46页
正在爬取第47页
正在爬取第48页
正在爬取第49页
正在爬取第50页

将爬虫爬到的结果保存在本地的txt文档中

# 以写入模式在jokes.txt文件,编码为utf8
with open('jokes.txt','w',encoding='utf-8') as f:
    for j in all_jokes:
        f.write(str(j))
        f.write('\n\n')



3.使用潜在狄利克雷分布进行话题提取
潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)是基于不同的词语共同出现的频率来进行分组的模型

首先我们要载入之前保存的txt文件,并把文本数据提取出来

# 读取模式打开之前存好的txt文档
file=open('jokes.txt','r',encoding='utf-8')

# 读取文本的所有行
lines=file.readlines()

# 提取出文本中的字符串数据
line=str(lines)

接下来,我们使用jieba分词工具,对段子的文本进行分词处理

import jieba

# 使用结巴词对文本进行分词处理
line=jieba.cut(line)

x=' '.join(line)

with open('cutjokes.txt','w',encoding='utf8') as f:
    f.write(str(x))


接下来,我们就要用这个进行过分词处理的文件来进行话题提取的工作了

# 导入TfidfVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

# 导入LDA模型
from sklearn.decomposition import LatentDirichletAllocation

# 用来打印提取后的话题和高频词
def print_topics(model,feature_names,n_top_words):
    for topic_idx,topic in enumerate(model.components_):
        message='topic #%d:'%topic_idx
        message+=' '.join([feature_names for i in topic.argsort()[:-n_top_words-1:-1]])
        print(message)
    print()

# 载人分词处理过的文本文本
f=open('cutjokes.txt','r',encoding='utf8')

# 定义每个话题提取20个高频词
n_top_words=20

# Tfidf最大特征数为1000
tf=TfidfVectorizer(max_features=1000)

x_train=tf.fit_transform(f)

lda=LatentDirichletAllocation(n_components=10)
lda.fit(x_train)

print_topics(lda,tf.get_feature_names(),n_top_words)

topic #0:老包 其实 表弟 有天 法拉利 好奇 上班 求婚 认真 浪漫 一顿 下雪 确定 不介意 这货来 满满的 每天 见面 激动 叹息
topic #1:老包 其实 表弟 有天 法拉利 好奇 上班 求婚 认真 浪漫 一顿 下雪 确定 不介意 这货来 满满的 每天 见面 激动 叹息
topic #2:老包 其实 表弟 有天 法拉利 好奇 上班 求婚 认真 浪漫 一顿 下雪 确定 不介意 这货来 满满的 每天 见面 激动 叹息
topic #3:老包 其实 表弟 有天 法拉利 好奇 上班 求婚 认真 浪漫 一顿 下雪 确定 不介意 这货来 满满的 每天 见面 激动 叹息
topic #4:老包 其实 表弟 有天 法拉利 好奇 上班 求婚 认真 浪漫 一顿 下雪 确定 不介意 这货来 满满的 每天 见面 激动 叹息
topic #5:老包 其实 表弟 有天 法拉利 好奇 上班 求婚 认真 浪漫 一顿 下雪 确定 不介意 这货来 满满的 每天 见面 激动 叹息
topic #6:老包 其实 表弟 有天 法拉利 好奇 上班 求婚 认真 浪漫 一顿 下雪 确定 不介意 这货来 满满的 每天 见面 激动 叹息
topic #7:老包 其实 表弟 有天 法拉利 好奇 上班 求婚 认真 浪漫 一顿 下雪 确定 不介意 这货来 满满的 每天 见面 激动 叹息
topic #8:老包 其实 表弟 有天 法拉利 好奇 上班 求婚 认真 浪漫 一顿 下雪 确定 不介意 这货来 满满的 每天 见面 激动 叹息
topic #9:哈哈哈 大爷 一个 就是 我们 什么 没有 时候 起来 老丈人 女孩 老公 看到 一天 大家 是不是 你们 一下 知道 长得



作者: 不二晨    时间: 2019-2-26 15:35
奈斯,感谢分享




欢迎光临 黑马程序员技术交流社区 (http://bbs.itheima.com/) 黑马程序员IT技术论坛 X3.2