本帖最后由 我是楠楠 于 2019-4-17 16:13 编辑
【郑州校区】了解搜索技术 下
1.1、搜索引擎的种类搜索引擎按照功能通常分为垂直搜索和综合搜索。 1、垂直搜索是指专门针对某一类信息进行搜索。例如:会搜网 主要做商务搜索的,并且提供商务信息。除此之外还有爱看图标网、职友集等。 2、综合搜索是指对众多信息进行综合性的搜索。例如:百度、谷歌、搜狗、360搜索等。 3、站内搜索是指对网站内的信息进行的搜索。例如:京东、招聘网站等 4、软件内部搜索,例如word、eclipse等 51job 58同城 拉勾 boss直聘 全文检索:将非结构化的数据 转换成 结构化的数据, 在结构化数据的基础之上进行一系列处理, 建立索引,然后检索在索引库上检索。 数据的分类: 结构化数据:格式和大小是固定的 非结构化数据:格式和大小不是固定的 1.2、搜索引擎的原理爬虫—》抓取网页—》临时库—》处理放到索引区—》提供搜索服务 商品表—》处理放到索引区—》提供搜索服务 1.3、倒排索引技术倒排索引又叫反向索引(右下图)以字或词为关键字进行索引,表中关键字所对应的记录表项,记录了出现这个字或词的所有文档,每一个表项记录该文档的ID和关键字在该文档中出现的位置情况。 在实际的运用中,我们可以对数据库中原始的数据结构(临时表或者商品表),在业务空闲时事先根据左图内容,创建新的文档列表(左图)及倒排索引区域(右图)。 用户有查询需求时,先访问倒排索引数据区域(右图),得出文档编号后,通过文档文档编号即可快速,准确的通过左图找到具体的文档内容。 这一过程,可以通过我们自己写程序来实现,也可以借用已经抽象出来的通用开源技术来实现。 传智播客·黑马程序员郑州校区地址 河南省郑州市 高新区长椿路11号大学科技园(西区)东门8号楼三层 |