黑马程序员技术交流社区

标题: 关于“网页爬虫”的问题 [打印本页]

作者: yuehaotian    时间: 2013-12-20 21:03
标题: 关于“网页爬虫”的问题
老毕最后一集里边介绍了,正则+网络编程+IO的一个应用--->扒资源(俗称爬虫)

这个爬虫核心就是正则表达式,而正则只能作用于字符(也就是说只能扒扒文字,字符什么的)

我想问的是有没有一种高端爬虫,可以识别字节的(也就是能识别图片,MP3...!片儿!....什么)

这样我就可以放在网上搜屌丝需要的东西,而不必担心打开没资源的垃圾网站了.....
作者: yuehaotian    时间: 2013-12-21 00:27
呵呵,好的好的!
作者: 赵晓海    时间: 2013-12-21 00:49
你所说的需求现在已经存在了。
图片例如如百度、谷歌、搜狗、还有一个忘了叫什么的搜索引擎,他们都有一个识图功能。
音频识别也存在,我模糊记得iphone上有一个app,打开后让它听一段音乐,他就能识别出这是什么歌。好像其他平台的此类软件也有的。

可以理解为字节识别,但是两种数据编码方式不同,肯定不是直接识别字节,而是解码后再匹配的。

两种技术都是基于海量数据进行的,有兴趣的话可以关注一下。
作者: FFF    时间: 2013-12-21 00:49
yuehaotian 发表于 2013-12-21 00:27
呵呵,好的好的!

苍老师{:soso_e144:}
作者: 青鸟飞鱼    时间: 2013-12-21 08:14
android上有个好像叫音乐雷达的吧,可以听外边的音乐然后识别出来歌曲!




欢迎光临 黑马程序员技术交流社区 (http://bbs.itheima.com/) 黑马程序员IT技术论坛 X3.2