黑马程序员技术交流社区

标题: 关于“网页爬虫”的问题 [打印本页]

作者: yuehaotian 时间: 2013-12-20 21:03
标题: 关于“网页爬虫”的问题
老毕最后一集里边介绍了，正则+网络编程+IO的一个应用--->扒资源(俗称爬虫)

这个爬虫核心就是正则表达式,而正则只能作用于字符（也就是说只能扒扒文字，字符什么的）

我想问的是有没有一种高端爬虫，可以识别字节的(也就是能识别图片,MP3...!片儿!....什么)

这样我就可以放在网上搜屌丝需要的东西，而不必担心打开没资源的垃圾网站了.....

作者: yuehaotian 时间: 2013-12-21 00:27
呵呵，好的好的！

作者: 赵晓海 时间: 2013-12-21 00:49
你所说的需求现在已经存在了。
图片例如如百度、谷歌、搜狗、还有一个忘了叫什么的搜索引擎，他们都有一个识图功能。
音频识别也存在，我模糊记得iphone上有一个app，打开后让它听一段音乐，他就能识别出这是什么歌。好像其他平台的此类软件也有的。

可以理解为字节识别，但是两种数据编码方式不同，肯定不是直接识别字节，而是解码后再匹配的。

两种技术都是基于海量数据进行的，有兴趣的话可以关注一下。

作者: FFF 时间: 2013-12-21 00:49

yuehaotian 发表于 2013-12-21 00:27
呵呵，好的好的！

苍老师{:soso_e144:}

作者: 青鸟飞鱼 时间: 2013-12-21 08:14
android上有个好像叫音乐雷达的吧，可以听外边的音乐然后识别出来歌曲！

欢迎光临黑马程序员技术交流社区 (http://bbs.itheima.com/)

黑马程序员IT技术论坛 X3.2