我的一个Java爬虫程序,爬取网页并存储在本地磁盘。这个程序一开始写在本地程序里,测试成功后移到web程序,部署到tomcat上并用quartz定时调度其运行,代码没有任何变动,但是爬取的网页与本地程序爬取的网页不一样,见下图:
本地程序爬取网页部分源码:
Html代码
1.<td class="style2" align="right">
2. 日 期 :</td>
3.<td>
web程序爬取网页部分源码:
Html代码
1.<td class="style2" align="right">
2. 日? ?????期 :</td>
3.<td>
这只是截取一小段源码,其他有空格的地方,很多处都出现空格变"?"的情况,请问这是什么原因导致?
|