黑马程序员技术交流社区

标题: 求助:关于字符串文档解析!!! [打印本页]

作者: 李慧声    时间: 2013-6-3 12:10
标题: 求助:关于字符串文档解析!!!
本帖最后由 李慧声 于 2013-6-3 19:17 编辑

求各位达人们帮助啊!!!

<description><![CDATA[<div></div><p> </p><p>鲜果联播是鲜果网推出的一款免费阅读应用。内容丰富, 功能强大,阅读流畅,支持预下载功能,方便公交<br />或地铁上离线阅读。</p><p> </p><p><br />功能特点:<br /></p><p> </p><p> </p><p>1.读新闻:包含网易新闻、腾讯新闻、搜狐新闻、南方周末…以及其它各类杂志报刊,时事要闻不错过。<br />2.发微博:支持新浪微博、腾讯微博和鲜果社区,可以评论、转发、收藏、分享,一键同步所有帐号。<br />3.看博客:科技、娱乐、财经、人文、生活、创意… 基于鲜果网庞大的数据中心,精选上百篇博客,让你看个够。<br />4.支持频道:新浪微博、腾讯微博、网易新闻、腾讯新闻、搜狐新闻、南方周末、东方早报、商业价值杂志、糗事百科、我们爱讲冷笑话、有意思吧、新浪科技、cnBeta、TechWeb、月光博客、瘾科技、爱范儿、36氪、小众软件、姚晨、李开复…… </p><p> </p><p> </p>]]></description>
上面是要解析的源文件,
我试了xml的解析不行,html解析也好像行不通,应该这压根就不是什么ml文件格式,用正则表达式,也没戏...比较纠结,到底怎么解析好呢?求牛人指点啊!!!
怎么样才能解析成如下的格式:
鲜果联播是鲜果网推出的一款免费阅读应用。内容丰富, 功能强大,阅读流畅,支持预下载功能,方便公交
或地铁上离线阅读。
功能特点:
1.读新闻:包含网易新闻、腾讯新闻、搜狐新闻、南方周末…以及其它各类杂志报刊,时事要闻不错过。
2.发微博:支持新浪微博、腾讯微博和鲜果社区,可以评论、转发、收藏、分享,一键同步所有帐号。
3.看博客:科技、娱乐、财经、人文、生活、创意… 基于鲜果网庞大的数据中心,精选上百篇博客,让你看个够。
4.支持频道:新浪微博、腾讯微博、网易新闻、腾讯新闻、搜狐新闻、南方周末、东方早报、商业价值杂志、糗事百科、我们爱讲冷笑话、有意思吧、新浪科技、cnBeta、TechWeb、月光博客、瘾科技、爱范儿、36氪、小众软件、姚晨、李开复……  

作者: 李慧声    时间: 2013-6-3 14:44
标题: 求帮助,关于文档解析!
狠狠,苦熬了一个小时,自己解决了!
  1. private static void method_5() {
  2.                 String text  = "<div></div><p> </p><p>鲜果联播是鲜果网推出的一款免费阅读应用。内容丰富, 功能强大,阅读流畅,支持预下载功能,方便公交<br />或地铁上离线阅读。</p><p> </p><p><br />功能特点:<br /></p><p> </p><p> </p><p>1.读新闻:包含网易新闻、腾讯新闻、搜狐新闻、南方周末…以及其它各类杂志报刊,时事要闻不错过。<br />2.发微博:支持新浪微博、腾讯微博和鲜果社区,可以评论、转发、收藏、分享,一键同步所有帐号。<br />3.看博客:科技、娱乐、财经、人文、生活、创意… 基于鲜果网庞大的数据中心,精选上百篇博客,让你看个够。<br />4.支持频道:新浪微博、腾讯微博、网易新闻、腾讯新闻、搜狐新闻、南方周末、东方早报、商业价值杂志、糗事百科、我们爱讲冷笑话、有意思吧、新浪科技、cnBeta、TechWeb、月光博客、瘾科技、爱范儿、36氪、小众软件、姚晨、李开复…… </p><p> </p><p> </p>";
  3.                 String[] strArrs = text.split("\\<[a-z|A-Z]+\\>|\\<\\/[a-z|A-Z]+\\>");
  4.                 StringBuilder sb = new StringBuilder();
  5.                 for(String strArr : strArrs)
  6.                         if(!strArr.trim().equals("")) {
  7. //                                sop("strArr===" + strArr.trim());
  8.                                 sb.append(strArr.trim());
  9.                         }
  10.                 System.out.print(sb.toString().replaceAll("\\<br\\ \\/\\>", "\\\r\\\n"));
  11.         }
复制代码
解析结果:

正则表达式结果.jpg (70.15 KB, 下载次数: 0)

正则表达式结果.jpg





欢迎光临 黑马程序员技术交流社区 (http://bbs.itheima.com/) 黑马程序员IT技术论坛 X3.2