A股上市公司传智教育(股票代码 003032)旗下技术交流社区北京昌平校区

 找回密码
 加入黑马

QQ登录

只需一步,快速开始

© 左华清 黑马帝   /  2012-2-16 00:07  /  1828 人查看  /  4 人回复  /   0 人收藏 转载请遵从CC协议 禁止商业使用本文

本帖最后由 左华清 于 2012-2-18 20:40 编辑

<div>这是需要取的部分</div>
去掉html标签.

4 个回复

倒序浏览
  1. public class Test2 {
  2.         public static void main(String[] args) {
  3.                 String s1 ="<div>这是需要取的部分</div>";
  4.                 String regex ="</?[a-zA-Z]+>";
  5.                 System.out.println(s1.replaceAll(regex, ""));
  6.         }
  7. }
复制代码
/?代表正斜杠 0次或一次
后面代表字母出现一次或多次

评分

参与人数 1技术分 +2 收起 理由
技术测试刘老师 + 2 不错

查看全部评分

回复 使用道具 举报
本帖最后由 李杨 于 2012-2-16 01:25 编辑
陈丹阳 发表于 2012-2-16 00:38
/?代表正斜杠 0次或一次
后面代表字母出现一次或多次


String regex ="</?[\\w]+>";

来补充点细节,呵呵。。
由于HTML标签常规下会用数字来定义标号。如:<h1></h1>或者你的自定义标签。

一般几乎没人在标签里面加标点符号。所以一般情况下不用匹配符号了。

评分

参与人数 1技术分 +2 收起 理由
技术测试刘老师 + 2 细心分,李扬也可以把自己不懂的问题多提问.

查看全部评分

回复 使用道具 举报
两位给了很大的帮助,谢谢!
通过上面解答,再拓展了下,就是两个<>中间不能再有一个'>'

public class Test2 {
        public static void main(String[] args) {
                String s1 ="<div>这是需要取的部分</div>";
                String regex ="<(.[^>]*)>";
                System.out.println(s1.replaceAll(regex, ""));
        }
}
回复 使用道具 举报
如果,您是要做爬虫的项目抓取项目前特定的内容的话,我建议你用JSOUP来进行抓取,里面集成的对象选择器可以很方便的找到自己想要的内容
回复 使用道具 举报
您需要登录后才可以回帖 登录 | 加入黑马