A股上市公司传智教育(股票代码 003032)旗下技术交流社区北京昌平校区

 找回密码
 加入黑马

QQ登录

只需一步,快速开始

本帖最后由 孟浩然 于 2012-6-5 12:35 编辑

我有一个html文件,里面装的是一篇日志,我想把它里面的内容保存起来,只需要title标签和body标签里的内容,我不知道怎么判断,具体是在读取时判断还是在写入的时候判断呢,我感觉这两种方法都可以,希望高手提醒一下。

评分

参与人数 1技术分 +1 收起 理由
袁錦泰 + 1

查看全部评分

3 个回复

倒序浏览
可以使用正则表达式删除HTML标签。

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class HTMLSpirit{
    public static String delHTMLTag(String htmlStr){
        String regEx_script="<script[^>]*?>[\\s\\S]*?<\\/script>"; //定义script的正则表达式
        String regEx_style="<style[^>]*?>[\\s\\S]*?<\\/style>"; //定义style的正则表达式
        String regEx_html="<[^>]+>"; //定义HTML标签的正则表达式
         
        Pattern p_script=Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE);
        Matcher m_script=p_script.matcher(htmlStr);
        htmlStr=m_script.replaceAll(""); //过滤script标签
         
        Pattern p_style=Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE);
        Matcher m_style=p_style.matcher(htmlStr);
        htmlStr=m_style.replaceAll(""); //过滤style标签
         
        Pattern p_html=Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE);
        Matcher m_html=p_html.matcher(htmlStr);
        htmlStr=m_html.replaceAll(""); //过滤html标签

        return htmlStr.trim(); //返回文本字符串
    }
}

评分

参与人数 1技术分 +1 收起 理由
赵志勇 + 1

查看全部评分

回复 使用道具 举报
李春阳 发表于 2012-6-4 17:28
可以使用正则表达式删除HTML标签。

import java.util.regex.Matcher;

在JDK API里找到了,大致了解了一下,这些是不是在javascript里使用的更多,还有那个为什么还要定义Style的正则表达式,它是过滤什么的?
回复 使用道具 举报
孟浩然 发表于 2012-6-4 17:45
在JDK API里找到了,大致了解了一下,这些是不是在javascript里使用的更多,还有那个为什么还要定义Style ...

楼上名字霸道,样式标签也是html语言的一部分,可以内嵌在标签内,也可以定义成标签
回复 使用道具 举报
您需要登录后才可以回帖 登录 | 加入黑马