IT源码网

jsoup正则去掉html标记

developer 2021年04月03日 程序员 406 0

java去掉网页源代码的html标记

String html = 这里获取html代码;
    
String content = Jsoup.parse(html).text();
//String content = html.replaceAll("< [^<]+>", "");
System.out.println(content);

似乎两种方式(注释是正则)都能提取内容,但是其实用jsoup更好,不会残留一些css代码还有标记,既可以去掉标记,还能解析一些字符的html标志法。

评论关闭
IT源码网

微信公众号号:IT虾米 (左侧二维码扫一扫)欢迎添加!

使用Java自带API进行MD5加密