IT源码网

jsoup正则去掉html标记讲解

developer 2021年04月03日 程序员 206 0

java去掉网页源代码的html标记

String html = 这里获取html代码;
    
String content = Jsoup.parse(html).text();
//String content = html.replaceAll("< [^<]+>", "");
System.out.println(content);

似乎两种方式(注释是正则)都能提取内容,但是其实用jsoup更好,不会残留一些css代码还有标记,既可以去掉标记,还能解析一些字符的html标志法。

发布评论
IT源码网

微信公众号号:IT虾米 (左侧二维码扫一扫)欢迎添加!

使用Java自带API进行MD5加密讲解
你是第一个吃螃蟹的人
发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。