java去掉网页源代码的html标记
String html = 这里获取html代码;
String content = Jsoup.parse(html).text();
//String content = html.replaceAll("< [^<]+>", "");
System.out.println(content);
似乎两种方式(注释是正则)都能提取内容,但是其实用jsoup更好,不会残留一些css代码还有标记,既可以去掉标记,还能解析一些字符的html标志法。