Java中如何使用正则技术提取html中的任意内容

createh53个月前 (02-01)技术教程15

在Java中,可以使用正则表达式来提取HTML中的任意内容。以下是一个示例代码,演示如何使用正则表达式从HTML中提取文本:

import java.util.regex.Matcher;  import java.util.regex.Pattern;    public class HtmlParser {      public static void main(String[] args) {          String html = "<html><head><title>My Website</title></head><body><p>This is some sample text.</p></body></html>";          Pattern pattern = Pattern.compile("<p[^>]*>(.*?)</p>");          Matcher matcher = pattern.matcher(html);          String pText = matcher.group(1);          System.out.println(pText);      }  }

在上面的代码中,我们首先定义了一个HTML字符串,然后使用PatternMatcher类来匹配HTML中的文本。Pattern类用于定义正则表达式,Matcher类用于在HTML中查找匹配的文本。

在正则表达式中,我们使用了<p[^>]*>来匹配以<p>开头,后面跟着任意数量的字符,再以</p>结尾的文本。其中,[^>]*表示匹配任意数量的字符,</p>表示匹配</p>后面的任意字符。

最后,我们使用group(1)方法来获取匹配的文本,并将其打印到控制台上。

需要注意的是,正则表达式可以根据HTML标签的不同来进行不同的

相关文章

100个Java工具类之70:字符串处理工具类StringUtils

StringUtils是常用的工具类,提供大量处理字符串的静态方法。StringUtils主要特点对null安全:如入参是null,方法不会抛出NullPointerException,而会返回相应的...

前端 JavaScript 字符串中提取数字

var str ="4500元"; var num = parseInt(str); alert(num);//4500 如果字符串前面有非数字字符,上面这种方法就不行了:var...

MySql字符串拆分实现split功能(字段分割转列、转行)

字符串转多行字符串拆分: SUBSTRING_INDEX(str, delim, count)替换函数:replace( str, from_str, to_str)获取字符串长度:LENGTH( s...

「Java知识」字符串拼接不要再StringBuilder了用StringJoiner爽

介绍语本号主要是Java常用关键技术点,通用工具类的分享;以及springboot+springcloud+Mybatisplus+druid+mysql+redis+swagger+maven+do...

线上系统性能太差,我手写了字符串切割函数,性能提升10倍以上

目录工作中常用的 split() 切割字符串效率高吗?JDK 提供字符串切割工具类 StringTokenizer手把手带你实现一个更高效的字符串切割工具类总结今天给大家介绍一个小知识点,但是会非常的...