Java中如何使用正则技术提取html中的任意内容

createh51个月前 (02-01)技术教程8

在Java中,可以使用正则表达式来提取HTML中的任意内容。以下是一个示例代码,演示如何使用正则表达式从HTML中提取文本:

import java.util.regex.Matcher;  import java.util.regex.Pattern;    public class HtmlParser {      public static void main(String[] args) {          String html = "<html><head><title>My Website</title></head><body><p>This is some sample text.</p></body></html>";          Pattern pattern = Pattern.compile("<p[^>]*>(.*?)</p>");          Matcher matcher = pattern.matcher(html);          String pText = matcher.group(1);          System.out.println(pText);      }  }

在上面的代码中,我们首先定义了一个HTML字符串,然后使用PatternMatcher类来匹配HTML中的文本。Pattern类用于定义正则表达式,Matcher类用于在HTML中查找匹配的文本。

在正则表达式中,我们使用了<p[^>]*>来匹配以<p>开头,后面跟着任意数量的字符,再以</p>结尾的文本。其中,[^>]*表示匹配任意数量的字符,</p>表示匹配</p>后面的任意字符。

最后,我们使用group(1)方法来获取匹配的文本,并将其打印到控制台上。

需要注意的是,正则表达式可以根据HTML标签的不同来进行不同的

相关文章

汉字转拼音Chinese to Pinyin(汉字转拼音大写在线翻译)

从网上找的资料,记得以前在C#中曾经用过这类资料,保存下来以后再进一步测试和应用。一、引入maven依赖 com.belerweb pinyin4j 2.5.0 二、工具类Pinyi...

前端 JavaScript 字符串中提取数字

var str ="4500元"; var num = parseInt(str); alert(num);//4500 如果字符串前面有非数字字符,上面这种方法就不行了:var...

第一次运行 Python 项目,使用 python-pptx 提取 ppt 中的文字和图片

人工智能时代,最需要学习的编程语言是:python 。笔者是个 python 小白,昨天花了两个小时,第一次成功运行起来 python 项目 。项目是 powerpoint-extractor ,可以...

【Java深度干货】如何高效构造字符串(String)?

字符串在 Java 中是不可变的,无论构造,还是截取,得到的总是一个新字符串。下面看一下构造一个字符串(String)的源码:private final char value[]; public St...

Java代码审计之SpEL表达式注入(spring的setter注入)

SpEL 表达式注入Spring Expression Language(简称 SpEL)是一种功能强大的表达式语言、用于在运行时查询和操作对象图;语法上类似于 Unified EL,但提供了更多的特...

「Java知识」字符串拼接不要再StringBuilder了用StringJoiner爽

介绍语本号主要是Java常用关键技术点,通用工具类的分享;以及springboot+springcloud+Mybatisplus+druid+mysql+redis+swagger+maven+do...