android怎么解析html文件

在Android开发过程中，我们有时需要解析HTML文件以获取所需的数据，Android提供了多种方法来解析HTML文件，如Jsoup、HTMLParser和SAX等，下面我将详细介绍如何在Android中解析HTML文件。

Jsoup解析HTML

Jsoup是一款强大的Java库，可以方便地解析HTML文件，我们需要在项目的build.gradle文件中添加Jsoup的依赖。

Groovy

dependencies {
    implementation 'org.jsoup:jsoup:1.13.1'
}

我们可以使用以下代码来解析HTML文件：

Java

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
// 解析HTML字符串
String html = "<html><head><title>Example</title></head>"
        + "<body><p>Paragraph 1.</p><p>Paragraph 2.</p></body></html>";
Document doc = Jsoup.parse(html);
// 获取标题
String title = doc.title();
System.out.println("Title: " + title);
// 获取所有段落
Elements paragraphs = doc.select("p");
for (Element paragraph : paragraphs) {
    System.out.println("Paragraph: " + paragraph.text());
}

我们还可以从网络或本地文件中读取HTML内容：

Java

// 从网络获取HTML
String url = "http://example.com";
Document doc = Jsoup.connect(url).get();
// 从本地文件获取HTML
File input = new File("input.html");
Document doc = Jsoup.parse(input, "UTF-8");

HTMLParser解析HTML

HTMLParser是另一个用于解析HTML的Java库，需要在项目的build.gradle文件中添加以下依赖：

Groovy

dependencies {
    implementation 'org.htmlparser:htmlparser:2.1'
}

以下是使用HTMLParser解析HTML的示例：

Java

import org.htmlparser.Node;
import org.htmlparser.Parser;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
String html = "<html><head><title>Example</title></head>"
        + "<body><p>Paragraph 1.</p><p>Paragraph 2.</p></body></html>";
Parser parser = new Parser(html);
NodeList nodeList = null;
try {
    // 获取所有段落
    nodeList = parser.extractAllNodesThatMatch(new TagNameFilter("p"));
    for (int i = 0; i < nodeList.size(); i++) {
        Node node = nodeList.elementAt(i);
        System.out.println("Paragraph: " + node.getText());
    }
} catch (ParserException e) {
    e.printStackTrace();
}

SAX解析HTML

SAX（Simple API for XML）是一种基于事件的解析方法，主要用于解析XML文件，但也可以用来解析HTML，下面是一个使用SAX解析HTML的示例：

Java

import org.xml.sax.Attributes;
import org.xml.sax.InputSource;
import org.xml.sax.SAXException;
import org.xml.sax.XMLReader;
import org.xml.sax.helpers.DefaultHandler;
import org.xml.sax.helpers.XMLReaderFactory;
class MyHandler extends DefaultHandler {
    boolean bParagraph = false;
    @Override
    public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException {
        if (qName.equalsIgnoreCase("P")) {
            bParagraph = true;
        }
    }
    @Override
    public void endElement(String uri, String localName, String qName) throws SAXException {
        if (qName.equalsIgnoreCase("P")) {
            bParagraph = false;
        }
    }
    @Override
    public void characters(char ch[], int start, int length) throws SAXException {
        if (bParagraph) {
            System.out.println("Paragraph: " + new String(ch, start, length).trim());
        }
    }
}
String html = "<html><head><title>Example</title></head>"
        + "<body><p>Paragraph 1.</p><p>Paragraph 2.</p></body></html>";
try {
    XMLReader xmlReader = XMLReaderFactory.createXMLReader();
    MyHandler handler = new MyHandler();
    xmlReader.setContentHandler(handler);
    xmlReader.parse(new InputSource(new StringReader(html)));
} catch (Exception e) {
    e.printStackTrace();
}