Extract links from an HTML page : HTML Parser « Network « Java Tutorial

import java.io.FileReader;
import java.util.ArrayList;

import javax.swing.text.MutableAttributeSet;
import javax.swing.text.html.HTML.Attribute;
import javax.swing.text.html.HTML.Tag;
import javax.swing.text.html.HTMLEditorKit.ParserCallback;
import javax.swing.text.html.parser.ParserDelegator;

public class Main {
  public final static void main(String[] args) throws Exception {
    final ArrayList<String> list = new ArrayList<String>();

    ParserDelegator parserDelegator = new ParserDelegator();
    ParserCallback parserCallback = new ParserCallback() {
      public void handleText(final char[] data, final int pos) {
      }

      public void handleStartTag(Tag tag, MutableAttributeSet attribute, int pos) {
        if (tag == Tag.A) {
          String address = (String) attribute.getAttribute(Attribute.HREF);
          list.add(address);
        }
      }

      public void handleEndTag(Tag t, final int pos) {
      }

      public void handleSimpleTag(Tag t, MutableAttributeSet a, final int pos) {
      }

      public void handleComment(final char[] data, final int pos) {
      }

      public void handleError(final java.lang.String errMsg, final int pos) {
      }
    };
    parserDelegator.parse(new FileReader("a.html"), parserCallback, false);
    System.out.println(list);
  }
}

19.26.HTML Parser
	19.26.1.	Getting the Links in an HTML Document
	19.26.2.	Getting the Text in an HTML Document
	19.26.3.	Escape HTML special characters from a String
	19.26.4.	Using javax.swing.text.html.HTMLEditorKit to parse html document
	19.26.5.	Extract links from an HTML page
	19.26.6.	extends HTMLEditorKit.ParserCallback
	19.26.7.	HTML parser based on HTMLEditorKit.ParserCallback
	19.26.8.	Find and display hyperlinks contained within a web page
	19.26.9.	Get all hyper links from a web page
	19.26.10.	HTML Parser