你如何从网页(Java)中获取文本？

来源：互联网收集：自由互联发布时间：2021-06-12

我打算编写一个简单的J2SE应用程序来聚合来自多个Web源的信息. 我认为,最困难的部分是从网页中提取有意义的信息,如果它不能用作RSS或Atom提要.例如,我可能想从stackoverflow中提取问题列

我打算编写一个简单的J2SE应用程序来聚合来自多个Web源的信息.

我认为,最困难的部分是从网页中提取有意义的信息,如果它不能用作RSS或Atom提要.例如,我可能想从stackoverflow中提取问题列表,但我绝对不需要那个巨大的标签云或导航栏.

你会建议什么技术/图书馆？

更新/备注

>速度无关紧要 – 只要它能在不到10分钟的时间内解析大约5MB的HTML.
>它真的很简单.

您可以使用HTMLParser( http://htmlparser.sourceforge.net/)in与URL#getInputStream()组合来解析Internet上托管的HTML页面的内容.

相关文章