当前位置 : 主页 > 网页制作 > html >

你如何从网页(Java)中获取文本?

来源:互联网 收集:自由互联 发布时间:2021-06-12
我打算编写一个简单的J2SE应用程序来聚合来自多个Web源的信息. 我认为,最困难的部分是从网页中提取有意义的信息,如果它不能用作RSS或Atom提要.例如,我可能想从stackoverflow中提取问题列
我打算编写一个简单的J2SE应用程序来聚合来自多个Web源的信息.

我认为,最困难的部分是从网页中提取有意义的信息,如果它不能用作RSS或Atom提要.例如,我可能想从stackoverflow中提取问题列表,但我绝对不需要那个巨大的标签云或导航栏.

你会建议什么技术/图书馆?

更新/备注

>速度无关紧要 – 只要它能在不到10分钟的时间内解析大约5MB的HTML.
>它真的很简单.

您可以使用HTMLParser( http://htmlparser.sourceforge.net/)in与URL#getInputStream()组合来解析Internet上托管的HTML页面的内容.
网友评论