我打算编写一个简单的J2SE应用程序来聚合来自多个Web源的信息. 我认为,最困难的部分是从网页中提取有意义的信息,如果它不能用作RSS或Atom提要.例如,我可能想从stackoverflow中提取问题列
我认为,最困难的部分是从网页中提取有意义的信息,如果它不能用作RSS或Atom提要.例如,我可能想从stackoverflow中提取问题列表,但我绝对不需要那个巨大的标签云或导航栏.
你会建议什么技术/图书馆?
更新/备注
>速度无关紧要 – 只要它能在不到10分钟的时间内解析大约5MB的HTML.
>它真的很简单.