有很多工具可以从PDF文件中提取文本[1-4].然而,大多数科学论文的问题是直接获取PDF的困难主要是由于需要付费.除了bibtex信息之外,还有一些工具可以轻松访问论文的信息,如元数据或bi
假设没有直接访问出版物的PDF文件,有没有办法至少获得科学论文的摘要给出论文的DOI或标题?通过我的搜索,我发现有一些尝试[7]用于某些类似的目的.有谁知道一个网站/工具,可以帮助我获取/提取科学论文的摘要或全文?如果没有这样的工具,你能否就解决这个问题后我应该怎么做?
谢谢
[1] https://stackoverflow.com/questions/1813427/extracting-information-from-pdfs-of-research-papers [2] https://stackoverflow.com/questions/6731735/extracting-the-actual-in-text-title-from-a-pdf [3] https://stackoverflow.com/questions/6731735/extracting-the-actual-in-text-title-from-a-pdf?lq=1 [4] https://stackoverflow.com/questions/14291856/extracting-article-contents-from-pdf-magazines?rq=1 [5] https://stackoverflow.com/questions/10507049/get-metadata-from-doi [6] https://github.com/venthur/gscholar [7] https://stackoverflow.com/questions/15768499/extract-text-from-google-scholar您可以查看crossref文本和数据挖掘(tdm)服务( http://tdmsupport.crossref.org/).该组织免费提供RESTful API.有超过4000家发布商为此tdm服务做出贡献.
您可以从以下链接中找到一些示例:
https://github.com/CrossRef/rest-api-doc/blob/master/rest_api_tour.md
但举一个非常简单的例子:
如果你去链接
http://api.crossref.org/works/10.1080/10260220290013453
你会看到除了一些基本的元数据之外,还有另外两个元数据,即许可证和链接,前者根据提供的出版物提供哪种许可证,后者给出全文的URL.对于我们的示例,您将在许可证元数据上看到许可证是creativecommons(CC),这意味着它可以免费用于tdm目的.通过在crossref中搜索带有CC许可证的出版物,您可以使用其全文访问数十万个出版物.根据我的最新研究,我可以说hindawi出版物是最友好的出版商.即使他们提供超过10万的CC许可证出版物.最后一点是可以用xml或pdf格式提供全文.对于那些xml格式是高度结构化的,因此易于提取数据.
总而言之,您可以通过使用他们的API并简单地编写GET请求,通过crossref tdm服务自动访问许多全文.如果您有其他问题,请不要犹豫.
干杯.