当前位置 : 主页 > 网络推广 > seo >

全文检索 – 从给定DOI或标题的科学文献中提取摘要/全文

来源:互联网 收集:自由互联 发布时间:2021-06-16
有很多工具可以从PDF文件中提取文本[1-4].然而,大多数科学论文的问题是直接获取PDF的困难主要是由于需要付费.除了bibtex信息之外,还有一些工具可以轻松访问论文的信息,如元数据或bi
有很多工具可以从PDF文件中提取文本[1-4].然而,大多数科学论文的问题是直接获取PDF的困难主要是由于需要付费.除了bibtex信息之外,还有一些工具可以轻松访问论文的信息,如元数据或bibtex [5-6].我想要的是向前迈出一步,超越bibtex /元数据:

假设没有直接访问出版物的PDF文件,有没有办法至少获得科学论文的摘要给出论文的DOI或标题?通过我的搜索,我发现有一些尝试[7]用于某些类似的目的.有谁知道一个网站/工具,可以帮助我获取/提取科学论文的摘要或全文?如果没有这样的工具,你能否就解决这个问题后我应该怎么做?

谢谢

[1] https://stackoverflow.com/questions/1813427/extracting-information-from-pdfs-of-research-papers
[2] https://stackoverflow.com/questions/6731735/extracting-the-actual-in-text-title-from-a-pdf
[3] https://stackoverflow.com/questions/6731735/extracting-the-actual-in-text-title-from-a-pdf?lq=1
[4] https://stackoverflow.com/questions/14291856/extracting-article-contents-from-pdf-magazines?rq=1
[5] https://stackoverflow.com/questions/10507049/get-metadata-from-doi
[6] https://github.com/venthur/gscholar
[7] https://stackoverflow.com/questions/15768499/extract-text-from-google-scholar
您可以查看crossref文本和数据挖掘(tdm)服务( http://tdmsupport.crossref.org/).该组织免费提供RESTful API.有超过4000家发布商为此tdm服务做出贡献.
您可以从以下链接中找到一些示例:

https://github.com/CrossRef/rest-api-doc/blob/master/rest_api_tour.md

但举一个非常简单的例子:

如果你去链接

http://api.crossref.org/works/10.1080/10260220290013453

你会看到除了一些基本的元数据之外,还有另外两个元数据,即许可证和链接,前者根据提供的出版物提供哪种许可证,后者给出全文的URL.对于我们的示例,您将在许可证元数据上看到许可证是creativecommons(CC),这意味着它可以免费用于tdm目的.通过在crossref中搜索带有CC许可证的出版物,您可以使用其全文访问数十万个出版物.根据我的最新研究,我可以说hindawi出版物是最友好的出版商.即使他们提供超过10万的CC许可证出版物.最后一点是可以用xml或pdf格式提供全文.对于那些xml格式是高度结构化的,因此易于提取数据.

总而言之,您可以通过使用他们的API并简单地编写GET请求,通过crossref tdm服务自动访问许多全文.如果您有其他问题,请不要犹豫.

干杯.

网友评论