特色栏目： python 批处理 net编程 Javascript Php Asp Css Html5 Android seo centos

全文检索 – 从给定DOI或标题的科学文献中提取摘要/全文

来源：互联网收集：自由互联发布时间：2021-06-16

有很多工具可以从PDF文件中提取文本[1-4].然而,大多数科学论文的问题是直接获取PDF的困难主要是由于需要付费.除了bibtex信息之外,还有一些工具可以轻松访问论文的信息,如元数据或bi

有很多工具可以从PDF文件中提取文本[1-4].然而,大多数科学论文的问题是直接获取PDF的困难主要是由于需要付费.除了bibtex信息之外,还有一些工具可以轻松访问论文的信息,如元数据或bibtex [5-6].我想要的是向前迈出一步,超越bibtex /元数据：

假设没有直接访问出版物的PDF文件,有没有办法至少获得科学论文的摘要给出论文的DOI或标题？通过我的搜索,我发现有一些尝试[7]用于某些类似的目的.有谁知道一个网站/工具,可以帮助我获取/提取科学论文的摘要或全文？如果没有这样的工具,你能否就解决这个问题后我应该怎么做？

谢谢

[1] https://stackoverflow.com/questions/1813427/extracting-information-from-pdfs-of-research-papers
[2] https://stackoverflow.com/questions/6731735/extracting-the-actual-in-text-title-from-a-pdf
[3] https://stackoverflow.com/questions/6731735/extracting-the-actual-in-text-title-from-a-pdf?lq=1
[4] https://stackoverflow.com/questions/14291856/extracting-article-contents-from-pdf-magazines?rq=1
[5] https://stackoverflow.com/questions/10507049/get-metadata-from-doi
[6] https://github.com/venthur/gscholar
[7] https://stackoverflow.com/questions/15768499/extract-text-from-google-scholar

您可以查看crossref文本和数据挖掘(tdm)服务( http://tdmsupport.crossref.org/).该组织免费提供RESTful API.有超过4000家发布商为此tdm服务做出贡献.
您可以从以下链接中找到一些示例：

https://github.com/CrossRef/rest-api-doc/blob/master/rest_api_tour.md

但举一个非常简单的例子：

如果你去链接

http://api.crossref.org/works/10.1080/10260220290013453

你会看到除了一些基本的元数据之外,还有另外两个元数据,即许可证和链接,前者根据提供的出版物提供哪种许可证,后者给出全文的URL.对于我们的示例,您将在许可证元数据上看到许可证是creativecommons(CC),这意味着它可以免费用于tdm目的.通过在crossref中搜索带有CC许可证的出版物,您可以使用其全文访问数十万个出版物.根据我的最新研究,我可以说hindawi出版物是最友好的出版商.即使他们提供超过10万的CC许可证出版物.最后一点是可以用xml或pdf格式提供全文.对于那些xml格式是高度结构化的,因此易于提取数据.

总而言之,您可以通过使用他们的API并简单地编写GET请求,通过crossref tdm服务自动访问许多全文.如果您有其他问题,请不要犹豫.

干杯.

上一篇：检索到的访问令牌：null. com.google.android.gms.auth.GoogleAuthException：未知
下一篇：检索iOS中按上次播放时间排序的歌曲列表

全文检索 – 从给定DOI或标题的科学文献中提取摘要/全文

相关文章