semanticscholar专题

作者：游鱼思

简介

提供了2亿篇论文的智能检索，有摘要和元数据，大部分可以下载全文。

库中最重要的部分：对文档进行分区。文档分区的目标是读取源文档，将文档拆分为多个部分，对这些部分进行分类，并提取与这些部分关联的文本。根据文档类型，非结构化使用不同的方法对文档进行分区。

LlamaIndex的 SemanticScholarReader 类，实现逻辑：

初始化：arxiv、base_dir 用来存全文
_download_pdf()：只下载pdf，并切片成1k，保存到bash_dir。
_get_full_text_docs()：根据元数据中的id、url，下载全文。如果id包含ArXiv，也会从ArXiv下载。返回全文列表，其中包括全文文本、元数据。
load_data()：输入query，返回命中的文档的元数据（title, abstract, authos 等）