huggingface上的一个13.8万篇arXiv上的论文的数据集
huggingface.co/datasets/neuralwork/arxiver
该数据集包含了138,830篇arXiv上的论文,这些论文被转换成了多标记(.mmd)格式。数据集涵盖了论文的原始arXiv文章ID、标题、摘要、作者、发表日期、URL以及相应的Markdown文件,时间跨度从2023年1月至2023年10月。数据集课用语支持语义搜索、领域特定语言建模、问答和摘要等多种应用。
huggingface上的一个13.8万篇arXiv上的论文的数据集
huggingface.co/datasets/neuralwork/arxiver
该数据集包含了138,830篇arXiv上的论文,这些论文被转换成了多标记(.mmd)格式。数据集涵盖了论文的原始arXiv文章ID、标题、摘要、作者、发表日期、URL以及相应的Markdown文件,时间跨度从2023年1月至2023年10月。数据集课用语支持语义搜索、领域特定语言建模、问答和摘要等多种应用。