scholar-paper-downloader
学术文献PDF批量下载工具,支持从多个学术网站(arXiv、PubMed、PMC、Semantic Scholar等)搜索和下载论文, 自动提取元数据、生成索引列表。优先从官方免费渠道下载,付费文献提供手动下载指引。
Best use case
scholar-paper-downloader is best used when you need a repeatable AI agent workflow instead of a one-off prompt.
学术文献PDF批量下载工具,支持从多个学术网站(arXiv、PubMed、PMC、Semantic Scholar等)搜索和下载论文, 自动提取元数据、生成索引列表。优先从官方免费渠道下载,付费文献提供手动下载指引。
Teams using scholar-paper-downloader should expect a more consistent output, faster repeated execution, less prompt rewriting.
When to use this skill
- You want a reusable workflow that can be run more than once with consistent structure.
When not to use this skill
- You only need a quick one-off answer and do not need a reusable workflow.
- You cannot install or maintain the underlying files, dependencies, or repository context.
Installation
Claude Code / Cursor / Codex
Manual Installation
- Download SKILL.md from GitHub
- Place it in
.claude/skills/scholar-paper-downloader/SKILL.mdinside your project - Restart your AI agent — it will auto-discover the skill
How scholar-paper-downloader Compares
| Feature / Agent | scholar-paper-downloader | Standard Approach |
|---|---|---|
| Platform Support | Not specified | Limited / Varies |
| Context Awareness | High | Baseline |
| Installation Complexity | Unknown | N/A |
Frequently Asked Questions
What does this skill do?
学术文献PDF批量下载工具,支持从多个学术网站(arXiv、PubMed、PMC、Semantic Scholar等)搜索和下载论文, 自动提取元数据、生成索引列表。优先从官方免费渠道下载,付费文献提供手动下载指引。
Where can I find the source code?
You can find the source code on GitHub using the link provided at the top of the page.
Related Guides
AI Agents for Marketing
Discover AI agents for marketing workflows, from SEO and content production to campaign research, outreach, and analytics.
AI Agents for Startups
Explore AI agent skills for startup validation, product research, growth experiments, documentation, and fast execution with small teams.
AI Agents for Coding
Browse AI agent skills for coding, debugging, testing, refactoring, code review, and developer workflows across Claude, Cursor, and Codex.
SKILL.md Source
# Scholar Paper Downloader
## 概述
学术文献PDF下载技能,帮助用户从多个公开学术资源库批量下载论文PDF,自动提取元数据并生成文献索引列表。
**设计原则**:
- 优先从官方免费渠道下载(arXiv、PMC、PubMed Central)
- 付费文献提供详细的手动下载指引
- 避免使用可能侵犯版权的自动下载方式
## 何时使用此技能
当用户需要以下操作时触发此技能:
- 下载学术论文PDF版本
- 批量获取多篇论文
- 从arXiv等学术网站下载预印本
- 从PubMed Central下载开放获取文献
- 按关键词搜索并下载论文
- 按论文ID批量下载
- 生成文献索引列表
## 使用场景
### 1. 按关键词搜索下载
```bash
python scripts/batch_downloader.py -q "machine learning"
```
### 2. 按arXiv ID下载
```bash
python scripts/batch_downloader.py --ids 2103.00001 2103.00002
```
### 3. 按DOI查询信息
```bash
python scripts/doi_query.py 10.1056/NEJMoa1915872
```
### 4. 从PubMed/PDF URL下载
```bash
python scripts/batch_downloader.py --urls "https://arxiv.org/pdf/2103.00001.pdf"
```
### 5. 自定义配置
```bash
python scripts/batch_downloader.py -q "deep learning" -o ./my_papers -m 20 -w 5
```
## 功能特性
### 核心功能
1. **多源搜索**: 支持arXiv、PubMed、PMC、Semantic Scholar等多个学术来源
2. **批量下载**: 并发下载,支持进度跟踪
3. **自动重命名**: 根据元数据自动命名文件
4. **元数据提取**: 提取标题、作者、日期等
5. **索引生成**: 生成Markdown和JSON格式索引
6. **合法优先**: 仅从官方免费渠道自动下载
7. **手动指引**: 为付费文献提供详细的手动下载指南
### 下载策略
技能采用优先级策略处理不同类型的文献:
1. **第一优先级**: 官方免费渠道
- arXiv (预印本服务器)
- PubMed Central (PMC, 开放获取)
- 期刊官方网站的开放获取文章
- 机构仓库
2. **第二优先级**: 查询和索引
- PubMed (查询元数据)
- Semantic Scholar (获取信息)
- CrossRef (DOI解析)
3. **无法自动下载时**: 提供手动下载指引
- Sci-Hub手动下载说明
- 机构访问建议
- 联系作者模板
- 文献传递服务
### 支持的官方渠道
| 渠道 | 类型 | 状态 | 说明 |
|------|------|------|------|
| arXiv | 预印本 | ✅ 完全支持 | 免费下载 |
| PubMed Central | 开放获取 | ✅ 完全支持 | 免费下载 |
| PubMed | 元数据 | ✅ 完全支持 | 查询信息 |
| arXiv API | 数据源 | ✅ 完全支持 | 搜索论文 |
| Semantic Scholar | 元数据 | ✅ 完全支持 | 获取信息 |
## 目录结构
```
scholar-paper-downloader/
├── SKILL.md # 技能主文档
├── scripts/
│ ├── __init__.py
│ ├── config.py # 配置管理
│ ├── paper_search.py # 论文检索
│ ├── pdf_downloader.py # PDF下载器(仅官方渠道)
│ ├── metadata_extractor.py # 元数据提取
│ ├── file_manager.py # 文件管理
│ ├── index_generator.py # 索引生成
│ ├── batch_downloader.py # 批量下载主程序
│ ├── pubmed_downloader.py # PubMed/PMC下载器 (新)
│ ├── doi_query.py # DOI信息查询工具
│ └── requirements.txt # Python依赖
└── references/
├── arxiv_api_guide.md # arXiv API指南
├── best_practices.md # 最佳实践
└── manual_download_guide.md # 手动下载指南 (新)
```
## 技术实现
### 下载流程
```
1. 输入查询 (关键词/DOI/ID/URL)
↓
2. 搜索论文 (arXiv + PubMed + Semantic Scholar)
↓
3. 检查是否可自动下载
├─ arXiv论文 → 直接下载
├─ PMC开放获取 → 直接下载
└─ 付费期刊 → 生成手动下载指引
↓
4. 提取元数据
↓
5. 保存文件
├─ PDF → 保存到指定目录
└─ 指引 → 保存下载指南
↓
6. 生成索引
```
### 配置选项
```python
# config.py 关键配置
MAX_WORKERS = 5 # 并发下载线程数
TIMEOUT = 30 # 请求超时(秒)
RETRY_TIMES = 3 # 重试次数
OUTPUT_DIR = "./downloads" # 默认输出目录
```
## 输出格式
### PDF文件命名
```
[第一作者]_[年份]_[期刊简写].pdf
例如:
Wickramasinghe_2022_CellStemCell.pdf
Schweitzer_2020_NEJM.pdf
```
### 索引文件
生成两种格式的索引:
1. **Markdown索引** (`index.md`)
```markdown
# 论文索引
## 2022-03-11
1. PPARdelta activation induces metabolic...
- DOI: 10.1016/j.stem.2022.02.011
- 期刊: Cell Stem Cell
- 状态: 需手动下载
- 指南: PPAR_DELTA_DOWNLOAD.md
```
2. **JSON索引** (`index.json`)
```json
[
{
"title": "...",
"doi": "10.1016/j.stem.2022.02.011",
"journal": "Cell Stem Cell",
"status": "manual",
"guide": "PPAR_DELTA_DOWNLOAD.md",
"timestamp": "2026-03-11"
}
]
```
### 手动下载指引模板
对于无法自动下载的论文,生成详细的下载指引:
```markdown
# 论文下载指南
## 论文信息
- 标题: ...
- DOI: ...
- 期刊: ...
## 快速下载方法
1. 访问 Sci-Hub: https://sci-hub.tw
2. 输入 DOI: ...
3. 点击下载
## 备用方法
- 机构访问
- 联系作者
- 文献传递
```
## 最佳实践
### 1. 批量下载建议
```bash
# 推荐配置
python scripts/batch_downloader.py \
-q "your topic" \
-o ./my_papers \
-m 20 \
-w 5
```
参数说明:
- `-o`: 指定输出目录
- `-m`: 最多下载论文数
- `-w`: 并发线程数(不要太大,避免被封)
### 2. 付费文献处理
对于付费期刊论文:
1. 检查是否在PMC有开放获取版本
2. 如果没有,生成详细的手动下载指引
3. 提供多种获取方式建议
4. 保留论文元数据用于后续跟踪
### 3. 索引管理
定期检查索引文件:
```bash
# 查看所有未下载论文
grep "需手动下载" index.md
# 更新手动下载状态
# 编辑index.json,将status改为"downloaded"
```
## 注意事项
### ⚠️ 重要提醒
1. **版权尊重**:
- 仅从官方免费渠道自动下载
- 付费文献仅提供下载指引,不自动下载
- 下载的论文仅供个人学术研究使用
2. **使用限制**:
- 遵守网站使用条款
- 不要过度请求(限制并发数)
- 尊重速率限制
3. **推荐用途**:
- ✅ 学术研究
- ✅ 个人学习
- ✅ 文献调研
- ❌ 商业应用
- ❌ 大规模批量下载
- ❌ 公开分享付费内容
### 手动下载指引说明
生成的下载指引包含:
1. **Sci-Hub手动下载**
- 可用的Sci-Hub镜像链接
- 详细的操作步骤
- 常见问题解决
2. **合法获取渠道**
- 机构访问指南
- 联系作者模板
- 文献传递服务
3. **备用资源**
- 开放获取检查
- 其他数据库链接
- 学术论坛求助
## 故障排除
### 常见问题
**Q: 无法下载某篇论文?**
A:
1. 检查是否是付费期刊
2. 查看 `papers/*.md` 中的下载指引
3. 尝试手动访问官方渠道
**Q: 下载的PDF无法打开?**
A:
1. 检查文件大小(应该>1KB)
2. 重新下载
3. 尝试其他下载源
**Q: 搜索不到相关论文?**
A:
1. 尝试不同的关键词
2. 使用更精确的标题
3. 直接输入DOI
**Q: 付费文献如何获取?**
A:
1. 查看生成的下载指引
2. 使用Sci-Hub手动下载
3. 联系作者索取
4. 使用机构访问权限
## 示例工作流
### 示例1: 下载arXiv论文
```bash
# 搜索并下载机器学习相关的arXiv论文
python scripts/batch_downloader.py -q "machine learning" -m 5
```
输出:
```
✅ Downloaded: arxiv_2103.00001.pdf
✅ Downloaded: arxiv_2103.00002.pdf
...
📄 Generated: index.md, index.json
```
### 示例2: 查询DOI信息
```bash
python scripts/doi_query.py 10.1016/j.stem.2022.02.011
```
输出:
```
Title: PPARdelta activation induces metabolic...
Authors: Nadeera M. Wickramasinghe, ...
Journal: Cell Stem Cell
DOI: 10.1016/j.stem.2022.02.011
```
### 示例3: 付费文献处理
```bash
python scripts/batch_downloader.py --doi 10.1056/NEJMoa1915872
```
输出:
```
ℹ️ Paper not available for auto-download
📄 Generated manual download guide: NEJM_DOWNLOAD.md
📄 Added to index with status: manual
```
## 更新日志
### v2.0 (2026-03-11)
- ✅ 移除Sci-Hub自动下载功能
- ✅ 添加PubMed/PMC下载支持
- ✅ 优先官方免费渠道
- ✅ 为付费文献生成详细的手动下载指引
- ✅ 改进错误提示和用户体验
### v1.0 (初始版本)
- arXiv批量下载
- 元数据提取
- 索引生成
---
**最后更新**: 2026-03-11
**版本**: v2.0
**状态**: ✅ 稳定可用Related Skills
ta-paper-executor
Execute and track paper trades from TA setups with JSONL ledger, open/close workflow, and mark-to-market status.
paper-trading-plan
Generates structured paper trading plans with entry, stop loss, take profit, position size, and failure conditions for SPX, indices, and US equity options.
instagram-reel-downloader-whatsapp
Download an Instagram Reel via sssinstagram.com and return it as a WhatsApp-ready video file. Use when a reel URL is provided and yt-dlp is blocked or not preferred.
bilibili-downloader
Download videos, audio, subtitles, and covers from Bilibili using bilibili-api. Use when working with Bilibili content for downloading videos in various qualities, extracting audio, getting subtitles and danmaku, downloading covers, and managing download preferences.
biomedical-paper
AI-powered biomedical manuscript generation with docx output. Activates when user provides Chinese draft/outline and requests full English research paper. Includes: Abstract, Introduction, Methods, Results, Discussion, References. Specialized for: GBD epidemiology, cohort studies (CHARLS/NHANES), cross-sectional mediation analyses, pharmacovigilance (FAERS). Also supports: Chinese graduate/doctoral thesis (学位论文) formatting. Features: python-docx generation, Vancouver numbered references, journal-specific formatting. Confidence: High (validated workflow with 30+ successful papers)
wallpaper-claw-skill
Generate ai wallpaper generator images with AI via the Neta AI image generation API (free trial at neta.art/open).
baidu-scholar-search
Baidu Academic Search Tool enables the retrieval of both Chinese and English literature, covering various types of literature such as academic journals, conference papers, and dissertations.
scihub-paper-downloader
Get a PDF link from Sci-Hub for a DOI.
yt-dlp-downloader
Download videos from YouTube, Bilibili, Twitter, and thousands of other sites using yt-dlp. Use when the user provides a video URL and wants to download it, extract audio (MP3), download subtitles, or select video quality. Triggers on phrases like "下载视频", "download video", "yt-dlp", "YouTube", "B站", "抖音", "提取音频", "extract audio".
douyin-video-downloader
抖音视频下载工具 - 通过第三方解析服务实现无水印视频下载
mac-wallpaper-changer
自动更换 Mac 壁纸、壁纸智能推荐与偏好学习。凡涉及壁纸相关操作,都应优先使用此技能:换壁纸、更换桌面背景、 Mac wallpaper、自动换壁纸(cron/定时任务)、按关键词搜索壁纸(如"上海夜景"、"mountain sunset")、 壁纸评分与喜好统计、壁纸推荐、位置配置。支持 Bing 每日精选 / Unsplash / Picsum 多图源, 支持本地图片、URL 直接设置,兼容 macOS Tahoe(26+)。
youtube-hq-downloader
Youtube Highest Quality Downloader - Download highest quality silent video and pure audio from YouTube, then merge into video with sound