ocr-scan-recognition

用于影像文字识别的OCR扫描件识别原子 skill，适用于通用行业文档解析场景。

105 stars

Best use case

ocr-scan-recognition is best used when you need a repeatable AI agent workflow instead of a one-off prompt.

用于影像文字识别的OCR扫描件识别原子 skill，适用于通用行业文档解析场景。

Teams using ocr-scan-recognition should expect a more consistent output, faster repeated execution, less prompt rewriting.

When to use this skill

You want a reusable workflow that can be run more than once with consistent structure.

When not to use this skill

You only need a quick one-off answer and do not need a reusable workflow.
You cannot install or maintain the underlying files, dependencies, or repository context.

Installation

Claude Code / Cursor / Codex

$curl -o ~/.claude/skills/ocr-scan-recognition/SKILL.md --create-dirs "https://raw.githubusercontent.com/aifinlab/FinClaw/main/skills/archive/ocr-scan-recognition/SKILL.md"

Manual Installation

Download SKILL.md from GitHub
Place it in .claude/skills/ocr-scan-recognition/SKILL.md inside your project
Restart your AI agent — it will auto-discover the skill

How ocr-scan-recognition Compares

Feature / Agent	ocr-scan-recognition	Standard Approach
Platform Support	Not specified	Limited / Varies
Context Awareness	High	Baseline
Installation Complexity	Unknown	N/A

Frequently Asked Questions

What does this skill do?

用于影像文字识别的OCR扫描件识别原子 skill，适用于通用行业文档解析场景。

Where can I find the source code?

You can find the source code on GitHub using the link provided at the top of the page.

SKILL.md Source

# OCR扫描件识别 Skill

## 数据来源

本 Skill 支持多种扫描件输入格式，核心数据来源包括：

### 1. 扫描件文件类型
- **图片格式**：PNG、JPG、JPEG、TIFF、BMP等
- **PDF格式**：扫描版PDF文档
- **多页文档**：多页扫描文档、批量扫描文件

### 2. 扫描件类型
- **文档扫描件**：合同、报告、证书等文档扫描件
- **表格扫描件**：财务报表、数据表格扫描件
- **手写文档**：手写文字、签名、批注
- **印刷文档**：印刷文字、书籍、报纸

### 3. 扫描件特征
- **扫描质量**：清晰度、分辨率、对比度
- **文档类型**：单页文档、多页文档、装订文档
- **语言类型**：中文、英文、多语言混合
- **版式类型**：标准版式、复杂版式、手写版式

### 4. 数据格式要求
- **文件路径**：本地文件路径或网络文件URL
- **图片格式**：支持常见图片格式
- **文件权限**：需要读取权限

> 说明：本 Skill 不包含扫描件采集功能，需要用户提供扫描件文件。建议扫描件清晰且分辨率足够，以便进行准确的OCR识别。

---

## 功能

本 Skill 提供全面的OCR扫描件识别能力，涵盖多种识别功能：

### 1. 文字识别
- **印刷文字识别**：识别印刷体文字
- **手写文字识别**：识别手写体文字
- **多语言识别**：识别中文、英文等多种语言
- **特殊字符识别**：识别数字、符号、公式等

### 2. 版面分析
- **版面结构识别**：识别文档的版面结构
- **段落识别**：识别段落和段落边界
- **行识别**：识别文本行和行间距
- **列识别**：识别多列布局和列边界

### 3. 表格识别
- **表格检测**：检测扫描件中的表格
- **表格结构识别**：识别表格的行列结构
- **表格内容提取**：提取表格的文字内容
- **表格数据重建**：重建表格的数据结构

### 4. 图像处理
- **图像预处理**：去噪、二值化、倾斜校正
- **图像增强**：对比度增强、清晰度提升
- **图像分割**：文档分割、区域分割
- **图像质量评估**：评估图像质量和识别难度

### 5. 格式保留
- **格式信息保留**：保留字体、字号等格式信息
- **版式还原**：尽可能还原原始版式
- **位置信息记录**：记录文字在页面中的位置
- **布局信息提取**：提取页面布局信息

### 6. 高级处理功能
- **批量识别**：批量处理多个扫描件
- **识别结果校正**：自动校正识别错误
- **置信度评估**：评估识别结果的置信度
- **结构化输出**：输出结构化的识别结果

---

## 使用示例

### 输出示例
```json
{
  "document_info": {
    "filename": "scanned_document.pdf",
    "file_size": 2048000,
    "page_count": 5,
    "format": "pdf",
    "resolution": 300
  },
  "ocr_results": [
    {
      "page": 1,
      "regions": [
        {
          "region_id": 1,
          "type": "text",
          "bbox": [100, 200, 500, 300],
          "text": "2024年度财务报告",
          "confidence": 0.98,
          "language": "zh-CN"
        },
        {
          "region_id": 2,
          "type": "table",
          "bbox": [100, 350, 500, 600],
          "table_structure": {
            "rows": 10,
            "columns": 5,
            "data": [
              ["项目", "2024年", "2023年", "2022年", "2021年"],
              ["营业收入", "1000", "900", "800", "700"]
            ]
          },
          "confidence": 0.95
        }
      ],
      "full_text": "2024年度财务报告\n\n项目\t2024年\t2023年\t2022年\t2021年\n营业收入\t1000\t900\t800\t700\n...",
      "layout": {
        "width": 2100,
        "height": 2970,
        "orientation": "portrait"
      }
    }
  ],
  "statistics": {
    "total_pages": 5,
    "total_text_regions": 25,
    "total_table_regions": 3,
    "average_confidence": 0.94,
    "languages": ["zh-CN"]
  },
  "quality_assessment": {
    "overall_quality": "good",
    "clarity_score": 0.92,
    "contrast_score": 0.88,
    "recommendations": []
  }
}
```

---

## 注意事项与限制

### 1. 扫描质量要求
- 高分辨率清晰扫描件识别准确率较高
- 低分辨率或模糊扫描件可能影响识别
- 建议扫描分辨率不低于300 DPI

### 2. 识别准确性
- 印刷文字识别准确率较高
- 手写文字识别准确率相对较低
- 特殊字体可能影响识别

### 3. 版面复杂度
- 标准版式识别准确率较高
- 复杂版式可能影响识别
- 手绘表格识别可能有限

### 4. 语言支持
- 中文和英文识别准确率较高
- 其他语言识别准确率可能较低
- 多语言混合可能影响识别

### 5. 使用限制
- 本 Skill 不包含图像编辑功能
- 识别结果需要人工复核
- 低质量扫描件可能需要预处理

---

## 参考资料
- 见 references/ 目录中的相关文档，包括：
  - OCR识别方法手册
  - 图像预处理算法说明
  - 多语言识别指南
  - 性能优化指南