Best use case
ocr-scan-recognition is best used when you need a repeatable AI agent workflow instead of a one-off prompt.
用于影像文字识别的OCR扫描件识别原子 skill,适用于通用行业文档解析场景。
Teams using ocr-scan-recognition should expect a more consistent output, faster repeated execution, less prompt rewriting.
When to use this skill
- You want a reusable workflow that can be run more than once with consistent structure.
When not to use this skill
- You only need a quick one-off answer and do not need a reusable workflow.
- You cannot install or maintain the underlying files, dependencies, or repository context.
Installation
Claude Code / Cursor / Codex
Manual Installation
- Download SKILL.md from GitHub
- Place it in
.claude/skills/ocr-scan-recognition/SKILL.mdinside your project - Restart your AI agent — it will auto-discover the skill
How ocr-scan-recognition Compares
| Feature / Agent | ocr-scan-recognition | Standard Approach |
|---|---|---|
| Platform Support | Not specified | Limited / Varies |
| Context Awareness | High | Baseline |
| Installation Complexity | Unknown | N/A |
Frequently Asked Questions
What does this skill do?
用于影像文字识别的OCR扫描件识别原子 skill,适用于通用行业文档解析场景。
Where can I find the source code?
You can find the source code on GitHub using the link provided at the top of the page.
SKILL.md Source
# OCR扫描件识别 Skill
## 数据来源
本 Skill 支持多种扫描件输入格式,核心数据来源包括:
### 1. 扫描件文件类型
- **图片格式**:PNG、JPG、JPEG、TIFF、BMP等
- **PDF格式**:扫描版PDF文档
- **多页文档**:多页扫描文档、批量扫描文件
### 2. 扫描件类型
- **文档扫描件**:合同、报告、证书等文档扫描件
- **表格扫描件**:财务报表、数据表格扫描件
- **手写文档**:手写文字、签名、批注
- **印刷文档**:印刷文字、书籍、报纸
### 3. 扫描件特征
- **扫描质量**:清晰度、分辨率、对比度
- **文档类型**:单页文档、多页文档、装订文档
- **语言类型**:中文、英文、多语言混合
- **版式类型**:标准版式、复杂版式、手写版式
### 4. 数据格式要求
- **文件路径**:本地文件路径或网络文件URL
- **图片格式**:支持常见图片格式
- **文件权限**:需要读取权限
> 说明:本 Skill 不包含扫描件采集功能,需要用户提供扫描件文件。建议扫描件清晰且分辨率足够,以便进行准确的OCR识别。
---
## 功能
本 Skill 提供全面的OCR扫描件识别能力,涵盖多种识别功能:
### 1. 文字识别
- **印刷文字识别**:识别印刷体文字
- **手写文字识别**:识别手写体文字
- **多语言识别**:识别中文、英文等多种语言
- **特殊字符识别**:识别数字、符号、公式等
### 2. 版面分析
- **版面结构识别**:识别文档的版面结构
- **段落识别**:识别段落和段落边界
- **行识别**:识别文本行和行间距
- **列识别**:识别多列布局和列边界
### 3. 表格识别
- **表格检测**:检测扫描件中的表格
- **表格结构识别**:识别表格的行列结构
- **表格内容提取**:提取表格的文字内容
- **表格数据重建**:重建表格的数据结构
### 4. 图像处理
- **图像预处理**:去噪、二值化、倾斜校正
- **图像增强**:对比度增强、清晰度提升
- **图像分割**:文档分割、区域分割
- **图像质量评估**:评估图像质量和识别难度
### 5. 格式保留
- **格式信息保留**:保留字体、字号等格式信息
- **版式还原**:尽可能还原原始版式
- **位置信息记录**:记录文字在页面中的位置
- **布局信息提取**:提取页面布局信息
### 6. 高级处理功能
- **批量识别**:批量处理多个扫描件
- **识别结果校正**:自动校正识别错误
- **置信度评估**:评估识别结果的置信度
- **结构化输出**:输出结构化的识别结果
---
## 使用示例
### 输出示例
```json
{
"document_info": {
"filename": "scanned_document.pdf",
"file_size": 2048000,
"page_count": 5,
"format": "pdf",
"resolution": 300
},
"ocr_results": [
{
"page": 1,
"regions": [
{
"region_id": 1,
"type": "text",
"bbox": [100, 200, 500, 300],
"text": "2024年度财务报告",
"confidence": 0.98,
"language": "zh-CN"
},
{
"region_id": 2,
"type": "table",
"bbox": [100, 350, 500, 600],
"table_structure": {
"rows": 10,
"columns": 5,
"data": [
["项目", "2024年", "2023年", "2022年", "2021年"],
["营业收入", "1000", "900", "800", "700"]
]
},
"confidence": 0.95
}
],
"full_text": "2024年度财务报告\n\n项目\t2024年\t2023年\t2022年\t2021年\n营业收入\t1000\t900\t800\t700\n...",
"layout": {
"width": 2100,
"height": 2970,
"orientation": "portrait"
}
}
],
"statistics": {
"total_pages": 5,
"total_text_regions": 25,
"total_table_regions": 3,
"average_confidence": 0.94,
"languages": ["zh-CN"]
},
"quality_assessment": {
"overall_quality": "good",
"clarity_score": 0.92,
"contrast_score": 0.88,
"recommendations": []
}
}
```
---
## 注意事项与限制
### 1. 扫描质量要求
- 高分辨率清晰扫描件识别准确率较高
- 低分辨率或模糊扫描件可能影响识别
- 建议扫描分辨率不低于300 DPI
### 2. 识别准确性
- 印刷文字识别准确率较高
- 手写文字识别准确率相对较低
- 特殊字体可能影响识别
### 3. 版面复杂度
- 标准版式识别准确率较高
- 复杂版式可能影响识别
- 手绘表格识别可能有限
### 4. 语言支持
- 中文和英文识别准确率较高
- 其他语言识别准确率可能较低
- 多语言混合可能影响识别
### 5. 使用限制
- 本 Skill 不包含图像编辑功能
- 识别结果需要人工复核
- 低质量扫描件可能需要预处理
---
## 参考资料
- 见 references/ 目录中的相关文档,包括:
- OCR识别方法手册
- 图像预处理算法说明
- 多语言识别指南
- 性能优化指南Related Skills
sentiment-scan
用于信托领域项目尽调中的舆情扫描助手场景。支持结构化输入处理、规则分析与Markdown结果输出。
pre-loan-risk-scanning-assistant
当用户需要在银行风控场景下,对授信申请、贷款申请、客户准入或贷前审查进行快速风险扫描、红旗识别、待核验事项梳理、补充调查建议和初步风险结论输出时,使用本技能。 适用于公司金融、零售金融、小微信贷、经营贷、消费贷等场景,尤其适合“先快速扫一遍风险,再决定是否进入深度尽调/审批”的任务。
litigation-penalty-scan
用于信托领域项目尽调中的诉讼处罚扫描助手场景。支持结构化输入处理、规则分析与Markdown结果输出。
bank-t196-risk-management-pre-loan-scan-assistant
当用户需要在银行风险管理场景下,围绕贷前扫描做初筛、尽调准备或审批前风险梳理时使用本技能,输出可直接用于风控与预警团队的结构化判断、待补资料清单和下一步处置建议。
entity-recognition
用于金融文本中实体识别的原子技能,包括公司主体、金融产品、监管机构、关键人物等实体类型的识别和抽取。适用于公告解析、报告分析、风险监控和合规检查等金融场景。
chart-element-recognition
用于图表理解的图表元素识别原子 skill,适用于通用行业文档解析场景。
trust-valuation-engine
## 描述
trust-risk-manager
## 描述
trust-product-analyzer
## 描述
trust-income-calculator
## 描述
trust-compliance-checker
## 描述
trust-asset-allocation
## 描述