semi-structured-data-ingestion

用于Excel/表单接入的半结构化数据接入原子 skill，适用于通用行业数据接入场景。

105 stars

Best use case

semi-structured-data-ingestion is best used when you need a repeatable AI agent workflow instead of a one-off prompt.

用于Excel/表单接入的半结构化数据接入原子 skill，适用于通用行业数据接入场景。

Teams using semi-structured-data-ingestion should expect a more consistent output, faster repeated execution, less prompt rewriting.

When to use this skill

You want a reusable workflow that can be run more than once with consistent structure.

When not to use this skill

You only need a quick one-off answer and do not need a reusable workflow.
You cannot install or maintain the underlying files, dependencies, or repository context.

Installation

Claude Code / Cursor / Codex

$curl -o ~/.claude/skills/semi-structured-data-ingestion/SKILL.md --create-dirs "https://raw.githubusercontent.com/aifinlab/FinClaw/main/skills/archive/semi-structured-data-ingestion/SKILL.md"

Manual Installation

Download SKILL.md from GitHub
Place it in .claude/skills/semi-structured-data-ingestion/SKILL.md inside your project
Restart your AI agent — it will auto-discover the skill

How semi-structured-data-ingestion Compares

Feature / Agent	semi-structured-data-ingestion	Standard Approach
Platform Support	Not specified	Limited / Varies
Context Awareness	High	Baseline
Installation Complexity	Unknown	N/A

Frequently Asked Questions

What does this skill do?

用于Excel/表单接入的半结构化数据接入原子 skill，适用于通用行业数据接入场景。

Where can I find the source code?

You can find the source code on GitHub using the link provided at the top of the page.

SKILL.md Source

# 半结构化数据接入 Skill

## 数据来源

本 Skill 支持多种半结构化数据源输入格式，核心数据来源包括：

### 1. 数据源类型
- **Excel文件**：.xls、.xlsx格式的Excel文件
- **表单数据**：在线表单、调查表单、登记表单
- **JSON文件**：JSON格式的半结构化数据
- **XML文件**：XML格式的半结构化数据

### 2. 数据结构类型
- **表格数据**：Excel表格、CSV表格
- **表单数据**：表单提交数据、表单响应数据
- **嵌套数据**：嵌套JSON、嵌套XML
- **混合数据**：混合格式数据

### 3. 数据格式要求
- **文件路径**：本地文件路径或网络文件URL
- **文件格式**：Excel、JSON、XML等格式
- **文件编码**：UTF-8、GBK、GB2312等
- **文件权限**：需要读取权限

### 4. 数据特征
- **数据规模**：小数据集（<1万条）、大数据集（>10万条）
- **数据结构**：规则结构、不规则结构
- **数据完整性**：完整数据、部分数据
- **数据质量**：高质量数据、低质量数据

> 说明：本 Skill 不包含数据采集功能，需要用户提供半结构化数据文件。建议数据格式规范，以便进行准确的数据接入。

---

## 功能

本 Skill 提供全面的半结构化数据接入能力，涵盖多种接入功能：

### 1. 文件读取
- **Excel读取**：读取Excel文件数据
- **JSON读取**：读取JSON文件数据
- **XML读取**：读取XML文件数据
- **文件格式识别**：自动识别文件格式

### 2. 数据结构解析
- **表格结构解析**：解析表格的行列结构
- **嵌套结构解析**：解析嵌套数据结构
- **结构识别**：识别数据结构模式
- **结构标准化**：标准化数据结构

### 3. 数据提取
- **数据提取**：从文件中提取数据
- **多工作表提取**：提取Excel多个工作表数据
- **选择性提取**：选择性提取指定数据
- **批量提取**：批量提取多个文件数据

### 4. 数据转换
- **格式转换**：转换数据格式
- **结构转换**：转换数据结构
- **编码转换**：转换数据编码
- **类型转换**：转换数据类型

### 5. 数据验证
- **数据完整性验证**：验证数据的完整性
- **数据准确性验证**：验证数据的准确性
- **数据一致性验证**：验证数据的一致性
- **数据质量评估**：评估数据的质量

### 6. 高级处理功能
- **数据清洗**：清洗数据中的问题
- **数据补全**：补全缺失的数据
- **数据标准化**：标准化数据格式
- **接入报告**：生成数据接入报告

---

## 使用示例

### 输出示例
```json
{
  "source_info": {
    "source_type": "excel_file",
    "source_file": "financial_data.xlsx",
    "file_size": 2048000,
    "sheet_count": 3
  },
  "ingestion_config": {
    "sheets": ["利润表", "资产负债表", "现金流量表"],
    "header_row": 1,
    "data_start_row": 2,
    "encoding": "UTF-8"
  },
  "ingestion_results": {
    "total_sheets": 3,
    "total_records": 5000,
    "successful_records": 4950,
    "failed_records": 50,
    "ingestion_time": "2024-03-15T10:00:00",
    "duration": "45s"
  },
  "data_structure": {
    "sheets": [
      {
        "sheet_name": "利润表",
        "row_count": 30,
        "column_count": 5,
        "headers": ["项目", "2024年", "2023年", "2022年", "2021年"],
        "data_records": 28
      }
    ]
  },
  "data_sample": [
    {
      "sheet": "利润表",
      "row": 2,
      "data": {
        "项目": "营业收入",
        "2024年": 1000000000,
        "2023年": 900000000,
        "2022年": 800000000,
        "2021年": 700000000
      }
    }
  ],
  "data_quality": {
    "completeness": 0.99,
    "accuracy": 0.97,
    "consistency": 0.96,
    "overall_score": 0.97
  },
  "statistics": {
    "files_processed": 1,
    "records_ingested": 4950,
    "records_failed": 50,
    "success_rate": 0.99
  }
}
```

---

## 注意事项与限制

### 1. 文件格式要求
- 标准格式文件接入准确率较高
- 非标准格式可能影响接入
- 文件损坏可能无法读取

### 2. 数据结构识别
- 规则结构识别准确率较高
- 不规则结构可能需要人工处理
- 复杂结构可能需要特殊处理

### 3. 数据提取准确性
- 标准表格提取准确率较高
- 复杂表格可能需要人工处理
- 合并单元格可能影响提取

### 4. 数据质量
- 数据质量影响接入结果
- 需要验证数据完整性
- 异常数据需要处理

### 5. 使用限制
- 本 Skill 不包含文件编辑功能
- 接入结果需要人工复核
- 复杂文件可能需要人工处理

---

## 参考资料
- 见 references/ 目录中的相关文档，包括：
  - 半结构化数据接入方法手册
  - Excel文件解析指南
  - JSON/XML解析说明
  - 性能优化指南

Related Skills

zhitu-data

105

from aifinlab/FinClaw

智兔数服数据Skill - 免注册A股/港股/基金实时行情、历史K线、技术指标 via 智兔数服

pysnowball-data

105

from aifinlab/FinClaw

雪球（Snowball）金融数据接口，提供 A 股/港股/美股实时行情、财务报表（资产负债/利润/现金流）、估值指标、资金流向、行业对比、基金净值、可转债、指数数据。当用户需要雪球数据、跨市场行情（A/港/美）、财务报表详情、或雪球独有的业务分析数据时使用此 skill。pysnowball 的独特优势：(1)跨市场覆盖（A/港/美）(2)财务三表完整数据 (3)行业对比分析 (4)机构持仓变动。注意：部分高级接口需要雪球 token，基础行情（quotec）无需 token。

fred-data

105

from aifinlab/FinClaw

美联储 FRED 经济数据库接口，提供美国 GDP、CPI、就业、利率、通胀等核心经济指标。当用户需要查询美国经济数据时使用。

efinance-data

105

from aifinlab/FinClaw

efinance 中国金融市场数据获取工具，封装 A 股行情、资金流向、龙虎榜、十大股东、业绩报表、基金净值持仓、可转债、期货等数据接口。当用户需要获取 A 股实时行情、个股资金流、主力动向、龙虎榜、十大股东变动、业绩数据、基金净值或持仓、可转债或期货行情时使用此 skill。也适用于需要中国金融市场数据来支撑投研分析、个股研究、行业对比、资产配置等场景。与 akshare-finance 互补，efinance 在资金流分层（主力/大单/超大单）和实时行情字段丰富度上更有优势。

ecb-data

105

from aifinlab/FinClaw

欧央行（ECB）经济数据查询，提供欧元区基准利率、CPI、GDP 及主要成员国经济数据。当用户需要查询欧洲经济数据或欧央行政策时使用。

dd-data-gap-alert

105

from aifinlab/FinClaw

用于信托领域项目尽调中的尽调资料缺口提示助手场景。支持结构化输入处理、规则分析与Markdown结果输出。

data-consistency-check

105

from aifinlab/FinClaw

用于信托领域合规与运营中的数据一致性核验助手场景，支持结构化处理与报告输出。

data-cleaner

105

from aifinlab/FinClaw

金融数据清洗与异常检测工具，提供缺失值处理、去重、异常值检测、数据标准化等功能。当用户需要对原始金融数据进行预处理时使用。

cn-stock-data

105

from aifinlab/FinClaw

中国A股/港股/美股统一数据抽象层。屏蔽 akshare/efinance/adata/pysnowball/ashare 五个数据源的 API 差异，提供统一代码格式（SH600519）、统一字段名（英文 snake_case）、智能路由和自动 Fallback。当用户需要获取股票行情、实时报价、资金流向、财务指标、北向资金等金融数据时使用此 skill。

boj-data

105

from aifinlab/FinClaw

日本央行（BOJ）经济数据查询，提供日本基准利率、CPI、GDP、货币政策等宏观数据。当用户需要查询日本经济数据或日央行政策时使用。

bank-t241-transaction-banking-inclusive-finance-data-validation-assistant

105

from aifinlab/FinClaw

当用户需要在银行交易银行与普惠场景下，围绕数据核验进行完整性、一致性、真实性或规则符合性检查时使用本技能。适合输出核验结论、异常项清单、补件要求和升级复核建议。

ashare-data

105

from aifinlab/FinClaw

Ashare 最轻量 A 股行情获取工具（3.2k Stars），基于新浪+腾讯双核心数据源，零依赖（仅需 requests+pandas），无需注册，支持日/周/月线及 1m/5m/15m/30m/60m 分钟级K线。当用户需要快速获取 A 股/指数行情而其他数据源不可用时，Ashare 是最可靠的回退方案——它使用新浪为主、腾讯为备的双核心架构，自动切换，极少出错。