data-exploration-visualization
自动化数据探索和可视化工具,提供从数据加载到专业报告生成的完整EDA解决方案。支持多种图表类型、智能数据诊断、建模评估和HTML报告生成。适用于医疗、金融、电商等领域的数据分析项目。
Best use case
data-exploration-visualization is best used when you need a repeatable AI agent workflow instead of a one-off prompt.
自动化数据探索和可视化工具,提供从数据加载到专业报告生成的完整EDA解决方案。支持多种图表类型、智能数据诊断、建模评估和HTML报告生成。适用于医疗、金融、电商等领域的数据分析项目。
Teams using data-exploration-visualization should expect a more consistent output, faster repeated execution, less prompt rewriting.
When to use this skill
- You want a reusable workflow that can be run more than once with consistent structure.
When not to use this skill
- You only need a quick one-off answer and do not need a reusable workflow.
- You cannot install or maintain the underlying files, dependencies, or repository context.
Installation
Claude Code / Cursor / Codex
Manual Installation
- Download SKILL.md from GitHub
- Place it in
.claude/skills/data-exploration-visualization/SKILL.mdinside your project - Restart your AI agent — it will auto-discover the skill
How data-exploration-visualization Compares
| Feature / Agent | data-exploration-visualization | Standard Approach |
|---|---|---|
| Platform Support | Not specified | Limited / Varies |
| Context Awareness | High | Baseline |
| Installation Complexity | Unknown | N/A |
Frequently Asked Questions
What does this skill do?
自动化数据探索和可视化工具,提供从数据加载到专业报告生成的完整EDA解决方案。支持多种图表类型、智能数据诊断、建模评估和HTML报告生成。适用于医疗、金融、电商等领域的数据分析项目。
Where can I find the source code?
You can find the source code on GitHub using the link provided at the top of the page.
SKILL.md Source
# 数据探索可视化技能
## 技能概述
数据探索可视化技能是一个基于《数据分析咖哥十话》第2课理论的自动化EDA工具包,提供从数据加载到专业分析报告生成的完整解决方案。该技能集成了最先进的数据探索、可视化和机器学习技术,帮助用户快速深入理解数据特征和规律。
## 核心功能
### 🔍 智能数据探索
- **自动数据诊断**: 检测数据质量问题、异常值和缺失值模式
- **统计描述分析**: 生成全面的统计摘要和分布特征
- **相关性分析**: 识别特征间关系和依赖模式
- **数据质量报告**: 专业级数据质量评估和建议
### 📊 专业可视化生成
- **分布可视化**: 直方图、密度图、小提琴图、QQ图
- **统计可视化**: 箱线图、误差条图、置信区间图
- **关系可视化**: 散点图、热图、配对图、3D散点图
- **专门图表**: ROC曲线、混淆矩阵、特征重要性图
- **交互式图表**: Plotly驱动的动态可视化
### 🏥 医疗数据专精
- **医疗编码支持**: ICD-10、SNOMED CT等医疗标准
- **生物标记物分析**: 专门的医学指标处理
- **诊断模型构建**: 医疗预测模型和评估
- **医学可解释性**: 符合医学实践的解释框架
### 🤖 自动化建模评估
- **多算法支持**: 逻辑回归、随机森林、XGBoost、神经网络
- **自动特征工程**: 特征选择、转换和优化
- **超参数调优**: 网格搜索和贝叶斯优化
- **模型可解释性**: SHAP值、特征重要性、部分依赖图
### 📋 专业报告生成
- **HTML报告**: 可发表级交互式分析报告
- **PDF导出**: 高质量文档格式输出
- **Markdown支持**: 轻量级报告格式
- **自定义模板**: 可配置的报告模板系统
## 使用场景
### 🏥 医疗健康领域
- **疾病预测**: 基于临床数据的疾病风险预测
- **诊断辅助**: 医学影像和检验结果分析
- **流行病学研究**: 疫情数据分析和趋势预测
- **临床试验**: 试验数据统计分析和可视化
### 💰 金融风控领域
- **信用评估**: 个人和企业信用风险建模
- **欺诈检测**: 异常交易模式识别
- **投资分析**: 市场趋势和风险评估
- **合规报告**: 监管要求的分析报告
### 🛒 电商零售领域
- **用户分析**: 客户行为和偏好分析
- **销售预测**: 销量预测和库存优化
- **推荐系统**: 个性化推荐算法评估
- **市场细分**: 客户群体分析和画像
### 🎓 科研教育领域
- **学术研究**: 数据驱动的学术研究支持
- **教学案例**: 数据分析教学和实践
- **论文写作**: 研究数据分析和图表制作
- **技能培训**: 数据科学技能培训工具
## 工具使用指南
### 快速开始
1. **基础数据探索**
```python
from scripts.eda_analyzer import EDAAnalyzer
# 初始化分析器
analyzer = EDAAnalyzer()
# 加载数据并自动分析
data = analyzer.load_data('data.csv')
report = analyzer.auto_eda(data)
```
2. **可视化生成**
```python
from scripts.visualizer import DataVisualizer
# 初始化可视化器
visualizer = DataVisualizer()
# 自动生成所有图表
charts = visualizer.auto_visualize(data)
# 生成特定类型图表
dist_plot = visualizer.plot_distribution(data, 'column_name')
corr_heatmap = visualizer.plot_correlation(data)
```
3. **建模评估**
```python
from scripts.modeling_evaluator import ModelingEvaluator
# 初始化建模器
modeler = ModelingEvaluator()
# 自动建模和评估
results = modeler.auto_modeling(
data=data,
target_col='target',
algorithms=['logistic', 'rf', 'xgboost']
)
```
4. **报告生成**
```python
from scripts.report_generator import ReportGenerator
# 生成完整报告
generator = ReportGenerator()
report = generator.generate_comprehensive_report(
data=data,
model_results=model_results,
output_path='analysis_report.html'
)
```
### 高级功能
1. **医疗数据分析**
```python
# 医疗数据特殊处理
from scripts.medical_analyzer import MedicalDataAnalyzer
medical_analyzer = MedicalDataAnalyzer()
medical_report = medical_analyzer.analyze_medical_data(
data=medical_df,
diagnosis_col='diagnosis',
biomarker_cols=['biomarker1', 'biomarker2']
)
```
2. **交互式仪表板**
```python
# 生成交互式仪表板
dashboard = visualizer.create_dashboard(
data=data,
charts=['distribution', 'correlation', 'model_performance']
)
```
3. **批量数据处理**
```python
# 批量分析多个数据集
batch_results = analyzer.batch_analyze(
data_files=['data1.csv', 'data2.csv'],
analysis_types=['eda', 'modeling', 'visualization']
)
```
## 技术依赖
### 核心库
- **pandas** (>=1.3.0): 数据处理和分析
- **numpy** (>=1.20.0): 数值计算
- **scikit-learn** (>=1.0.0): 机器学习算法
- **xgboost** (>=1.5.0): 梯度提升算法
### 可视化库
- **matplotlib** (>=3.4.0): 基础绘图
- **seaborn** (>=0.11.0): 统计可视化
- **plotly** (>=5.0.0): 交互式图表
### 统计分析库
- **scipy** (>=1.7.0): 科学计算
- **statsmodels** (>=0.13.0): 统计建模
### 报告生成
- **jinja2** (>=3.0.0): 模板引擎
- **weasyprint**: PDF生成
## 最佳实践
### 数据准备
- 确保数据格式规范(CSV、Excel等)
- 检查数据编码,避免中文乱码
- 处理缺失值和异常值
- 验证数据类型和格式
### 分析流程
1. **数据加载和检查**: 确认数据质量和完整性
2. **探索性分析**: 了解数据基本特征和分布
3. **可视化探索**: 通过图表发现数据模式
4. **预处理**: 数据清洗和特征工程
5. **建模分析**: 构建和评估预测模型
6. **结果解释**: 提取洞察和业务建议
7. **报告生成**: 创建专业分析报告
### 可视化选择
- **单变量分析**: 直方图、箱线图、小提琴图
- **双变量分析**: 散点图、分组箱线图
- **多变量分析**: 热图、配对图、3D图
- **时间序列**: 时间线图、趋势图
- **地理数据**: 地图可视化
## 示例数据
### 医疗数据示例
```python
# 乳腺检查数据示例
medical_data = {
'patient_id': ['P001', 'P002', ...],
'diagnosis': ['Malignant', 'Benign', ...],
'radius_mean': [17.99, 20.57, ...],
'texture_mean': [10.38, 17.77, ...],
'perimeter_mean': [122.8, 132.9, ...]
}
```
### 金融数据示例
```python
# 信用评分数据示例
financial_data = {
'customer_id': ['C001', 'C002', ...],
'credit_score': [720, 680, ...],
'income': [85000, 62000, ...],
'debt_ratio': [0.15, 0.32, ...],
'default': [0, 1, ...]
}
```
## 常见问题
### Q: 如何处理中文数据?
A: 技能自动检测和处理中文编码,支持UTF-8、GBK等多种编码格式。
### Q: 支持哪些数据格式?
A: 支持CSV、Excel、JSON、Parquet等常见格式,也支持数据库连接。
### Q: 如何自定义可视化样式?
A: 可以通过配置文件自定义颜色、字体、图表布局等样式参数。
### Q: 模型准确性如何保证?
A: 技能采用交叉验证、多种评估指标和集成方法来确保模型的可靠性和泛化能力。
## 技能特色
✅ **智能化程度高** - 90%的EDA工作自动化
✅ **专业性突出** - 医疗数据专精处理
✅ **可视化丰富** - 20+种专业图表类型
✅ **建模能力强** - 多算法集成和自动调优
✅ **报告质量高** - 可发表级分析报告
✅ **易用性好** - 简单API,复杂流程自动化
✅ **扩展性强** - 模块化设计,易于定制扩展
## 更新日志
### v1.0.0 (2025-01-19)
- 初始版本发布
- 完整的EDA功能
- 基础可视化支持
- 逻辑回归建模
- HTML报告生成
### 未来计划
- 支持更多机器学习算法
- 增加深度学习模型支持
- 扩展医疗数据分析功能
- 云端部署支持
- 实时数据分析能力
通过这个技能,您可以大幅提升数据分析效率,从重复性工作中解放出来,专注于洞察发现和决策支持。Related Skills
zinc-database
Access ZINC (230M+ purchasable compounds). Search by ZINC ID/SMILES, similarity searches, 3D-ready structures for docking, analog discovery, for virtual screening and drug discovery.
visualization-best-practices
Visualization Best Practices - Auto-activating skill for Data Analytics. Triggers on: visualization best practices, visualization best practices Part of the Data Analytics skill category.
uspto-database
Access USPTO APIs for patent/trademark searches, examination history (PEDS), assignments, citations, office actions, TSDR, for IP analysis and prior art searches.
usfiscaldata
Query the U.S. Treasury Fiscal Data API for federal financial data including national debt, government spending, revenue, interest rates, exchange rates, and savings bonds. Access 54 datasets and 182 data tables with no API key required. Use when working with U.S. federal fiscal data, national debt tracking (Debt to the Penny), Daily Treasury Statements, Monthly Treasury Statements, Treasury securities auctions, interest rates on Treasury securities, foreign exchange rates, savings bonds, or any U.S. government financial statistics.
uniprot-database
Direct REST API access to UniProt. Protein searches, FASTA retrieval, ID mapping, Swiss-Prot/TrEMBL. For Python workflows with multiple databases, prefer bioservices (unified interface to 40+ services). Use this for direct HTTP/REST work or UniProt-specific control.
string-database
Query STRING API for protein-protein interactions (59M proteins, 20B interactions). Network analysis, GO/KEGG enrichment, interaction discovery, 5000+ species, for systems biology.
splitting-datasets
Process split datasets into training, validation, and testing sets for ML model development. Use when requesting "split dataset", "train-test split", or "data partitioning". Trigger with relevant phrases based on skill purpose.
senior-data-scientist
World-class data science skill for statistical modeling, experimentation, causal inference, and advanced analytics. Expertise in Python (NumPy, Pandas, Scikit-learn), R, SQL, statistical methods, A/B testing, time series, and business intelligence. Includes experiment design, feature engineering, model evaluation, and stakeholder communication. Use when designing experiments, building predictive models, performing causal analysis, or driving data-driven decisions.
scientific-visualization
Create publication figures with matplotlib/seaborn/plotly. Multi-panel layouts, error bars, significance markers, colorblind-safe, export PDF/EPS/TIFF, for journal-ready scientific plots.
reactome-database
Query Reactome REST API for pathway analysis, enrichment, gene-pathway mapping, disease pathways, molecular interactions, expression analysis, for systems biology studies.
pubmed-database
Direct REST API access to PubMed. Advanced Boolean/MeSH queries, E-utilities API, batch processing, citation management. For Python workflows, prefer biopython (Bio.Entrez). Use this for direct HTTP/REST work or custom API implementations.
pubchem-database
Query PubChem via PUG-REST API/PubChemPy (110M+ compounds). Search by name/CID/SMILES, retrieve properties, similarity/substructure searches, bioactivity, for cheminformatics.