image-to-prompt

将图片或文本描述转换为完整 AI 绘画提示词。当用户想要根据参考图、照片或文字描述生成适用于各种 AI 绘画工具（Midjourney、Stable Diffusion、FLUX、DALL-E 等）的专业提示词时使用。适用于：上传图片并请求生成提示词、将照片转化为特定艺术风格、根据文字描述构建结构化提示词、需要系统化的提示词构建框架。

7 stars

byLionad-Morotar

View on GitHub Installation ↓

Best use case

image-to-prompt is best used when you need a repeatable AI agent workflow instead of a one-off prompt.

Teams using image-to-prompt should expect a more consistent output, faster repeated execution, less prompt rewriting.

When to use this skill

You want a reusable workflow that can be run more than once with consistent structure.

When not to use this skill

You only need a quick one-off answer and do not need a reusable workflow.
You cannot install or maintain the underlying files, dependencies, or repository context.

Installation

Claude Code / Cursor / Codex

$curl -o ~/.claude/skills/image-to-prompt/SKILL.md --create-dirs "https://raw.githubusercontent.com/Lionad-Morotar/local-tools/main/local-link/skills/image-to-prompt/SKILL.md"

Manual Installation

Download SKILL.md from GitHub
Place it in .claude/skills/image-to-prompt/SKILL.md inside your project
Restart your AI agent — it will auto-discover the skill

How image-to-prompt Compares

Feature / Agent	image-to-prompt	Standard Approach
Platform Support	Not specified	Limited / Varies
Context Awareness	High	Baseline
Installation Complexity	Unknown	N/A

Frequently Asked Questions

What does this skill do?

Where can I find the source code?

You can find the source code on GitHub using the link provided at the top of the page.

SKILL.md Source

# Image to Prompt - 图片/文本转 AI 绘画提示词

将用户输入（图片或文字）转换为高质量、结构化的 AI 绘画提示词。


## 工作步骤

创建一个任务清单，执行以下两个任务：
1. 处理输入
2. 细致分析
3. 生成输出

<step-1>

### 图片输入

**图片来源判断：**

1. **路径/网址输入**（如 `/path/to/image.png` 或 `https://example.com/image.jpg`）
   - 使用图片分析工具（`mcp__zai-mcp-server__analyze_image`）提取详细视觉信息
   - 基于分析结果构建提示词

2. **直接粘贴输入**（用户将图片粘贴到对话中）
   - 使用模型自身的视觉能力直接分析对话中的图片
   - 详细描述图片内容（无需调用外部工具）

**分析维度**（根据图片内容灵活调整，复杂图片可扩充至最多4k个分析维度）：
```md
1. 核心视觉层 (Core Visual Layer)
Subject：
具象维度：识别人物/物体/生物的数量、姿态、动作、表情、服饰及物理特征。
抽象维度：若无具体主体，描述其形态（如流体、几何体）、运动态势（如旋转、爆炸、静止）及视觉聚合点。
Composition：
空间布局：分析画面布局（向心、三分法/Rules of thirds、黄金分割/Golden ratio）、焦点位置、对称性/非对称性。
视线引导：线条流向、层次感（前景/中景/背景）、画幅比例及其带来的视觉影响。
Color：
基础参数：主色调、配色方案（如互补色/Complementary、同类色/Analogous）、对比度、饱和度。
色彩心理：色彩传递的温度（冷/暖）、重量感及情感联想。
Light：
物理属性：光源方向（顶光/Top light、侧光/Side light、逆光/Backlight）、光线质感（柔光/Soft light、硬光/Hard light、漫反射/Diffused）。
氛围营造：明暗调性（High-key/Low-key）、阴影的形态与深浅、环境光感。
2. 风格与技法层 (Style & Technique Layer)
Style：
流派定位：艺术流派（如印象派/Impressionism、极简主义/Minimalism、赛博朋克/Cyberpunk）、时代感、文化特征。
视觉语言：摄影风格（如黑色电影/Film noir、纪实摄影/Documentary）或绘画技法（如厚涂/Impasto、水墨/Ink wash）。
Technical Details：
质感与纹理：材质表面（光滑/Glossy、粗糙/Rough）、颗粒感/噪点（Grain）、笔触痕迹。
特殊效果：光学瑕疵模拟（如色散/Chromatic aberration、暗角/Vignette）、动态模糊（Motion blur）、景深/虚化（Bokeh/Depth of field）、光晕（Bloom）。
3. 认知与叙事层 (Cognitive & Narrative Layer)
Micro-Details：
捕捉容易被忽略的微小元素（如背景中的隐藏物体、微小的文字信息、材质的细微破损）。
Emotion & Atmosphere：
整体基调：画面传递的第一直觉（如压抑、欢快、神秘、宁静）。
深层情感：分析画面元素如何引发特定的心理反应（如焦虑、孤独、希望）。
Semiotics & Metaphor：
叙事暗示：画面仿佛在讲述什么故事？捕捉的是哪个瞬间（发生前/发生后）？
象征意义：分析图像中的符号（如”镜子”代表内省，”风暴”代表混乱）及其文化互文性。
Synesthesia：
描述观看图像时引发的非视觉联想（如听觉上的噪音/寂静、触觉上的冷热/刺痛感）。
```

**分析示例**（浓雾中的电线杆）：
```md
### **1. 核心视觉层 (Core Visual Layer)**

*   **Subject**：
    *   **具象维度**：画面中有三个主要的垂直结构——**木质电线杆**。前景的一根最为显著，略微向右倾斜，顶端带有横臂和变压器状物体，几根断裂或松弛的电线垂落下来。背景中还有两根较模糊的电线杆，呈线性排列延伸至远处。在画面右侧中景处，有一个极为渺小的**人形剪影**，似乎是一个穿着深色衣服的人孤独伫立。
    *   **抽象维度**：电线杆构成了强烈的**垂直线条**，与地面的水平线形成交错，但在浓雾的侵蚀下，这些线条显得脆弱且不完整。垂落的电线形成了无力的曲线，暗示着重力与废弃。

*   **Composition**：
    *   **空间布局**：采用**Deep depth of field**构图，利用透视原理将视线引向远方。前景巨大的倾斜电线杆占据了左侧主导地位，与右侧远处的微小人物形成**大小对比**和**视觉平衡**。
    *   **视线引导**：电线杆的排列形成了一条隐形的对角线引导线，将观众的视线从左前方向右后方牵引，最终消失在迷雾中。
    *   **画幅比例**：竖构图增强了画面的压抑感和纵深感，强调了天空（雾气）的沉重。

*   **Color**：
    *   **基础参数**：**极低饱和度**，接近单色画。主色调为灰绿色（Sage Green/Grey）和暗褐色（Sepia/Dark Brown）。
    *   **色彩心理**：这种暗淡、浑浊的色调传递出**寒冷、潮湿、陈旧**和**死寂**的感觉。缺乏暖色调，完全剥夺了画面的生机与希望感。

*   **Light**：
    *   **物理属性**：**极度柔和的漫反射光**（Soft/Diffused light）。由于浓雾的存在，光源方向不可辨认，光线平坦且均匀，没有强烈的阴影。
    *   **氛围营造**：属于**Low-key**摄影，整体亮度偏低。雾气作为一种介质，散射了光线，导致物体边缘模糊，营造出一种梦境般或末日后的朦胧感。

### **2. 风格与技法层 (Style & Technique Layer)**

*   **Style**：
    *   **流派定位**：
        *   **Southern Gothic**：荒凉的田野、废弃的工业设施，透露出一种衰败和不安。
        *   **Liminal Space**：这是一个过渡性的场所，既非起点也非终点，充满了不确定性和诡异的熟悉感。
        *   **Silent Hill Aesthetic**：浓雾、废弃设施和孤独的人影是该风格的标志性元素。
    *   **视觉语言**：具有强烈的**Cinematic**电影感，像是一部悬疑片或恐怖片的定场镜头。

*   **Technical Details**：
    *   **质感与纹理**：画面叠加了明显的**Film Grain**，增加了粗糙的质感，模拟了老旧照片或高感光度底片的效果。这种噪点不是瑕疵，而是增强了”真实感”和”纪实感”。
    *   **特殊效果**：**Atmospheric perspective**被运用到了极致，雾气随着距离增加而变浓，使得远处的物体逐渐溶解在背景中。

### **3. 认知与叙事层 (Cognitive & Narrative Layer)**

*   **Micro-Details**：
    *   **垂落的电线**：这不仅是物理细节，更是**功能失效**的标志。电线本应紧绷传递能量，这里的垂落意味着断联、废弃和文明的退场。
    *   **倾斜的角度**：前景电线杆不仅破旧，而且是歪斜的，暗示了地基的不稳或曾遭受过外力的撞击/风暴，处于一种摇摇欲坠的临界状态。

*   **Emotion & Atmosphere**：
    *   **整体基调**：**Isolation**、**Desolation**、**Mystery**。
    *   **深层情感**：这种迷雾中的静止画面容易引发**存在主义焦虑**。那个渺小的人影面对巨大的、废弃的工业遗迹，强化了人类在自然或不可知力量面前的渺小与无力。

*   **Semiotics & Metaphor**：
    *   **电线杆**：通常象征着沟通、连接和现代文明。在这里，它们是断裂和废弃的，象征着**沟通的失败**或**文明的遗迹**。
    *   **迷雾**：象征着**未知**、**迷失**和**隔离**。它遮蔽了视野，让人看不清前路，也看不清来路。
    *   **孤独的观察者**：那个微小的人影可以被看作是观众的**Avatar**，迷失在这个充满迷雾的异世界中。

*   **Synesthesia**：
    *   **听觉**：看着这张图，仿佛能听到**风吹过枯草的沙沙声**，或者远处沉闷的**低频嗡嗡声**，亦或是**绝对的死寂**（耳鸣般的安静）。
    *   **触觉**：能感受到**潮湿粘腻的空气**粘在皮肤上，以及刺骨的**阴冷**。
    *   **嗅觉**：空气中似乎弥漫着**潮湿泥土**、**腐烂植被**和**生锈金属**的气味。

**总结**：
这张图像是一幅极具表现力的**反乌托邦风景画**。它通过**迷雾**这一核心元素，成功地将现实世界异化，利用**废弃的工业符号**（破损的电线杆）和**孤独的人影**，构建了一个关于**遗忘、断联和孤独**的视觉叙事。它不仅仅是在展示一个场景，更是在唤起一种深入骨髓的寒意和对未知的敬畏。
```
分析示例结束。

**分析后构建提示词：**
1. 整合上述分析结果
2. 如用户指定目标风格，优先采用该风格描述
3. 生成提示词

### 文本输入
1. 解析描述中的核心视觉元素
2. 识别隐含风格倾向（如"梦幻"暗示柔和光线）
3. 补充合理的细节使提示词完整

### 混合输入（用户同时给了图片可提示词）
你需仔细识别用户具体意图，例如用户可能想：
- 基于图片描述生成新的提示词
- 合并图片与文本描述，创建更丰富的提示词

</step-1>

<step-2>

## 细致分析

- **具体而非笼统**：不说"beautiful lighting"，而是"golden hour side lighting casting long shadows"
- **分层描述**：从整体构图 → 主体细节 → 背景环境
- **风格一致**：确保风格、色彩、光影描述相互协调
- **避免过度堆砌**：质量词适度原则

## 风格定义技巧

### 参考艺术家/作品
当需要精准定义风格时，可引用：
- **艺术家**：`in the style of [Artist Name]` 或风格混合（如：`Katsuhiro Otomo meets Moebius`）
- **艺术作品**：参考具体作品的美学特征（如：`Blade Runner 2049 cinematography aesthetic`）
- **流派/运动**：`Art Nouveau`, `De Stijl`, `Ukiyo-e`, `Bauhaus`

**原则**：1-2 个参考足够，过多会混淆风格。优先选择与用户意图最直接相关的参考。

### 镜头与摄影参数
写实或摄影风格可添加：
- **镜头类型**：`wide-angle lens`, `85mm portrait lens`, `fisheye`, `macro`
- **光圈/景深**：`shallow depth of field`, `f/1.8`, `bokeh background`
- **构图术语**：`Dutch angle`, `worm's eye view`, `bird's eye view`, `rule of thirds`
- **胶片/设备**：`shot on Kodak Portra 400`, `Hasselblad medium format`, `vintage Polaroid`

**原则**：仅当摄影感是风格核心时使用，插画/概念艺术类无需强行添加。

## 负面提示词（Negative Prompt）

当生成写实类或需要排除特定元素时，建议添加负面提示词：
- **通用排除**：`low quality, blurry, distorted, deformed, ugly, duplicate, watermark, signature`
- **人像排除**：`bad anatomy, extra limbs, missing fingers, mutated hands, poorly drawn face`
- **风格排除**：根据目标风格排除相反特征（如写实风格排除`cartoon, anime, illustration`）

**原则**：负面提示词仅在用户明确要求或风格需要时添加，通常 3-5 个足够，过多会稀释效果。

## 权重与强调

需要强化或弱化特定元素时：
- **强调**：`(keyword)` 或 `(keyword:1.2)` 增加权重
- **弱化**：`[keyword]` 或 `(keyword:0.8)` 减少权重
- **避免过度**：权重范围 0.5-1.5 为宜，过高会导致扭曲

**应用时机**：当描述中包含多个元素需要区分主次，或某些词容易被忽略时使用。

## 画幅比例建议

根据构图意图推荐比例：
- **1:1** — 头像、图标、对称构图
- **16:9** / **2:1** — 风景、全景、电影感
- **9:16** — 全身人像、竖版海报
- **4:3** — 插画、文档配图
- **21:9** — 超宽 cinematic

**原则**：比例服务于构图意图，宽画幅强化延伸感，方画幅聚焦中心，竖画幅强化纵深感，推荐一种画幅即可。

</step-2>

<step-3>

每个请求默认只输出**中文版本**，专业术语后标注英文（如：赛博朋克(Cyberpunk)、景深(Depth of field)）。仅在用户明确要求英文版本时才输出英文版本。直接输出对应提示词（```plaintext\n<提示词>\n```）即可。

中文版本的**专业术语后标注英文**，如：
- 艺术风格（如：赛博朋克(Cyberpunk)、巴洛克(Baroque)）
- 技术术语（如：景深(Depth of field)、三分法(Rule of thirds)）
- 材质/纹理（如：厚涂(Impasto)、丝网印刷(Screen printing)）

</step-3>

## 提示词参考

- **Banana（默认）**：不写负面提示词；提示词总数在 1000 字左右，参考[banana 提示词示例](references/prompt-banana.md)
- **Qwen-Image**：提示词在 500 字左右，参考[qwen-image 提示词示例](references/prompt-qwen-image.md)
- **Midjourney**：添加 `--ar [比例]`、`--stylize [值]`、`--v 6` 等参数
- **SD/FLUX**：添加负面提示词（negative prompt）
- **DALL-E**：描述更加自然语言化

## 其他要求

- 总的来说，提示词不应超过2000字

Related Skills

prompt-to-image

from Lionad-Morotar/local-tools

从上下文提取提示词，为用户生成并打开图片。

gen-image

from Lionad-Morotar/local-tools

通常在 web-search 没有办法解决用户需求时，调用此技能，创造或生成全新图片。

open-u-dashboard

from Lionad-Morotar/local-tools

open understand dashboard for user

sync-template-skill

from Lionad-Morotar/local-tools

这是一个技能文件的模板，展示了技能的基本结构和内容组织方式。

talk-humanize

from Lionad-Morotar/local-tools

Be direct and informative. No filler, no fluff, but give enough to be useful.

search-web

from Lionad-Morotar/local-tools

使用 Evaluator-optimizer 模式进行系统性多轮网络搜索，采用结构化 Ask 流程在搜索前澄清研究目标。基于 YC Office Hours 的提问方法论，确保搜索方向清晰、结果可验证。当用户需要深入调查复杂主题、验证假设或全面收集信息时使用。

save-to-eagle

from Lionad-Morotar/local-tools

归档网络内容到 Eagle 素材库。支持：(1) Behance/Pixiv 图片归档，(2) 网页视频录制（页面动画、滚动录制）。使用方式：'归档 [URL]' 归档图片；'录制网页视频 [URL]' 录制页面动画；'滚动录制 [URL]' 自动滚动截图。支持评分如 '归档 [URL], 3/5'。

save-ob-chaos

from Lionad-Morotar/local-tools

将对话内容快速存档到 Obsidian Chaos 文件夹。触发词："存档到 Obsidian"、"保存到 Chaos"、"ob 存档"、"记下这个"、"保存这段内容"、"存到 chaos"。

save-ob-chaos-mermaid

from Lionad-Morotar/local-tools

将 Mermaid 图表保存到 Obsidian Chaos 文件夹。触发词："保存 mermaid 到 chaos"、"mermaid 存档"。

save-ob-chaos-excalidraw

from Lionad-Morotar/local-tools

绘制 Excalidraw 图表并存档到 Obsidian Chaos 文件夹。触发词："画个图存到 Obsidian"、"excalidraw 存档"、"画个流程图保存"、"画图存到 chaos"、"创建图表并存档"、"画架构图到 ob"。

release-project

from Lionad-Morotar/local-tools

项目版本发布流程指导，帮助用户完成版本规划、Changelog 管理、版本号升级、Git 标签创建和 npm 首次发布准备。Use when: (1) 用户需要发布新版本 (2) 需要创建版本发布流程 (3) 需要管理版本号和 Changelog (4) 需要自动化版本发布 (5) 需要检查 release 分支同步 (6) 首次 npm 发布准备

recognize-codebase-branch-flow

from Lionad-Morotar/local-tools

识别并记忆项目 git 分支模型