image-to-prompt

将图片或文本描述转换为完整 AI 绘画提示词。当用户想要根据参考图、照片或文字描述生成适用于各种 AI 绘画工具(Midjourney、Stable Diffusion、FLUX、DALL-E 等)的专业提示词时使用。适用于:上传图片并请求生成提示词、将照片转化为特定艺术风格、根据文字描述构建结构化提示词、需要系统化的提示词构建框架。

Best use case

image-to-prompt is best used when you need a repeatable AI agent workflow instead of a one-off prompt.

将图片或文本描述转换为完整 AI 绘画提示词。当用户想要根据参考图、照片或文字描述生成适用于各种 AI 绘画工具(Midjourney、Stable Diffusion、FLUX、DALL-E 等)的专业提示词时使用。适用于:上传图片并请求生成提示词、将照片转化为特定艺术风格、根据文字描述构建结构化提示词、需要系统化的提示词构建框架。

Teams using image-to-prompt should expect a more consistent output, faster repeated execution, less prompt rewriting.

When to use this skill

  • You want a reusable workflow that can be run more than once with consistent structure.

When not to use this skill

  • You only need a quick one-off answer and do not need a reusable workflow.
  • You cannot install or maintain the underlying files, dependencies, or repository context.

Installation

Claude Code / Cursor / Codex

$curl -o ~/.claude/skills/image-to-prompt/SKILL.md --create-dirs "https://raw.githubusercontent.com/Lionad-Morotar/local-tools/main/local-link/skills/image-to-prompt/SKILL.md"

Manual Installation

  1. Download SKILL.md from GitHub
  2. Place it in .claude/skills/image-to-prompt/SKILL.md inside your project
  3. Restart your AI agent — it will auto-discover the skill

How image-to-prompt Compares

Feature / Agentimage-to-promptStandard Approach
Platform SupportNot specifiedLimited / Varies
Context Awareness High Baseline
Installation ComplexityUnknownN/A

Frequently Asked Questions

What does this skill do?

将图片或文本描述转换为完整 AI 绘画提示词。当用户想要根据参考图、照片或文字描述生成适用于各种 AI 绘画工具(Midjourney、Stable Diffusion、FLUX、DALL-E 等)的专业提示词时使用。适用于:上传图片并请求生成提示词、将照片转化为特定艺术风格、根据文字描述构建结构化提示词、需要系统化的提示词构建框架。

Where can I find the source code?

You can find the source code on GitHub using the link provided at the top of the page.

SKILL.md Source

# Image to Prompt - 图片/文本转 AI 绘画提示词

将用户输入(图片或文字)转换为高质量、结构化的 AI 绘画提示词。


## 工作步骤

创建一个任务清单,执行以下两个任务:
1. 处理输入
2. 细致分析
3. 生成输出

<step-1>

### 图片输入

**图片来源判断:**

1. **路径/网址输入**(如 `/path/to/image.png` 或 `https://example.com/image.jpg`)
   - 使用图片分析工具(`mcp__zai-mcp-server__analyze_image`)提取详细视觉信息
   - 基于分析结果构建提示词

2. **直接粘贴输入**(用户将图片粘贴到对话中)
   - 使用模型自身的视觉能力直接分析对话中的图片
   - 详细描述图片内容(无需调用外部工具)

**分析维度**(根据图片内容灵活调整,复杂图片可扩充至最多4k个分析维度):
```md
1. 核心视觉层 (Core Visual Layer)
Subject:
具象维度:识别人物/物体/生物的数量、姿态、动作、表情、服饰及物理特征。
抽象维度:若无具体主体,描述其形态(如流体、几何体)、运动态势(如旋转、爆炸、静止)及视觉聚合点。
Composition:
空间布局:分析画面布局(向心、三分法/Rules of thirds、黄金分割/Golden ratio)、焦点位置、对称性/非对称性。
视线引导:线条流向、层次感(前景/中景/背景)、画幅比例及其带来的视觉影响。
Color:
基础参数:主色调、配色方案(如互补色/Complementary、同类色/Analogous)、对比度、饱和度。
色彩心理:色彩传递的温度(冷/暖)、重量感及情感联想。
Light:
物理属性:光源方向(顶光/Top light、侧光/Side light、逆光/Backlight)、光线质感(柔光/Soft light、硬光/Hard light、漫反射/Diffused)。
氛围营造:明暗调性(High-key/Low-key)、阴影的形态与深浅、环境光感。
2. 风格与技法层 (Style & Technique Layer)
Style:
流派定位:艺术流派(如印象派/Impressionism、极简主义/Minimalism、赛博朋克/Cyberpunk)、时代感、文化特征。
视觉语言:摄影风格(如黑色电影/Film noir、纪实摄影/Documentary)或绘画技法(如厚涂/Impasto、水墨/Ink wash)。
Technical Details:
质感与纹理:材质表面(光滑/Glossy、粗糙/Rough)、颗粒感/噪点(Grain)、笔触痕迹。
特殊效果:光学瑕疵模拟(如色散/Chromatic aberration、暗角/Vignette)、动态模糊(Motion blur)、景深/虚化(Bokeh/Depth of field)、光晕(Bloom)。
3. 认知与叙事层 (Cognitive & Narrative Layer)
Micro-Details:
捕捉容易被忽略的微小元素(如背景中的隐藏物体、微小的文字信息、材质的细微破损)。
Emotion & Atmosphere:
整体基调:画面传递的第一直觉(如压抑、欢快、神秘、宁静)。
深层情感:分析画面元素如何引发特定的心理反应(如焦虑、孤独、希望)。
Semiotics & Metaphor:
叙事暗示:画面仿佛在讲述什么故事?捕捉的是哪个瞬间(发生前/发生后)?
象征意义:分析图像中的符号(如”镜子”代表内省,”风暴”代表混乱)及其文化互文性。
Synesthesia:
描述观看图像时引发的非视觉联想(如听觉上的噪音/寂静、触觉上的冷热/刺痛感)。
```

**分析示例**(浓雾中的电线杆):
```md
### **1. 核心视觉层 (Core Visual Layer)**

*   **Subject**:
    *   **具象维度**:画面中有三个主要的垂直结构——**木质电线杆**。前景的一根最为显著,略微向右倾斜,顶端带有横臂和变压器状物体,几根断裂或松弛的电线垂落下来。背景中还有两根较模糊的电线杆,呈线性排列延伸至远处。在画面右侧中景处,有一个极为渺小的**人形剪影**,似乎是一个穿着深色衣服的人孤独伫立。
    *   **抽象维度**:电线杆构成了强烈的**垂直线条**,与地面的水平线形成交错,但在浓雾的侵蚀下,这些线条显得脆弱且不完整。垂落的电线形成了无力的曲线,暗示着重力与废弃。

*   **Composition**:
    *   **空间布局**:采用**Deep depth of field**构图,利用透视原理将视线引向远方。前景巨大的倾斜电线杆占据了左侧主导地位,与右侧远处的微小人物形成**大小对比**和**视觉平衡**。
    *   **视线引导**:电线杆的排列形成了一条隐形的对角线引导线,将观众的视线从左前方向右后方牵引,最终消失在迷雾中。
    *   **画幅比例**:竖构图增强了画面的压抑感和纵深感,强调了天空(雾气)的沉重。

*   **Color**:
    *   **基础参数**:**极低饱和度**,接近单色画。主色调为灰绿色(Sage Green/Grey)和暗褐色(Sepia/Dark Brown)。
    *   **色彩心理**:这种暗淡、浑浊的色调传递出**寒冷、潮湿、陈旧**和**死寂**的感觉。缺乏暖色调,完全剥夺了画面的生机与希望感。

*   **Light**:
    *   **物理属性**:**极度柔和的漫反射光**(Soft/Diffused light)。由于浓雾的存在,光源方向不可辨认,光线平坦且均匀,没有强烈的阴影。
    *   **氛围营造**:属于**Low-key**摄影,整体亮度偏低。雾气作为一种介质,散射了光线,导致物体边缘模糊,营造出一种梦境般或末日后的朦胧感。

### **2. 风格与技法层 (Style & Technique Layer)**

*   **Style**:
    *   **流派定位**:
        *   **Southern Gothic**:荒凉的田野、废弃的工业设施,透露出一种衰败和不安。
        *   **Liminal Space**:这是一个过渡性的场所,既非起点也非终点,充满了不确定性和诡异的熟悉感。
        *   **Silent Hill Aesthetic**:浓雾、废弃设施和孤独的人影是该风格的标志性元素。
    *   **视觉语言**:具有强烈的**Cinematic**电影感,像是一部悬疑片或恐怖片的定场镜头。

*   **Technical Details**:
    *   **质感与纹理**:画面叠加了明显的**Film Grain**,增加了粗糙的质感,模拟了老旧照片或高感光度底片的效果。这种噪点不是瑕疵,而是增强了”真实感”和”纪实感”。
    *   **特殊效果**:**Atmospheric perspective**被运用到了极致,雾气随着距离增加而变浓,使得远处的物体逐渐溶解在背景中。

### **3. 认知与叙事层 (Cognitive & Narrative Layer)**

*   **Micro-Details**:
    *   **垂落的电线**:这不仅是物理细节,更是**功能失效**的标志。电线本应紧绷传递能量,这里的垂落意味着断联、废弃和文明的退场。
    *   **倾斜的角度**:前景电线杆不仅破旧,而且是歪斜的,暗示了地基的不稳或曾遭受过外力的撞击/风暴,处于一种摇摇欲坠的临界状态。

*   **Emotion & Atmosphere**:
    *   **整体基调**:**Isolation**、**Desolation**、**Mystery**。
    *   **深层情感**:这种迷雾中的静止画面容易引发**存在主义焦虑**。那个渺小的人影面对巨大的、废弃的工业遗迹,强化了人类在自然或不可知力量面前的渺小与无力。

*   **Semiotics & Metaphor**:
    *   **电线杆**:通常象征着沟通、连接和现代文明。在这里,它们是断裂和废弃的,象征着**沟通的失败**或**文明的遗迹**。
    *   **迷雾**:象征着**未知**、**迷失**和**隔离**。它遮蔽了视野,让人看不清前路,也看不清来路。
    *   **孤独的观察者**:那个微小的人影可以被看作是观众的**Avatar**,迷失在这个充满迷雾的异世界中。

*   **Synesthesia**:
    *   **听觉**:看着这张图,仿佛能听到**风吹过枯草的沙沙声**,或者远处沉闷的**低频嗡嗡声**,亦或是**绝对的死寂**(耳鸣般的安静)。
    *   **触觉**:能感受到**潮湿粘腻的空气**粘在皮肤上,以及刺骨的**阴冷**。
    *   **嗅觉**:空气中似乎弥漫着**潮湿泥土**、**腐烂植被**和**生锈金属**的气味。

**总结**:
这张图像是一幅极具表现力的**反乌托邦风景画**。它通过**迷雾**这一核心元素,成功地将现实世界异化,利用**废弃的工业符号**(破损的电线杆)和**孤独的人影**,构建了一个关于**遗忘、断联和孤独**的视觉叙事。它不仅仅是在展示一个场景,更是在唤起一种深入骨髓的寒意和对未知的敬畏。
```
分析示例结束。

**分析后构建提示词:**
1. 整合上述分析结果
2. 如用户指定目标风格,优先采用该风格描述
3. 生成提示词

### 文本输入
1. 解析描述中的核心视觉元素
2. 识别隐含风格倾向(如"梦幻"暗示柔和光线)
3. 补充合理的细节使提示词完整

### 混合输入(用户同时给了图片可提示词)
你需仔细识别用户具体意图,例如用户可能想:
- 基于图片描述生成新的提示词
- 合并图片与文本描述,创建更丰富的提示词

</step-1>

<step-2>

## 细致分析

- **具体而非笼统**:不说"beautiful lighting",而是"golden hour side lighting casting long shadows"
- **分层描述**:从整体构图 → 主体细节 → 背景环境
- **风格一致**:确保风格、色彩、光影描述相互协调
- **避免过度堆砌**:质量词适度原则

## 风格定义技巧

### 参考艺术家/作品
当需要精准定义风格时,可引用:
- **艺术家**:`in the style of [Artist Name]` 或风格混合(如:`Katsuhiro Otomo meets Moebius`)
- **艺术作品**:参考具体作品的美学特征(如:`Blade Runner 2049 cinematography aesthetic`)
- **流派/运动**:`Art Nouveau`, `De Stijl`, `Ukiyo-e`, `Bauhaus`

**原则**:1-2 个参考足够,过多会混淆风格。优先选择与用户意图最直接相关的参考。

### 镜头与摄影参数
写实或摄影风格可添加:
- **镜头类型**:`wide-angle lens`, `85mm portrait lens`, `fisheye`, `macro`
- **光圈/景深**:`shallow depth of field`, `f/1.8`, `bokeh background`
- **构图术语**:`Dutch angle`, `worm's eye view`, `bird's eye view`, `rule of thirds`
- **胶片/设备**:`shot on Kodak Portra 400`, `Hasselblad medium format`, `vintage Polaroid`

**原则**:仅当摄影感是风格核心时使用,插画/概念艺术类无需强行添加。

## 负面提示词(Negative Prompt)

当生成写实类或需要排除特定元素时,建议添加负面提示词:
- **通用排除**:`low quality, blurry, distorted, deformed, ugly, duplicate, watermark, signature`
- **人像排除**:`bad anatomy, extra limbs, missing fingers, mutated hands, poorly drawn face`
- **风格排除**:根据目标风格排除相反特征(如写实风格排除`cartoon, anime, illustration`)

**原则**:负面提示词仅在用户明确要求或风格需要时添加,通常 3-5 个足够,过多会稀释效果。

## 权重与强调

需要强化或弱化特定元素时:
- **强调**:`(keyword)` 或 `(keyword:1.2)` 增加权重
- **弱化**:`[keyword]` 或 `(keyword:0.8)` 减少权重
- **避免过度**:权重范围 0.5-1.5 为宜,过高会导致扭曲

**应用时机**:当描述中包含多个元素需要区分主次,或某些词容易被忽略时使用。

## 画幅比例建议

根据构图意图推荐比例:
- **1:1** — 头像、图标、对称构图
- **16:9** / **2:1** — 风景、全景、电影感
- **9:16** — 全身人像、竖版海报
- **4:3** — 插画、文档配图
- **21:9** — 超宽 cinematic

**原则**:比例服务于构图意图,宽画幅强化延伸感,方画幅聚焦中心,竖画幅强化纵深感,推荐一种画幅即可。

</step-2>

<step-3>

每个请求默认只输出**中文版本**,专业术语后标注英文(如:赛博朋克(Cyberpunk)、景深(Depth of field))。仅在用户明确要求英文版本时才输出英文版本。直接输出对应提示词(```plaintext\n<提示词>\n```)即可。

中文版本的**专业术语后标注英文**,如:
- 艺术风格(如:赛博朋克(Cyberpunk)、巴洛克(Baroque))
- 技术术语(如:景深(Depth of field)、三分法(Rule of thirds))
- 材质/纹理(如:厚涂(Impasto)、丝网印刷(Screen printing))

</step-3>

## 提示词参考

- **Banana(默认)**:不写负面提示词;提示词总数在 1000 字左右,参考[banana 提示词示例](references/prompt-banana.md)
- **Qwen-Image**:提示词在 500 字左右,参考[qwen-image 提示词示例](references/prompt-qwen-image.md)
- **Midjourney**:添加 `--ar [比例]`、`--stylize [值]`、`--v 6` 等参数
- **SD/FLUX**:添加负面提示词(negative prompt)
- **DALL-E**:描述更加自然语言化

## 其他要求

- 总的来说,提示词不应超过2000字

Related Skills

prompt-to-image

7
from Lionad-Morotar/local-tools

从上下文提取提示词,为用户生成并打开图片。

gen-image

7
from Lionad-Morotar/local-tools

通常在 web-search 没有办法解决用户需求时,调用此技能,创造或生成全新图片。

open-u-dashboard

7
from Lionad-Morotar/local-tools

open understand dashboard for user

sync-template-skill

7
from Lionad-Morotar/local-tools

这是一个技能文件的模板,展示了技能的基本结构和内容组织方式。

talk-humanize

7
from Lionad-Morotar/local-tools

Be direct and informative. No filler, no fluff, but give enough to be useful.

search-web

7
from Lionad-Morotar/local-tools

使用 Evaluator-optimizer 模式进行系统性多轮网络搜索,采用结构化 Ask 流程在搜索前澄清研究目标。基于 YC Office Hours 的提问方法论,确保搜索方向清晰、结果可验证。当用户需要深入调查复杂主题、验证假设或全面收集信息时使用。

save-to-eagle

7
from Lionad-Morotar/local-tools

归档网络内容到 Eagle 素材库。支持:(1) Behance/Pixiv 图片归档,(2) 网页视频录制(页面动画、滚动录制)。使用方式:'归档 [URL]' 归档图片;'录制网页视频 [URL]' 录制页面动画;'滚动录制 [URL]' 自动滚动截图。支持评分如 '归档 [URL], 3/5'。

save-ob-chaos

7
from Lionad-Morotar/local-tools

将对话内容快速存档到 Obsidian Chaos 文件夹。触发词:"存档到 Obsidian"、"保存到 Chaos"、"ob 存档"、"记下这个"、"保存这段内容"、"存到 chaos"。

save-ob-chaos-mermaid

7
from Lionad-Morotar/local-tools

将 Mermaid 图表保存到 Obsidian Chaos 文件夹。触发词:"保存 mermaid 到 chaos"、"mermaid 存档"。

save-ob-chaos-excalidraw

7
from Lionad-Morotar/local-tools

绘制 Excalidraw 图表并存档到 Obsidian Chaos 文件夹。触发词:"画个图存到 Obsidian"、"excalidraw 存档"、"画个流程图保存"、"画图存到 chaos"、"创建图表并存档"、"画架构图到 ob"。

release-project

7
from Lionad-Morotar/local-tools

项目版本发布流程指导,帮助用户完成版本规划、Changelog 管理、版本号升级、Git 标签创建和 npm 首次发布准备。Use when: (1) 用户需要发布新版本 (2) 需要创建版本发布流程 (3) 需要管理版本号和 Changelog (4) 需要自动化版本发布 (5) 需要检查 release 分支同步 (6) 首次 npm 发布准备

recognize-codebase-branch-flow

7
from Lionad-Morotar/local-tools

识别并记忆项目 git 分支模型