YT Transcribe — YouTube → Whisper → Obsidian

Транскрибирует YouTube-видео через mlx-whisper (Apple Silicon, Metal-native) с параллельными чанками.

Best use case

YT Transcribe — YouTube → Whisper → Obsidian is best used when you need a repeatable AI agent workflow instead of a one-off prompt.

Транскрибирует YouTube-видео через mlx-whisper (Apple Silicon, Metal-native) с параллельными чанками.

Teams using YT Transcribe — YouTube → Whisper → Obsidian should expect a more consistent output, faster repeated execution, less prompt rewriting.

When to use this skill

  • You want a reusable workflow that can be run more than once with consistent structure.

When not to use this skill

  • You only need a quick one-off answer and do not need a reusable workflow.
  • You cannot install or maintain the underlying files, dependencies, or repository context.

Installation

Claude Code / Cursor / Codex

$curl -o ~/.claude/skills/yt-transcribe/SKILL.md --create-dirs "https://raw.githubusercontent.com/ai-mindset-org/pos-sprint/main/skills/yt-transcribe/SKILL.md"

Manual Installation

  1. Download SKILL.md from GitHub
  2. Place it in .claude/skills/yt-transcribe/SKILL.md inside your project
  3. Restart your AI agent — it will auto-discover the skill

How YT Transcribe — YouTube → Whisper → Obsidian Compares

Feature / AgentYT Transcribe — YouTube → Whisper → ObsidianStandard Approach
Platform SupportNot specifiedLimited / Varies
Context Awareness High Baseline
Installation ComplexityUnknownN/A

Frequently Asked Questions

What does this skill do?

Транскрибирует YouTube-видео через mlx-whisper (Apple Silicon, Metal-native) с параллельными чанками.

Where can I find the source code?

You can find the source code on GitHub using the link provided at the top of the page.

SKILL.md Source

# YT Transcribe — YouTube → Whisper → Obsidian

Транскрибирует YouTube-видео через mlx-whisper (Apple Silicon, Metal-native) с параллельными чанками.
Fallback на openai-whisper если mlx недоступен.

## Какую боль закрывает

- **Потерянный контент видео**: Посмотрел лекцию/подкаст — через неделю забыл 90%. Нет текстовой базы для поиска.
- **Нет транскриптов для русского**: YouTube auto-captions для русского языка — мусор. Whisper даёт quality транскрипцию.
- **Ручная обработка**: Переслушивать 2-часовую лекцию чтобы найти один момент — боль.
- **Скилл превращает видео в searchable knowledge base** — транскрипт + саммери + привязка слайдов, всё в Obsidian.

## Пайплайн

```
/yt-transcribe <YouTube URL>
    ↓
1. yt-dlp скачивает аудио (WAV 16kHz mono)
    ↓
2. Длинные видео (>20 мин) → ffmpeg split на чанки по 20 мин
    ↓
3. mlx-whisper (large-v3) транскрибирует чанки параллельно (до 4 воркеров)
    ↓
4. Merge сегментов с offset timestamps, сортировка по времени
    ↓
5. Claude обрабатывает: форматирует секции, привязывает слайды
    ↓
6. Два файла в Obsidian:
   - {transcript} — полный текст с [MM:SS] таймкодами
   - {summary} — подробное саммери, самодостаточный артефакт
   - (опционально) {slides} — презентация с PNG слайдами
```

## Движки

| Движок | Платформа | Скорость | Примечание |
|--------|-----------|----------|------------|
| **mlx-whisper** (default) | Apple Silicon | ~8-10x vs openai | Metal-native, оптимален для Mac |
| openai-whisper (fallback) | Любая | 1x (базовая) | Универсальный |

Auto-detect: если `mlx-whisper` установлен — используется он, иначе `openai-whisper`.

## Использование

```bash
/yt-transcribe <YouTube URL>
```

Скрипт напрямую:
```bash
python3 scripts/yt_transcribe.py \
  --url "https://youtube.com/watch?v=..." \
  --model large-v3 \
  --engine auto \
  --max-workers 4 \
  --output /tmp
```

### Аргументы
- `--url` — YouTube URL (обязательный)
- `--model` — Whisper model (default: `large-v3`). Для скорости: `medium`
- `--engine` — `auto` | `mlx` | `openai` (default: `auto`)
- `--chunk-duration` — длина чанка в секундах (default: `1200` = 20 мин)
- `--max-workers` — макс. параллельных воркеров (default: `4`)
- `--output` — директория для .md (default: `/tmp`)

## Зависимости

- **ffmpeg** — `brew install ffmpeg`
- **yt-dlp** — скачивание аудио
- **mlx-whisper** — транскрипция (Apple Silicon, Metal)
- **openai-whisper** — fallback транскрипция
- **python-pptx** — чтение PPTX презентаций
- **poppler** — `brew install poppler` (PDF → PNG)

## Модели Whisper

| Модель    | Скорость (mlx) | Качество | Когда использовать |
|-----------|----------------|----------|--------------------|
| medium    | Очень быстрая  | Хорошее  | Одноязычное видео, нужна скорость |
| large-v3  | Быстрая        | Лучшее   | Микс ru/en, сложная терминология |

## Формат выхода

Всегда создаёт 2 файла:
1. **Транскрипт**: `{проект} {transcript} описание – YYYY-MM-DD – Claude Code.md`
2. **Саммери**: `{проект} {summary} описание – YYYY-MM-DD – Claude Code.md`
3. (Опционально) **Слайды**: `{проект} {slides} PREFIX Презентация – YYYY-MM-DD – Claude Code.md`

Related Skills

/tg-saved v2 — Telegram Saved Messages → Deep Analysis → Obsidian

7
from ai-mindset-org/pos-sprint

## Назначение

writing-content

7
from ai-mindset-org/pos-sprint

Интерактивный процесс написания текстов для вайб-маркетинга на основе Julian Shapiro framework. **Новые возможности (v2.0):** - Research & Gap Analysis (Perplexity → WebSearch fallback) - Scoring 0-5 вместо binary (Novelty + Resonance + Hook + Clarity) - AI-Slop Detection на всех этапах (10 типов patterns) - 3 варианта intro с self-scoring - Markdown export всех промежуточных результатов **Русские triggers:** "напиши пост по шапиро", "написать статью по фреймворку шапиро", "создай текст в стиле julian shapiro", "помоги написать контент по методу shapiro", "контент по julian shapiro фреймворку", "пост по julian shapiro", "напиши в стиле шапиро" **English triggers:** "write content using julian shapiro framework", "create post with shapiro method", "write article shapiro style", "help with julian shapiro writing" **Generic triggers:** "напиши статью", "помоги написать контент", "создай текст", "начать писать", "хочу написать пост", "нужна помощь с текстом", "write content", "write article", "создай контент", "придумай идею для статьи", or requests help with content creation process.

Content & DocumentationClaude

summarize-comments

7
from ai-mindset-org/pos-sprint

Делает LLM-выжимку из комментариев менеджеров об одном или нескольких подрядчиках. Используй этот скилл когда нужно понять что говорят менеджеры о конкретном подрядчике, или получить JSON с выжимкой для дальнейшей обработки.

skill-security

7
from ai-mindset-org/pos-sprint

This skill activates when the user mentions "security audit", "skill audit", "проверка безопасности скилла", "аудит скилла", "skill-security", "проверить скилл", "пересобрать скилл", "rebuild skill", "security check", "dual memory audit", "credential isolation check". Also activates on /skill-security command. Use this skill when the user wants to audit, validate, or rebuild any Claude Code skill for security compliance.

session-status

7
from ai-mindset-org/pos-sprint

Statusline shown in Claude Code UI status bar via settings.json. No action needed in responses.

session-save

7
from ai-mindset-org/pos-sprint

Compress and save current session context for handoff to next session. Use when: (1) context pressure >50%, (2) user says "сохрани сессию", "session save", "checkpoint", (3) before ending a long productive session, (4) switching to a different task mid-session. Supports named sessions: /session-save vpn-fix

continue-session

7
from ai-mindset-org/pos-sprint

Restore context from a named or latest session checkpoint. Use when: (1) user says "продолжи", "continue", "что было в прошлой сессии", (2) starting work after a crash or context overflow, (3) "resume", "восстанови контекст", "где я остановился". Supports named sessions: /continue vpn-fix

compress

7
from ai-mindset-org/pos-sprint

Info-Compressor: compress text/context by 60-70% without losing meaning. Use when: (1) context pressure >50%, (2) user says "сжать", "compress", "compact", (3) need to fit more context into remaining window, (4) preparing handoff blob for next session.

seo-strategist

7
from ai-mindset-org/pos-sprint

Strategic SEO planning and analysis toolkit for site-wide optimization, keyword research, technical SEO audits, and competitive positioning. Complements content-creator's on-page SEO with strategic planning, topic cluster architecture, and SEO roadmap generation. Use for keyword strategy, technical SEO audits, SERP analysis, site architecture planning, or when user mentions SEO strategy, keyword research, technical SEO, or search rankings.

roi-razvitie-draft

7
from ai-mindset-org/pos-sprint

Generates a draft meeting document for the weekly "Roi Развитие" (Wednesday, product Roi Navigator). Use when the user asks for a draft for the meeting, for Wednesday's doc, for "Roi Развитие", or for the weekly team meeting agenda.

project-knowledge-base

7
from ai-mindset-org/pos-sprint

Collects, structures and maintains a Project Knowledge Base (PKB.md) in Obsidian for a marketing agency. Aggregates data from Google Drive, Gmail, Telegram (group chat and DMs via MTProto), moo.team tasks/comments, and local Obsidian meeting transcripts. Uses async parallel collection and a two-stage LLM pipeline for init. Use when the user wants to initialize, update or enrich a project's knowledge base, mentions PKB, project knowledge base, синхронизация проекта, база знаний проекта, init_project_knowledge, update_project_knowledge, or ad_hoc_add_context.

product-strategist

7
from ai-mindset-org/pos-sprint

Strategic product leadership toolkit for Head of Product including OKR cascade generation, market analysis, vision setting, and team scaling. Use for strategic planning, goal alignment, competitive analysis, and organizational design.