voice-inbox

Transcripción de audio y flujo audio→texto→acción para mensajes de voz

32 stars

bygonzalezpazmonica

View on GitHub Installation ↓

Best use case

voice-inbox is best used when you need a repeatable AI agent workflow instead of a one-off prompt.

Transcripción de audio y flujo audio→texto→acción para mensajes de voz

Teams using voice-inbox should expect a more consistent output, faster repeated execution, less prompt rewriting.

When to use this skill

You want a reusable workflow that can be run more than once with consistent structure.

When not to use this skill

You only need a quick one-off answer and do not need a reusable workflow.
You cannot install or maintain the underlying files, dependencies, or repository context.

Installation

Claude Code / Cursor / Codex

$curl -o ~/.claude/skills/voice-inbox/SKILL.md --create-dirs "https://raw.githubusercontent.com/gonzalezpazmonica/pm-workspace/main/.claude/skills/voice-inbox/SKILL.md"

Manual Installation

Download SKILL.md from GitHub
Place it in .claude/skills/voice-inbox/SKILL.md inside your project
Restart your AI agent — it will auto-discover the skill

How voice-inbox Compares

Feature / Agent	voice-inbox	Standard Approach
Platform Support	Not specified	Limited / Varies
Context Awareness	High	Baseline
Installation Complexity	Unknown	N/A

Frequently Asked Questions

What does this skill do?

Transcripción de audio y flujo audio→texto→acción para mensajes de voz

Where can I find the source code?

You can find the source code on GitHub using the link provided at the top of the page.

SKILL.md Source

# Voice Inbox — Transcripción y procesamiento de mensajes de voz

Skill para transcribir mensajes de audio recibidos por WhatsApp o Nextcloud Talk,
interpretar la intención del PM y ejecutar el comando correspondiente en pm-workspace.

## Flujo principal

```
Audio (.ogg/.opus/.m4a) → Faster-Whisper → Texto → Claude interpreta → Comando
```

1. **Descargar audio** — MCP WhatsApp `download_media` o Nextcloud Talk API
2. **Convertir formato** — ffmpeg si necesario (ogg/opus → wav 16kHz mono)
3. **Transcribir** — Faster-Whisper (local, sin enviar audio a terceros)
4. **Interpretar** — Claude analiza el texto y mapea a un comando de pm-workspace
5. **Confirmar** — Mostrar al PM la transcripción + comando propuesto antes de ejecutar
6. **Ejecutar** — Lanzar el comando tras confirmación

## Configuración de Faster-Whisper

### Instalación

```bash
pip install faster-whisper --break-system-packages
```

### Modelos recomendados

| Modelo | RAM | Velocidad | Calidad | Uso recomendado |
|---|---|---|---|---|
| `tiny` | ~1 GB | Muy rápida | Básica | Test rápido, mensajes cortos claros |
| `base` | ~1 GB | Rápida | Buena | Mensajes cortos en entorno silencioso |
| `small` | ~2 GB | Media | Muy buena | **Recomendado para uso diario** |
| `medium` | ~5 GB | Lenta | Excelente | Audio con ruido o acentos fuertes |
| `large-v3` | ~10 GB | Muy lenta | Máxima | Cuando la precisión es crítica |

El modelo se configura en `messaging-config.md` → `WHISPER_MODEL`.
Por defecto: `small` (buen equilibrio calidad/velocidad).

### Idiomas

Faster-Whisper detecta idioma automáticamente, pero se puede forzar:
- `WHISPER_LANGUAGE = "es"` → español
- `WHISPER_LANGUAGE = "auto"` → detección automática (defecto)

## Interpretación de intención

Una vez transcrito el audio, Claude recibe el texto con este prompt interno:

```
El PM ha enviado un mensaje de voz. Transcripción:
"{texto_transcrito}"

Analiza la intención y responde con:
1. Comando de pm-workspace más adecuado (con parámetros)
2. Confianza: alta/media/baja
3. Si confianza < alta → pedir confirmación al PM

Contexto: proyecto activo = {proyecto_actual}
Comandos disponibles: @docs/rules/domain/pm-workflow.md
```

### Ejemplos de mapeo voz → comando

| El PM dice... | Comando mapeado |
|---|---|
| "Ponme el estado del sprint de sala-reservas" | `/sprint-status --project sala-reservas` |
| "¿Cómo va la deuda técnica?" | `/debt-track --project {activo}` |
| "Descompón el PBI 1234 en tareas" | `/pbi-decompose 1234` |
| "Genera el informe ejecutivo del sprint" | `/report-executive --project {activo}` |
| "Hazme un audit del proyecto nuevo" | `/project-audit --project {activo}` |
| "Manda el resumen del sprint al equipo por Slack" | `/notify-slack #equipo {resumen}` |
| "¿Qué alertas de seguridad hay?" | `/security-alerts --project {activo}` |

### Casos ambiguos

Si la transcripción no mapea claramente a un comando:
- Confianza baja → mostrar transcripción + "¿Qué quieres que haga con esto?"
- Múltiples comandos posibles → listar opciones para que el PM elija
- No es un comando → tratar como mensaje informativo y archivar

## Formatos de audio soportados

| Formato | Origen típico | Conversión necesaria |
|---|---|---|
| `.ogg` (Opus) | WhatsApp | No (Faster-Whisper lo soporta) |
| `.m4a` (AAC) | iOS WhatsApp | `ffmpeg -i input.m4a output.wav` |
| `.webm` (Opus) | Nextcloud Talk web | No |
| `.wav` | General | No |

## Restricciones

- **Privacidad**: el audio se procesa LOCAL, nunca se envía a APIs externas
- **Confirmación**: SIEMPRE mostrar transcripción y comando antes de ejecutar
- **Errores de transcripción**: si el PM corrige, aprender del contexto
- Requiere `ffmpeg` instalado para conversiones de formato
- Requiere `faster-whisper` instalado (`pip install faster-whisper`)

Related Skills

zoom-out

from gonzalezpazmonica/pm-workspace

Elevates perspective from trees to forest. Maps architecture, dependencies, and second-order effects before implementation decisions. Use when designing, when evaluating trade-offs, or at the start of design sessions.

workspace-integrity

from gonzalezpazmonica/pm-workspace

Catalogo de integrity auditors — drift CLAUDE.md, rule manifest, orphan rules, agents catalog sync, baseline, agent size

wellbeing-guardian

from gonzalezpazmonica/pm-workspace

Sistema proactivo de bienestar individual

web-research

from gonzalezpazmonica/pm-workspace

Search the web to resolve context gaps — documentation, versions, CVEs, best practices. Auto-starts SearxNG Docker if available, falls back to WebSearch.