voice-inbox
Transcripción de audio y flujo audio→texto→acción para mensajes de voz
Best use case
voice-inbox is best used when you need a repeatable AI agent workflow instead of a one-off prompt.
Transcripción de audio y flujo audio→texto→acción para mensajes de voz
Teams using voice-inbox should expect a more consistent output, faster repeated execution, less prompt rewriting.
When to use this skill
- You want a reusable workflow that can be run more than once with consistent structure.
When not to use this skill
- You only need a quick one-off answer and do not need a reusable workflow.
- You cannot install or maintain the underlying files, dependencies, or repository context.
Installation
Claude Code / Cursor / Codex
Manual Installation
- Download SKILL.md from GitHub
- Place it in
.claude/skills/voice-inbox/SKILL.mdinside your project - Restart your AI agent — it will auto-discover the skill
How voice-inbox Compares
| Feature / Agent | voice-inbox | Standard Approach |
|---|---|---|
| Platform Support | Not specified | Limited / Varies |
| Context Awareness | High | Baseline |
| Installation Complexity | Unknown | N/A |
Frequently Asked Questions
What does this skill do?
Transcripción de audio y flujo audio→texto→acción para mensajes de voz
Where can I find the source code?
You can find the source code on GitHub using the link provided at the top of the page.
SKILL.md Source
# Voice Inbox — Transcripción y procesamiento de mensajes de voz
Skill para transcribir mensajes de audio recibidos por WhatsApp o Nextcloud Talk,
interpretar la intención del PM y ejecutar el comando correspondiente en pm-workspace.
## Flujo principal
```
Audio (.ogg/.opus/.m4a) → Faster-Whisper → Texto → Claude interpreta → Comando
```
1. **Descargar audio** — MCP WhatsApp `download_media` o Nextcloud Talk API
2. **Convertir formato** — ffmpeg si necesario (ogg/opus → wav 16kHz mono)
3. **Transcribir** — Faster-Whisper (local, sin enviar audio a terceros)
4. **Interpretar** — Claude analiza el texto y mapea a un comando de pm-workspace
5. **Confirmar** — Mostrar al PM la transcripción + comando propuesto antes de ejecutar
6. **Ejecutar** — Lanzar el comando tras confirmación
## Configuración de Faster-Whisper
### Instalación
```bash
pip install faster-whisper --break-system-packages
```
### Modelos recomendados
| Modelo | RAM | Velocidad | Calidad | Uso recomendado |
|---|---|---|---|---|
| `tiny` | ~1 GB | Muy rápida | Básica | Test rápido, mensajes cortos claros |
| `base` | ~1 GB | Rápida | Buena | Mensajes cortos en entorno silencioso |
| `small` | ~2 GB | Media | Muy buena | **Recomendado para uso diario** |
| `medium` | ~5 GB | Lenta | Excelente | Audio con ruido o acentos fuertes |
| `large-v3` | ~10 GB | Muy lenta | Máxima | Cuando la precisión es crítica |
El modelo se configura en `messaging-config.md` → `WHISPER_MODEL`.
Por defecto: `small` (buen equilibrio calidad/velocidad).
### Idiomas
Faster-Whisper detecta idioma automáticamente, pero se puede forzar:
- `WHISPER_LANGUAGE = "es"` → español
- `WHISPER_LANGUAGE = "auto"` → detección automática (defecto)
## Interpretación de intención
Una vez transcrito el audio, Claude recibe el texto con este prompt interno:
```
El PM ha enviado un mensaje de voz. Transcripción:
"{texto_transcrito}"
Analiza la intención y responde con:
1. Comando de pm-workspace más adecuado (con parámetros)
2. Confianza: alta/media/baja
3. Si confianza < alta → pedir confirmación al PM
Contexto: proyecto activo = {proyecto_actual}
Comandos disponibles: @docs/rules/domain/pm-workflow.md
```
### Ejemplos de mapeo voz → comando
| El PM dice... | Comando mapeado |
|---|---|
| "Ponme el estado del sprint de sala-reservas" | `/sprint-status --project sala-reservas` |
| "¿Cómo va la deuda técnica?" | `/debt-track --project {activo}` |
| "Descompón el PBI 1234 en tareas" | `/pbi-decompose 1234` |
| "Genera el informe ejecutivo del sprint" | `/report-executive --project {activo}` |
| "Hazme un audit del proyecto nuevo" | `/project-audit --project {activo}` |
| "Manda el resumen del sprint al equipo por Slack" | `/notify-slack #equipo {resumen}` |
| "¿Qué alertas de seguridad hay?" | `/security-alerts --project {activo}` |
### Casos ambiguos
Si la transcripción no mapea claramente a un comando:
- Confianza baja → mostrar transcripción + "¿Qué quieres que haga con esto?"
- Múltiples comandos posibles → listar opciones para que el PM elija
- No es un comando → tratar como mensaje informativo y archivar
## Formatos de audio soportados
| Formato | Origen típico | Conversión necesaria |
|---|---|---|
| `.ogg` (Opus) | WhatsApp | No (Faster-Whisper lo soporta) |
| `.m4a` (AAC) | iOS WhatsApp | `ffmpeg -i input.m4a output.wav` |
| `.webm` (Opus) | Nextcloud Talk web | No |
| `.wav` | General | No |
## Restricciones
- **Privacidad**: el audio se procesa LOCAL, nunca se envía a APIs externas
- **Confirmación**: SIEMPRE mostrar transcripción y comando antes de ejecutar
- **Errores de transcripción**: si el PM corrige, aprender del contexto
- Requiere `ffmpeg` instalado para conversiones de formato
- Requiere `faster-whisper` instalado (`pip install faster-whisper`)Related Skills
zoom-out
Elevates perspective from trees to forest. Maps architecture, dependencies, and second-order effects before implementation decisions. Use when designing, when evaluating trade-offs, or at the start of design sessions.
workspace-integrity
Catalogo de integrity auditors — drift CLAUDE.md, rule manifest, orphan rules, agents catalog sync, baseline, agent size
wellbeing-guardian
Sistema proactivo de bienestar individual
web-research
Search the web to resolve context gaps — documentation, versions, CVEs, best practices. Auto-starts SearxNG Docker if available, falls back to WebSearch.
verification-lattice
Multi-layer verification pipeline beyond Code Review
topic-cluster
BERTopic clustering — agrupa retros/PBIs/incidents/lessons en topics tematicos con labels. Filtra ruido, descubre patrones cross-proyecto
time-tracking-report
Generación de informes de imputación de horas a Excel/Word
tier3-probes
Catalogo de feasibility probes para champions Tier 3 — Scrapling, Oumi, Memvid, BERTopic, Reranker, PDF extract
test-architect
Design and generate highest-quality tests across 16 languages and 14 test types
tech-research-agent
Agente de investigación técnica autónoma — investiga temas, genera informes, notifica al humano designado
team-onboarding
Onboarding y evaluación de competencias para nuevos miembros del equipo
team-coordination
Multi-team orchestration — create teams, assign members, detect cross-team blockers