🎙️

speech-to-text

Name: speech-to-text
Author: inference-sh-9

Seguro ⚙️ Comandos externos🌐 Acceso a red

Transcribe audio con Whisper AI

Convierte grabaciones de audio en transcripciones de texto precisas utilizando los modelos Whisper de última generación. Perfecto para transcribir reuniones, podcasts, notas de voz y generar subtítulos de videos automáticamente.

Soporta: Claude Codex Code(CC)

📊 69 Adecuado

Descargar el ZIP de la skill

Subir en Claude

Ve a Configuración → Capacidades → Skills → Subir skill

Activa y empieza a usar

Pruébalo

Usando "speech-to-text". Transcribe la grabación de la reunión en https://files.example.com/team-meeting.mp3

Resultado esperado:

Texto completo de la transcripción de la reunión con identificación de hablantes e idioma detectado

Usando "speech-to-text". Transcribe https://audio.example.com/interview.mp3 con marcas de tiempo

Resultado esperado:

Transcripción JSON que contiene texto completo, segmentos con marcas de tiempo y código de idioma detectado

Usando "speech-to-text". Traduce el audio en francés de https://files.example.com/french-speech.mp3 al inglés

Resultado esperado:

Traducción al inglés del contenido de audio en francés

Auditoría de seguridad

Seguro

v1 • 3/1/2026

All 37 static analysis findings are false positives from markdown code examples in documentation. The skill contains only documentation (SKILL.md) with bash command examples demonstrating inference.sh CLI usage. No executable code, no prompt injection attempts, and no malicious intent detected. The allowed-tools directive properly restricts Bash tool to infsh commands only.

Archivos escaneados

130

Líneas analizadas

hallazgos

Auditorías totales

Auditado por: claude

Puntuación de calidad

Arquitectura

100

Mantenibilidad

Contenido

Comunidad

100

Seguridad

Cumplimiento de la especificación

Lo que puedes crear

Transcripción de reuniones

Convierte el audio de reuniones grabadas en texto searchable para documentación y compartir

Producción de podcasts

Genera notas del programa y transcripciones para episodios de podcasts para mejorar la accesibilidad

Subtitulado de videos

Crea subtítulos precisos para videos transcribiendo pistas de audio con marcas de tiempo

Prueba estos prompts

Transcripción básica

Transcribe el archivo de audio en https://example.com/meeting.mp3 a texto

Con marcas de tiempo

Transcribe https://example.com/podcast.mp3 e incluye marcas de tiempo para cada segmento

Traducir al inglés

Traduce el audio en español de https://example.com/spanish.mp3 a texto en inglés

Flujo de trabajo de subtítulos de video

Extrae el audio de https://example.com/video.mp4, transcríbelo con marcas de tiempo y prepáralo para agregar subtítulos

Mejores prácticas

Usa grabaciones de audio de alta calidad para obtener la mejor precisión de transcripción
Incluye marcas de tiempo al crear subtítulos o cuando necesites referenciar momentos específicos
Elige el modelo Fast Whisper para velocidad, Whisper V3 Large para la mayor precisión
Proporciona archivos de audio en formatos comunes como MP3, WAV o M4A para mejor compatibilidad

Evitar

No intentes transcribir flujos de audio en tiempo real: esta herramienta requiere URLs de archivos
Evita usar grabaciones de muy baja calidad o ruidosas sin considerar post-procesamiento
No olvides instalar la CLI de inference.sh antes de intentar la transcripción
Evita solicitar la transcripción de contenido con derechos de autor sin los permisos adecuados

Preguntas frecuentes

¿Qué formatos de audio son compatibles?

La herramienta acepta archivos de audio accesibles mediante URL pública en formatos comunes incluyendo MP3, WAV, M4A y otros compatibles con los modelos Whisper.

¿Qué tan precisa es la transcripción?

Whisper V3 Large proporciona precisión de última generación. Fast Whisper Large V3 ofrece una precisión similar con procesamiento más rápido. Ambos admiten más de 99 idiomas.

¿Necesito instalar algo?

Sí, necesitas instalar la herramienta de línea de comandos inference.sh usando el comando: curl -fsSL https://cli.inference.sh | sh && infsh login

¿Puedo transcribir audio en tiempo real?

No, esta herramienta funciona con archivos de audio pregrabados. La transcripción en tiempo real requiere una solución diferente diseñada para audio en streaming.

¿Cuál es la diferencia entre los dos modelos?

Fast Whisper Large V3 prioriza la velocidad manteniendo la precisión. Whisper V3 Large proporciona la mayor precisión posible pero puede tardar más en procesar.

¿Puedo traducir audio extranjero al inglés?

Sí, usa el parámetro de tarea translate para transcribir y traducir audio en idiomas extranjeros directamente a texto en inglés en un solo paso.

Detalles del desarrollador

Autor

inference-sh-9

Licencia

MIT

Repositorio

https://github.com/inference-sh-9/skills/tree/main/skills/speech-to-text/

Ref.

main

Estructura de archivos

📄 SKILL.md

speech-to-text

Pruébalo

Auditoría de seguridad

Factores de riesgo

Puntuación de calidad

Lo que puedes crear

Transcripción de reuniones

Producción de podcasts

Subtitulado de videos

Prueba estos prompts

Mejores prácticas

Evitar

Preguntas frecuentes

Detalles del desarrollador