En la era de la IA, clonar una voz de forma local, gratuita e ilimitada es más sencillo que nunca. Pinokio es un “navegador para IA” que permite instalar y ejecutar aplicaciones de inteligencia artificial con un solo clic, sin complicaciones de líneas de comando, entornos virtuales ni dependencias manuales. Una de las mejores herramientas disponibles en Pinokio es E2-F5-TTS (basado en los modelos E2-TTS y F5-TTS de Microsoft y open-source), capaz de clonar cualquier voz con solo 10-15 segundos de audio de referencia. El resultado es sorprendentemente natural y funciona 100 % offline en tu PC.A continuación te explico paso a paso cómo instalarlo todo en Windows (10 o 11) y empezar a clonar voces.
Requisitos previos
- Windows 10/11 de 64 bits.Recomendado: Tarjeta gráfica NVIDIA con al menos 8 GB de VRAM (RTX 30/40/50 series ideal).
- Funciona en CPU, pero es mucho más lento.10-15 GB de espacio libre en disco (los modelos y dependencias ocupan varios gigas).
- Conexión a internet solo para la instalación inicial.
Paso 1: Instalar Pinokio en Windows
- Abre tu navegador y ve al sitio oficial: https://pinokio.co/Haz clic en Download (o ve directamente a https://pinokio.co/download.html).
- Descarga el “Windows 64-bit installer” (archivo .exe).
- Ejecuta el instalador como administrador (doble clic).
- Sigue el asistente de instalación (es muy rápido y automático).
- Al terminar, abre Pinokio desde el menú Inicio o el acceso directo en el escritorio.
Listo! Pinokio ya está instalado y preparado para instalar cualquier app de IA con un clic.
Paso 2: Instalar E2-F5-TTS en Pinokio
- Abre la aplicación Pinokio.En la parte superior o lateral, haz clic en la pestaña Discover (Descubrir).
- En la barra de búsqueda escribe: E2-F5-TTS (o “e2 f5 tts”).
- Aparecerá la aplicación oficial (desarrollada por pinokiofactory).
- Haz clic en ella.Pulsa el botón grande Install (Instalar). Pinokio descargará automáticamente todo: Python, PyTorch, modelos de voz, dependencias y la interfaz Gradio.
- Tiempo estimado: 5-15 minutos según tu conexión y velocidad del disco.
- Cuando termine, aparecerá el botón Launch (Lanzar) o Start.
Paso 3: Clonar tu primera voz
- Pulsa Launch. Se abrirá automáticamente una interfaz web local (normalmente en http://127.0.0.1:xxxx).En la sección Reference Audio (Audio de referencia):
- Sube un archivo de audio (.wav o .mp3) de 10-15 segundos de la voz que quieres clonar. Puedes grabar tu voz con Clicpchamp de WIndows o culquier otra herramienta como Audacity …
- Consejo: usa audio limpio, sin ruido de fondo y con buena calidad (grabación de voz natural).
- En el cuadro de texto Text escribe lo que quieres que diga la voz (puede ser en español, inglés u otros idiomas).(Opcional) Ajusta parámetros:
- Temperature / Top-p (para más creatividad o fidelidad).
- Idioma o modo de habla.
- Pulsa Generate o Synthesize.En pocos segundos (o minutos según tu GPU) escucharás el audio clonado. Puedes descargarlo.
Consejos para mejores resultados
- Usa audios de referencia cortos y claros (mejor 10-15 segundos que varios minutos).
- Graba la voz de referencia en un entorno silencioso.
- Si tienes GPU NVIDIA, el proceso es mucho más rápido (segundos por frase).
- Si aparece algún error la primera vez, reinicia Pinokio o la app (a veces necesita descargar CUDA automáticamente).
- Puedes actualizar el modelo fácilmente desde la misma interfaz de Pinokio (botón Update).
Ventajas de este método
- 100 % local y privado (nada sale de tu PC).
- Gratuito e ilimitado (a diferencia de ElevenLabs o servicios pagos).
- Calidad profesional comparable a herramientas comerciales.
- Funciona incluso en portátiles modestos (aunque más lento).

