Cómo instalar Pinokio en Windows e instalar E2-F5-TTS para clonar voces con inteligencia artificial

En la era de la IA, clonar una voz de forma local, gratuita e ilimitada es más sencillo que nunca. Pinokio es un “navegador para IA” que permite instalar y ejecutar aplicaciones de inteligencia artificial con un solo clic, sin complicaciones de líneas de comando, entornos virtuales ni dependencias manuales. Una de las mejores herramientas disponibles en Pinokio es E2-F5-TTS (basado en los modelos E2-TTS y F5-TTS de Microsoft y open-source), capaz de clonar cualquier voz con solo 10-15 segundos de audio de referencia. El resultado es sorprendentemente natural y funciona 100 % offline en tu PC.A continuación te explico paso a paso cómo instalarlo todo en Windows (10 o 11) y empezar a clonar voces.

Requisitos previos

Windows 10/11 de 64 bits.Recomendado: Tarjeta gráfica NVIDIA con al menos 8 GB de VRAM (RTX 30/40/50 series ideal).
Funciona en CPU, pero es mucho más lento.10-15 GB de espacio libre en disco (los modelos y dependencias ocupan varios gigas).
Conexión a internet solo para la instalación inicial.

Paso 1: Instalar Pinokio en Windows

Abre tu navegador y ve al sitio oficial: https://pinokio.co/Haz clic en Download (o ve directamente a https://pinokio.co/download.html).
Descarga el “Windows 64-bit installer” (archivo .exe).
Ejecuta el instalador como administrador (doble clic).
Sigue el asistente de instalación (es muy rápido y automático).
Al terminar, abre Pinokio desde el menú Inicio o el acceso directo en el escritorio.

Listo! Pinokio ya está instalado y preparado para instalar cualquier app de IA con un clic.

Paso 2: Instalar E2-F5-TTS en Pinokio

Abre la aplicación Pinokio.En la parte superior o lateral, haz clic en la pestaña Discover (Descubrir).
En la barra de búsqueda escribe: E2-F5-TTS (o “e2 f5 tts”).
Aparecerá la aplicación oficial (desarrollada por pinokiofactory).
Haz clic en ella.Pulsa el botón grande Install (Instalar). Pinokio descargará automáticamente todo: Python, PyTorch, modelos de voz, dependencias y la interfaz Gradio.
Tiempo estimado: 5-15 minutos según tu conexión y velocidad del disco.
Cuando termine, aparecerá el botón Launch (Lanzar) o Start.

Paso 3: Clonar tu primera voz

Pulsa Launch. Se abrirá automáticamente una interfaz web local (normalmente en http://127.0.0.1:xxxx).En la sección Reference Audio (Audio de referencia):
Sube un archivo de audio (.wav o .mp3) de 10-15 segundos de la voz que quieres clonar. Puedes grabar tu voz con Clicpchamp de WIndows o culquier otra herramienta como Audacity …
Consejo: usa audio limpio, sin ruido de fondo y con buena calidad (grabación de voz natural).
En el cuadro de texto Text escribe lo que quieres que diga la voz (puede ser en español, inglés u otros idiomas).(Opcional) Ajusta parámetros:
Temperature / Top-p (para más creatividad o fidelidad).
Idioma o modo de habla.
Pulsa Generate o Synthesize.En pocos segundos (o minutos según tu GPU) escucharás el audio clonado. Puedes descargarlo.

Consejos para mejores resultados

Usa audios de referencia cortos y claros (mejor 10-15 segundos que varios minutos).
Graba la voz de referencia en un entorno silencioso.
Si tienes GPU NVIDIA, el proceso es mucho más rápido (segundos por frase).
Si aparece algún error la primera vez, reinicia Pinokio o la app (a veces necesita descargar CUDA automáticamente).
Puedes actualizar el modelo fácilmente desde la misma interfaz de Pinokio (botón Update).

Ventajas de este método

100 % local y privado (nada sale de tu PC).
Gratuito e ilimitado (a diferencia de ElevenLabs o servicios pagos).
Calidad profesional comparable a herramientas comerciales.
Funciona incluso en portátiles modestos (aunque más lento).