Tutorial paso a paso

Hice un podcast con Will Smith.

Podcast con IA: Cómo hacer un episodio con Will Smith usando Claude Code, ElevenLabs, Fabric y Remotion — Tutorial por Richard Silvera Cichero

Con IA. Sin cámaras. Sin estudio. Sin edición manual. 5 herramientas, 1 proceso, y un video listo para publicar. Este tutorial te lleva de cero a producir tu propio podcast.

30 min 6 pasos 5 tools → 1 app → 0 edicion
00

Antes de empezar

3 min de setup
Slide del carrusel

Hice un podcast con Will Smith.

Con IA. Sin cámaras. Sin estudio. Así podés hacerlo vos también.

Este tutorial te lleva paso a paso por el proceso completo para crear un podcast con IA. El resultado es un video con dos personas hablando, labios sincronizados, subtítulos y todo listo para publicar. No necesitás micrófono ni cámara, y no hace falta que sepas editar video.

Lo que sí necesitás son cuentas en las herramientas que vamos a usar (todas tienen plan gratuito) y Claude Code instalado.

Lo que necesitás

  • Claude Code (Anthropic)

    Plan Pro o Max en claude.ai (USD $20/mes). Claude Code es el que maneja todo: escribe el guion, conecta las herramientas y te arma la app final. Lo instalás con un solo comando.

  • Cuenta en ElevenLabs

    Entrá a elevenlabs.io y creá una cuenta. El plan gratuito incluye 10.000 creditos/mes (aprox. 10 minutos de audio). La usamos para la voz de Rich.

  • Cuenta en Fish Audio

    Entrá a fish.audio y creá una cuenta. Fish Audio tiene una biblioteca comunitaria con voces de todo tipo, incluida una de Will Smith. Pago por uso: USD $15 por millon de bytes UTF-8 (un episodio de 3 minutos cuesta centavos).

  • Cuenta en Google AI Studio

    Entrá a aistudio.google.com y creá una cuenta. Gemini 3.1 Flash genera las imagenes de los speakers. El plan gratuito alcanza de sobra.

  • Cuenta en fal.ai

    Entrá a fal.ai y creá una cuenta. Aca corre Fabric 1.0 (de VEED), el modelo de lip sync. El costo es de USD $0.08 a $0.15 por segundo de video generado. Un episodio de 3 minutos te sale alrededor de USD $15-25.

Instalar Claude Code

Si todavia no lo tenés, abrí la terminal de tu computadora y pegá esto:

Terminal
curl -fsSL https://claude.ai/install.sh | bash

Despues de instalarlo, creá una carpeta para el proyecto y arrancá Claude Code adentro:

Terminal
mkdir mi-podcast-ia
cd mi-podcast-ia
claude

Lo primero que le vas a pedir es que te prepare el proyecto con todas las claves de las herramientas:

Prompt para Claude Code
> Configurame el proyecto para hacer un podcast con IA. Necesito que crees un archivo .env con las claves de ElevenLabs, Fish Audio, Google AI Studio y fal.ai. Dejá los valores vacios para que yo los complete. Instalá todo lo que haga falta para que funcione.
Tip Claude Code va a crear el archivo .env, instalar las herramientas necesarias y dejar todo listo. Vos solo tenés que completar las claves con las de tus cuentas.
01

Escribí el guión con Claude Code

5 min
Slide del carrusel

Le hablás. Él escribe.

Claude genera el diálogo completo con interrupciones, risas y pausas.

El guion no es un texto plano que despues alguien lee. Es un dialogo estructurado con emociones, pausas y cambios de tono. Claude Code genera todo esto a partir de una descripcion simple de lo que queres.

Pedile que te genere el guion. Cuanto mas contexto le des, mejor resultado vas a tener. Decile quienes son los speakers, de que hablan, que tono queres y cuanto tiene que durar.

Prompt para Claude Code
> Generame un guion de podcast entre Rich y Will Smith. El tema es como la IA esta cambiando la forma de crear contenido. Que dure aprox 3 minutos. Quiero que suene natural: con interrupciones, risas entre parentesis, y pausas naturales. Guardalo como script.json con segmentos que tengan el speaker, el texto y la emocion.

Claude va a generar un archivo script.json con todo el dialogo estructurado. Cada segmento tiene el speaker, el texto y la emocion. Eso es lo que despues se usa para generar las voces con el tono correcto.

Cómo mejorar el guión

  • Dale personalidad a cada speaker

    Decile a Claude que Rich habla rápido y con jerga técnica, mientras que Will es más pausado y usa metáforas. Eso se nota en el audio final.

  • Agregá momentos de humor

    Las risas entre segmentos hacen que el podcast suene real. Poné "emotion": "laugh" en los momentos donde naturalmente habría una risa.

  • Usá pausas estratégicas

    ElevenLabs v3 acepta audio tags como [pause], [short pause] y [long pause] directamente en el texto. Usalos antes de frases importantes para crear tensión.

Pro tip Si el diálogo te suena muy "escrito", decile a Claude: "hacelo más conversacional, que suene a dos tipos hablando en un bar". Claude ajusta el tono sin cambiar el contenido.

Tu proyecto ahora:

mi-podcast-ia/
  .env
  script.json
02

Generá las voces con ElevenLabs y Fish Audio

5 min
Slide del carrusel

Dos voces. Un diálogo.

ElevenLabs para Rich, Fish Audio para Will. Dos APIs, un resultado.

Con el guion listo, el siguiente paso es convertir cada segmento de texto en audio. Aca usamos dos servicios distintos: ElevenLabs para la voz de Rich y Fish Audio para la de Will Smith.

ElevenLabs no tiene la voz de Will Smith en su biblioteca (y clonar voces de famosos sin permiso va contra sus terminos). Fish Audio, en cambio, tiene una biblioteca comunitaria con voces de todo tipo, y cobra por uso.

Pedile a Claude Code que genere todos los audios:

Prompt para Claude Code
> Genera el audio de cada segmento del guion. Usa ElevenLabs para mi voz y Fish Audio para la voz de Will Smith. Despues concatena todos los segmentos en un solo archivo full_audio.mp3.

Claude Code va a leer el guion, detectar quien habla en cada segmento, mandar el texto a la herramienta correspondiente, descargar los audios y unirlos. Todo automatico. En un par de minutos tenes todos los segmentos generados.

Elegir las voces

  • Rich: elegi una voz en ElevenLabs

    ElevenLabs tiene cientos de voces predefinidas. Entra a elevenlabs.io y explora la biblioteca. Cuando encuentres una que te guste, decile a Claude Code cual queres usar.

  • Will: usa Fish Audio

    Entra a fish.audio y busca "Will Smith" en la biblioteca. Fish Audio tiene una coleccion comunitaria con voces de todo tipo. Claude Code se encarga de conectar todo.

Importante Las voces de famosos en Fish Audio son subidas por la comunidad. Usalas para contenido creativo y educativo. Fish Audio lo dice claro en sus terminos: nunca uses voces de figuras publicas para desinformacion o sin contexto.
Tip El plan gratuito de ElevenLabs tiene 10.000 creditos/mes (aprox. 10 min de audio). Solo lo usas para la mitad de los segmentos (los de Rich), asi que te sobra. Fish Audio cobra por uso: USD $15 por millon de bytes, que para un episodio son centavos.

Cuando termine, tu carpeta va a tener los audios individuales y el audio completo unido.

03

Creá el video con Fabric 1.0

7 min
Slide del carrusel

Imagen + audio = video.

Fabric 1.0 toma una foto y el audio. Genera video con labios sincronizados.

Le das a Fabric una foto de una persona y un archivo de audio, y te devuelve un video donde esa persona esta hablando con los labios sincronizados. No es un deepfake barato. Los resultados son mejores de lo que esperas.

Fabric 1.0 corre en fal.ai, asi que primero necesitas generar las imagenes de los speakers. Para eso usamos Gemini 3.1 Flash.

Genera las imagenes con Gemini

Prompt para Claude Code
> Genera dos imagenes fotorealistas con Gemini: una de un hombre joven con auriculares frente a un microfono (Rich), y otra de Will Smith con auriculares en un estudio de podcast. Guardalas en la carpeta images/.

Con las imagenes y los audios listos, ahora viene Fabric. Pedile a Claude Code que genere los videos con lip sync:

Prompt para Claude Code
> Usa Fabric 1.0 en fal.ai para generar un video con lip sync de cada segmento. Que tome la imagen del speaker correspondiente y el audio de cada segmento, y genere los videos. Procesa varios al mismo tiempo para que sea mas rapido.

Fabric procesa cada segmento y genera un video corto por cada uno. El tiempo depende de la duracion del audio, pero en general cada segmento de 10 segundos tarda entre 30 y 60 segundos en procesarse.

  • Calidad de la imagen importa

    Cuanto mejor sea la foto de entrada, mejor el resultado. Usa imagenes de al menos 512x512 con el rostro bien iluminado y de frente.

  • El audio tiene que ser limpio

    Fabric funciona mejor con audio sin ruido de fondo. Las voces de ElevenLabs son perfectas para esto porque no tienen ruido.

Pro tip Si queres que el video se vea mas dinamico, genera pequenas variaciones de la imagen de cada speaker con distintos angulos o expresiones. Fabric anima cada una de forma diferente.
04

Editá todo con Remotion

5 min
Slide del carrusel

Remotion edita tu video.

Remotion intercala speakers, agrega subtitulos y exporta el MP4.

Tenes los videos de cada segmento. Ahora necesitas unirlos en un solo video, intercalando los speakers, agregando subtitulos y transiciones. Para eso usamos Remotion: un programa que te deja armar videos con codigo. Pero no te preocupes, Claude Code genera todo.

Prompt para Claude Code
> Arma un proyecto con Remotion que tome los videos de cada segmento, los intercale en orden, agregue subtitulos sincronizados con el texto del guion, ponga el nombre del speaker cuando cambia, y exporte todo como MP4 en 1080x1920 (vertical para reels).

Claude Code va a crear todo lo necesario, instalar Remotion y dejarlo listo para que previsualices el video en tu navegador.

Prompt para Claude Code
> Abri el preview de Remotion para que pueda ver el video antes de exportar.

Remotion abre un preview en tu navegador donde podes ver el video completo antes de exportarlo. Podes ajustar los subtitulos, las transiciones y el timing en tiempo real. Cuando estes conforme:

Prompt para Claude Code
> Exporta el video final como MP4.

Lo que Remotion te resuelve

  • Intercalado de speakers

    Cada segmento muestra al speaker correspondiente. Las transiciones entre uno y otro son automaticas y suaves.

  • Subtitulos sincronizados

    El texto del guion aparece palabra por palabra sincronizado con el audio. El estilo es totalmente personalizable.

  • Layout split-screen

    Podes mostrar a los dos speakers al mismo tiempo con un layout de dos paneles, o mostrar solo al que esta hablando. Claude Code te genera las dos opciones.

  • Exportacion directa

    El resultado es un MP4 listo para subir a Instagram, TikTok o YouTube Shorts. Sin pasar por otro programa.

Tip El preview de Remotion es tu sala de edicion. Si queres cambiar colores, tamanos de fuente o posicion de los subtitulos, pediselo a Claude Code. Todo se actualiza en tiempo real en el navegador.

Tu proyecto ahora tiene el guion, los audios, las imagenes, los videos con lip sync, y el MP4 final listo para publicar.

05

Armá tu propia app

5 min
Slide del carrusel

"Armame una app para hacer reels."

Claude Code te arma la web app que automatiza todo el proceso.

Hasta aca hiciste todo paso a paso: guion, voces, imagenes, lip sync, edicion. Funciona perfecto. Pero si queres hacer esto seguido, necesitas automatizarlo. Pedile a Claude Code que te arme una web app que conecte todo.

Prompt para Claude Code
> Armame una web app local donde pueda escribir el tema del podcast y que genere el guion automatico, ver el guion y editarlo antes de generar audio, generar las voces con un boton, generar los videos con lip sync con otro boton, previsualizar el video final y exportar el MP4 listo para publicar.

Claude Code genera una aplicacion web completa con interfaz visual, botones para cada paso y preview del resultado. Todo corre en tu maquina. Cuando termine, te va a decir como abrirla en tu navegador.

Lo que podes pedirle que incluya

  • Dashboard de progreso

    Una barra que te muestra en que paso esta: generando guion, generando audio, procesando video, exportando.

  • Editor de guion visual

    Editar el texto, cambiar las emociones, reordenar los segmentos. Todo visual, sin tocar archivos.

  • Selector de voces

    Escuchar un preview de cada voz disponible en ElevenLabs y asignar una a cada speaker desde la interfaz.

  • Historial de episodios

    Que la app guarde cada podcast que generas con su guion, audios y video final. Asi tenes un archivo de todo tu contenido.

Pro tip Esta app es tuya. Corre en tu maquina y no tiene suscripcion. Y cada vez que necesites algo nuevo, le pedis a Claude Code que lo agregue. Es tu estudio de produccion personalizado.
Tip Si queres llevar la app a otro nivel, pedile a Claude Code que agregue publicacion automatica. Que cuando exportes un episodio, lo postee directo en tus redes.

Ahora te toca a vos.

Si querés que te enseñe paso a paso cómo armar tu propio sistema de contenido con IA, comentá abajo.

Quiero mi mentoría