Tutorial · Lip sync con IA

Hago hablar a una serie entera.

Esos videos virales donde un personaje de una serie o película dice cosas que nunca dijo. No es un subtítulo trucho ni un audio pegado encima: el personaje mueve la boca diciendo lo que vos escribís. Lo llamo el meme 2.0. Acá te muestro cómo hacerlo de punta a punta.

Una tarde 9 pasos Sin programar
El tipo de reel que vas a poder hacer. Este video no es mío, es de Mom (@mom_agency_) en X
00

Qué vas a hacer (y qué no)

Para ubicarte
La idea de fondo

No generás la escena. Le cambiás lo que dicen.

Agarrás un clip real y hacés que el personaje module las palabras que vos querés.

Habrás visto esos reels de The Office, de alguna película o serie, donde el personaje dice cualquier cosa que te hace reír. Antes eso se hacía con el truco viejo: subtítulos falsos o un audio grabado por arriba. Hoy es otra cosa. Ahora el personaje realmente modula con la boca las palabras que vos elegiste. A eso lo llamo el meme 2.0.

Y ojo con esto porque es la clave de todo: esto no es generar una escena nueva con IA. No te estás metiendo vos adentro, no estás creando nada de cero. Es una edición sobre el video original al que le hacemos un lip sync por encima. Respetás la escena tal cual está, y lo único que cambiás son las palabras que el actor dice.

Esa técnica tiene nombre: lip sync. Sincronización de labios. Cambiar las palabras y la modulación de la boca de alguien que ya está filmado.

Por qué no lo hacés con un generador de video Los sistemas que generan video con IA no te dejan usar actores famosos ni series o películas conocidas, por derechos de autor. Si intentás que te armen la escena, te frenan. Por eso vamos por otro lado: usamos el clip real que ya existe y le tocamos solo la voz y la boca. Ese camino sí lo podés hacer.
01

Por qué Claude Code (y si no lo tenés)

El cerebro del sistema
El rol de Claude

Claude es tu guía, no el que hace la magia.

Él no hace el lip sync solo. Te arma el sistema para que lo repitas rápido.

Para todo este proceso nos vamos a apoyar en Claude Code. Pero te lo aclaro de entrada: si no lo usás o todavía no sabés, no te trabes acá. Lo podés hacer igual con el chat de Claude gratis, que te va guiando paso a paso. Va a ser más limitado, pero llegás igual al resultado.

Ahora, cuando lo usás dentro de Claude Code, ganás algo grande: convertís todo esto en un sistemita que anda más rápido y que después replicás para cada video nuevo. Esa es la diferencia entre hacer un meme y armar una cuenta que produce memes en serie.

Planes Para usar Claude Code en serio necesitás el plan de USD 20 o el de USD 100 al mes. Si recién arrancás, el de 20 te sobra. Te recomiendo tenerlo porque vas a volar, no solo en esto sino en todos tus proyectos. Y si no querés pagar todavía, el chat gratis te ayuda igual.
Antes de arrancar Bajá la app de escritorio de Claude desde claude.com/download e iniciá sesión. Yo trabajo con la app, no dentro del navegador. El único prerequisito de este tutorial es tener Claude Code abierto.
02

Armás el proyecto

La base donde trabaja Claude
La estructura

Una carpeta y tres subcarpetas.

Clips, Audios, Subtítulos. Con eso ya tenés todo ordenado.

Primero creás una carpeta nueva en tu computadora. Le ponés el nombre del proyecto. En mi caso la llamé The Office, que es la serie con la que armé el ejemplo. Esa carpeta va a ser la base sobre la que Claude Code trabaja y te va guiando.

Adentro de esa carpeta hacés tres más: Clips, Audios y Subtítulos. Estas tres carpetitas son las que vamos a ir llenando a medida que avanzamos.

The Office/ Clips/ # los planos que cortás del video Audios/ # la voz nueva que generás Subtítulos/ # los subtítulos que baja Claude

Después abrís Claude Code y le decís que trabaje en esa carpeta. Queda encerrado ahí, no se va a meter en otra cosa. Acordate de algo importante: lo vamos a usar como guía, no como un creador que hace todo solo. El lip sync no lo va a generar él automáticamente. Te acompaña en cada paso y te agiliza el trabajo.

03

Claude busca la escena

El research que define todo
El research

Contale a quién le hablás. Él encuentra la escena.

Que la serie resuene con tu audiencia. Ahí está el viral.

Acá empieza lo bueno. Lo primero es contarle a Claude que vas a hacer un reel viral para tu audiencia. Y contale bien quién es tu audiencia, qué le interesa, con qué se engancha. Eso es lo que va a hacer que la cosa funcione.

Porque querés un video viral, y para eso la serie o película tiene que resonar fuerte con tu gente. Si pega, te trae comentarios, te trae leads nuevos y el contenido se propaga solo. Si elegís algo que a tu audiencia no le dice nada, no hay lip sync que lo salve.

Le pedís que te ayude a armar la idea: una serie o película, y una escena puntual que sea cómica, entretenida, y donde puedas cambiar las palabras de lo que dicen. Pegale algo así:

Prompt para Claude Code
> Voy a hacer un reel viral para mi audiencia con la técnica de lip sync: agarro una escena de una serie o película y le cambio las palabras a un personaje. Mi audiencia es [contale acá quiénes son y qué les gusta]. Buscame una serie o película que resuene con ellos y una escena puntual, cómica y entretenida, donde pueda cambiar lo que el personaje dice. Importante: respetá la escena tal cual, no la modifiques, solo me importa poder cambiar las palabras. Proponeme un par de ideas con el diálogo que podría reemplazar.

Claude hace el research según tu audiencia y te tira la película o serie, la escena exacta que podrías modificar, y qué cambiarle. No te va a venir con "sacale la botella de la mano y ponele un gato". Le hablamos de lip sync, así que respeta la escena y se concentra en que las palabras nuevas peguen lo suficiente como para transmitir tu idea e impactar. Ahí trabaja muy bien.

04

Bajás los subtítulos

El mapa de los cortes
Por qué importan

Los subtítulos traen el time code.

Saben qué se dice en cada segundo. Ahí están tus cortes.

Una vez que tenés la película y la escena, hay que trabajar con los subtítulos. ¿Para qué? Porque los subtítulos traen el time code: el momento exacto, segundo a segundo, en que se dice cada cosa. Con eso Claude te dice con precisión qué trozos cortar para que el video funcione.

Le das una instrucción bien simple: que busque y descargue los subtítulos de la película o serie que te recomendó. Claude se va a instalar solo una herramienta que se llama Subliminal, que baja subtítulos de varios proveedores, va a buscar él solo los que necesitás y te los deja en tu carpeta de Subtítulos.

El truco: pedí subtítulos SDH o CC

Acá va un secreto que te ahorra dolores de cabeza. Los subtítulos normales solo dicen lo que se habla, pero no qué pasa en pantalla. Por eso conviene pedir los SDH (los pensados para personas sordas o con dificultad auditiva), también conocidos como CC, closed captions. Esos son distintos porque te traen:

  • Quién habla

    Te identifican qué personaje está diciendo cada línea en pantalla.

  • Los efectos de sonido

    Cosas como "golpe de puerta" o "música tensa". Claude entiende qué está pasando alrededor.

  • El tono y la emoción

    Si el personaje "susurra" o "grita". Eso después te sirve para elegir bien la voz.

  • Sonidos ambientales

    Un teléfono que suena, la lluvia. Detalles que te ubican la escena entera.

Con los SDH, Claude sabe exactamente qué sucede en cada momento, no solo lo que se dice. Pedíselos por nombre:

Prompt para Claude Code
> Buscá y descargá los subtítulos SDH o CC (closed captions) de [serie o película] y dejámelos en la carpeta Subtítulos. Después decime exactamente en qué segundos tengo que cortar para armar la escena que pensamos, plano por plano.
No siempre están Los subtítulos SDH no existen para todas las series o películas, porque no todas los mandaron a hacer. Pero si elegiste algo muy conocido, como Avatar, casi seguro los tiene. Si no aparecen, igual te servís de los subtítulos normales.

Una escena o una armada por vos

Hay dos formas de encarar esto. Una es que una escena ya sirva tal cual y solo le cambies lo que dicen ahí. La otra es armar una escena nueva juntando planos de distintos momentos de la película o el capítulo.

Pará que te explico una cosa: una escena se compone de planos. Pensá en el personaje hablando a cámara, después agarrando una taza, después hablando de nuevo, después yéndose por la puerta. Esos son cuatro planos de una misma escena. Como Claude leyó los subtítulos, sabe más o menos qué pasa en cada uno y te dice exactamente dónde cortar.

05

Cortás plano por plano

En CapCut o tu editor
La regla del corte

El lip sync se hace plano por plano.

Nunca subas la escena entera de una. Plano por plano.

Ahora vas a tu editor de video. Yo uso CapCut, pero sirve cualquiera. Importás la película o serie que habrás descargado de internet y hacés los cortes justo en los segundos que te marcó Claude. Borrás todo lo demás y te queda la línea de tiempo con la nueva escena armada.

Edición en CapCut de una escena de The Office con Michael Scott, cortes en la línea de tiempo y el subtítulo 'Todos conozcan a Claude' para el lip sync
Los cortes en CapCut, plano por plano, con la escena de The Office lista

Cuando la mirás y ves que puede llegar a funcionar, exportás cada plano por separado. En CapCut es clic derecho sobre el clip y exportar clip seleccionado. Eso te exporta solo ese plano. Repetís con cada uno y los vas dejando en tu carpeta de Clips.

¿Por qué por separado y no todo junto? Porque el lip sync se hace plano por plano. Juntar toda la escena en un solo video y subirla no sirve para nada. Cada plano va a su propio lip sync.

Mirá la longitud de cada plano Anotá cuántos segundos dura cada plano cuando lo exportás. Ese dato lo vas a necesitar en el paso de la voz, porque el audio nuevo no puede durar más que el clip.
06

Clonás la voz del actor

Acá entra Fish Audio
La herramienta de voz

ElevenLabs no te deja clonar famosos. Fish Audio sí.

Y lo más probable es que la voz ya esté clonada por la comunidad.

Antes del lip sync necesitás generar la voz nueva del actor. La plataforma líder para voces es ElevenLabs, pero no te va a dejar crear la voz de un famoso porque no podés confirmar la identidad de esa voz. Para eso usamos Fish Audio.

En Fish Audio podés crear voces nuevas a partir de películas, videos de YouTube y demás. Pero acá va lo mejor: si elegiste una serie o película muy conocida, lo más probable es que la voz de ese actor ya esté clonada por la comunidad. Andá a buscarla. Yo busqué "Michael Scott" y la encontré al toque.

Buscador de voces de Fish Audio con el resultado 'Michael Scott' de The Office y varias clonaciones de la comunidad en inglés y español
Buscando la voz de Michael Scott en Fish Audio

Podés filtrar por idioma. Si elegís inglés vas a encontrar muchas más voces que en español, porque la comunidad inglesa de la plataforma es bastante más grande. Si la voz no aparece, la clonás vos: agarrás unos 30 segundos del actor hablando de algún capítulo, lo subís como archivo de audio y hacés la clonación.

Con la voz elegida, escribís lo que querés que el personaje diga y generás. Acá es donde usás el dato de los segundos del paso anterior.

Pantalla de texto a voz de Fish Audio con la voz de Michael Scott seleccionada y el diálogo nuevo escrito, listo para generar
Escribís el diálogo nuevo y generás con la voz clonada
Respetá la duración del plano Vamos plano por plano, y cada plano dura lo que dura. Si el plano que estás trabajando dura tres segundos, no le des un audio que se pase de tres segundos. Ese es el máximo. ¿Podés hacerlo más corto? Sí. Pero no te pases del largo del clip.
Si una voz no te convence, cambiá de clonación Fish Audio te da generaciones gratis, con un límite (para ilimitado hay que pagar). Si generás y no te gusta, y volvés a generar y tampoco, no insistas con la misma. Capaz quien la clonó la dejó en un tono que no era, o el actor estaba hablando bajito y vos lo querías gritando. Buscá otra clonación del mismo personaje que tenga el estilo que necesitás.

Cuando tengas cada clip de audio que te gusta, lo descargás y lo dejás en tu carpeta de Audios. Quedás con los videos en Clips y las voces en Audios, listo para la última parte.

07

El lip sync en sync.so

Acá pasa la magia
La herramienta clave

sync.so, con el modelo sync-3.

Es el mejor para hacer lip sync hoy. No para cambiar objetos, solo la boca.

La herramienta del lip sync es sync.so. Vas a usar el modelo más reciente y profesional, que es sync-3. Es el modelo por excelencia para esto hoy en día. Te lo repito porque importa: sirve para el lip sync, no para alterar objetos dentro de la escena.

Página de sync.so mostrando cómo el lip sync de IA adapta la interpretación de un actor preservando cada detalle en distintos idiomas
sync.so adapta la interpretación del actor a cualquier idioma

Subís uno de los videos (el plano) y subís también su audio. Después viene la parte importante: dentro del video hay una opción que se llama Speaker Selection. La activás, sync.so investiga el video y detecta las personas que aparecen. Cuando las encuentra, vos hacés clic sobre la cara del personaje al que le querés hacer el lip sync.

Editor de sync.so con la escena de The Office y el Speaker Selection marcando la cara de Michael Scott para aplicarle el lip sync
Con Speaker Selection marcás la cara del personaje a sincronizar

Una vez seleccionada la cara, le das a Sync y genera el video. Descargás el plano resultante y repetís con cada plano. Después juntás todo en CapCut y exportás la pieza final.

El costo sync.so es de pago, pero te deja hacer una generación por día con el modelo sync-3, así que la aprovechás. Si querés más, tienen planes desde unos USD 5 al mes. No soy referido ni nada, te lo digo porque es un buen lugar para hacer lip sync.

El truco para que quede impecable

Estos modelos trabajan mucho mejor cuando la cara está lo más cerca de cámara posible. Si tenés un primer plano de la cara, el lip sync va a quedar bárbaro. Si es un plano medio o entero, con la persona lejos, vas a ver movimientos raros que no están buenos.

La solución es simple. En CapCut, agarrás ese plano y modificás la escala del video para que en pantalla quede solo la cara de la persona, en primer plano y lo más cerca posible. Si la persona se mueve un poco en la escena, ajustás para que su rostro quede siempre encuadrado. Generás el lip sync con ese recorte y queda de mucho mejor calidad. Después lo importás de nuevo a CapCut y lo escalás por encima del video original, superpuesto y en el tamaño correcto, para que calce perfecto.

Para cambiar algo de la escena, lo hacés a mano Si querés meter un detalle, como el logo de Claude sobre la pantalla de la laptop de Michael, eso no lo hace la IA. Lo resolvés con una máscara en CapCut o After Effects, poniendo el PNG o JPG encima. Algo muy sencillo hoy. La IA solo se encarga de la boca.
08

Lo convertís en una skill

Para repetirlo en automático
El paso que cambia el juego

Lo hiciste una vez. Ahora que Claude lo recuerde.

Una skill con todo el proceso y tu info, lista para el próximo video.

Teniendo todo esto andando, viene la frutilla de la torta. Le pedís a Claude Code que cree una skill (o un agente) con todo este proceso, para que cada vez que le pidas un video viral de una serie o película ya sepa todo sobre vos y sepa cómo ejecutarlo. La skill queda guardada en la carpeta Skills de tu proyecto.

Prompt para Claude Code
> Armame una skill con todo este proceso de lip sync para hacer videos virales de series o películas para mi audiencia. Que cuando le pida un video nuevo, proponga una idea según mi audiencia, baje los subtítulos SDH o CC, me diga los cortes exactos plano por plano y me deje todo pronto en las carpetas. Guardala en la carpeta Skills del proyecto.

Y ahí está la gracia. El día de mañana solo decís "quiero hacer otro video viral con una película o serie" y Claude se pone a trabajar: te da una idea nueva, baja los subtítulos como corresponde, te deja todo listo y te dice exactamente qué cortes hacer.

Lo bueno de Claude Code acá es doble. Te sirvió de guía en todo el camino, y además te agilizó muchísimo el proceso para cuando quieras hacer más videos de estos. La parte manual de editar y generar te recomiendo que la sigas haciendo vos por ahora. Se puede automatizar más con la API de sync-3 si querés meterte en lo técnico, pero para esto no hace falta. Tenés el sistema. Ahora andá y hacé el tuyo.

Ya hacés hablar a un personaje. ¿Y si dirigís la escena entera?

Acá aprendiste a tomar un clip y doblarlo a tu manera. En Videway te muestro cómo dirigir IA para crear vídeos desde cero, tan brutales que parecen anuncios de Apple. La formación completa, las herramientas que uso, y una plataforma donde te llegan encargos pagos por ese trabajo. Toda esta info te la regalo. El método para vivir de esto está del otro lado.

Ver el método en Videway