Segun mi oido no hay forma de que sea IA, es casi perfecta, ni ElevenLabs puede hacer algo asi con tanta variacion en la entonacion y cambios naturales. Y clonado y megaentrenado, no se, hasta ahora no he visto/escuchado una voz que sea clonada y entrenada que te de esa calidad. Se acercan mucho, pero si tenes oido y has experimentado con horas de entrenamiento, siempre hay detalles que salten.
Calculo que en corto tiempo podemos estar hablando de voces tan naturales que serán indistinguibles, el único que jode es YTB, porque a la gente asi le hables en gangoso si hay algo bueno que escuchar o ver, se quedan, incluso los formato mas podcast están siendo tendencia, la retención por las imágenes del video están cayendo. Los usuarios son multitask, escuchan mientras hacen otras cosas, o escuchan dos o tres videos a la vez. 🤔