Hola, lo mejor es que lo hagas en 3 procesos distintos, pero todo es SaaS, te vas a evitar carga de recursos.
Para clonar tu propia voz usa Elevenlabs y con su API generas el audio que necesites.
Create the most realistic speech with our AI audio tools in 1000s of voices and 70+ languages. Easy to use API's and SDK's. Scalable, secure, and customizable voice solutions tailored for enterprise needs. Pioneering research in Text to Speech and AI Voice Generation.
Para entrenarlo con tu manera de pensar, puedes usar el Fine-tune de OpenAI con los modelos que tenga disponible.
El costo de entrenamiento se calcula en base a tokens.
Y para responder usar DialogFlow de Gogle
Este es un modelo de ejemplo, el cual incluye un Google Collab del mismo Youtuber