Son varias procesos intermedios desde limpiar audios, quitar sonidos externos, equalizar tonos etc etc etc, es algo que tengo automatizado y no hago manualmente(soy programador y con python o c# hago varias cosas). Y para eso demore varias semanas en perfeccionar no daré esa información así que lo lamento.
Respecto a que mejores opciones de SVS si, posiblemente las haya, de todas las que he probado me va bien SVS. Por que es mucho el tiempo que demora entrenar. SVS es ha la que le he puesto mas entrenamiento y detalle. Como esto avanza rápido el un par de meses probare con la IA que este moda para esa fecha. Miestras tanto SVS es lo mio.