Se puede hacer usando CGI, pero es bastante complicado. Ahora si lo que vas hacer es algo de pocos segundos, es ralentizar o acelerar el tiempo en el editor de video para calzar audio con imagen. (Igual se nota, pero pasa).
Hay softwares basados en IA que puedes hacer ambas cosas, pero solo están disponibles para empresas gigantes. ( Son demasiado caros )