Si el audio tiene voz puedes hacerlo con CapCut
Tiene una función de subtítulos automáticos que es 90% acertada
Le puedes personalizar la fuente de letra como la del vídeo que pusiste de ejemplo, los puedes mover de lugar y si los subtítulos no son perfectos puedes ir editando manualmente las partes que necesites corregir. Asumiendo que de fondo estén hablando la canción. Con instrumentales sí o sí necesitas manual.
Yo personalmente uso la versión PC de CapCut pero ya probé en celular y también funcionan los subtítulos automáticos y también se pued editar en celular. De hecho la cuenta que pusiste de ejemplo usa CapCut, en los hashtags dice #CapCut xD
CapCut es un editor de videos todo en uno que facilita la creación y el intercambio de videos.
www.capcut.com
Tiene app de celular, editor de vídeo en línea y aplicación de escritorio.
Espero haberte servido de ayuda xd