VoxCPM: cuando el TTS deja de sonar a TTS
Durante años hemos aceptado una idea casi como dogma en text-to-speech: para generar audio hay que discretizarlo . Da igual si hablamos de unidades fonéticas, tokens tipo HuBERT, …
VoxCPM: cuando el TTS deja de sonar a TTS
Durante años hemos aceptado una idea casi como dogma en text-to-speech: para generar audio hay que discretizarlo . Da igual si hablamos de unidades fonéticas, tokens tipo HuBERT, …