Es benötigt dafür lediglich ein Audiosample von drei Sekunden. Trainiert wird VALL-E mit Ausschnitten aus Public-Domain-Audiobüchern. Microsoft räumt auch einen möglichen Missbrauch der Technik ein.
Quelle: ZDNet.de – VALL-E: AI-Modell für Text-to-Speech von Microsoft simuliert Stimmen