OpenAI présente le créateur de voix synthétique, Voice Engine
Le modèle peut créer un son réaliste à partir d'un clip de 15 secondes et d'une invite de texte.
OpenAI a lancé des fonctionnalités vocales dans ChatGPT en septembre dernier. La société présente désormais un modèle appelé Voice Engine, qui peut utiliser un seul clip audio de 15 secondes et une invite texte pour générer un son plus long. OpenAI se vante que Voice Engine produit des voix réalistes avec une inflexion et un ton, plutôt qu'un drone robotique.
Selon le blog d'OpenAI, Voice Engine a été développé pour la première fois en 2022 pour alimenter la fonctionnalité de lecture à haute voix de ChatGPT ainsi que la synthèse vocale. Depuis lors, OpenAI a testé Voice Engine dans un certain nombre de scénarios différents : pour les enfants et les non-lecteurs ; pour les personnes non verbales et les personnes qui auraient autrement perdu la voix ; et traduction. Pour chacun de ces cas, OpenAI s'est associé à des entreprises dans ces espaces respectifs.
OpenAI consacre une grande partie du billet de blog à assurer que Voice Engine est construit en toute sécurité – et bien qu'il ne mentionne pas explicitement le tristement célèbre appel automatisé de Joe Biden, il est sous-entendu : « Nous reconnaissons que générer un discours qui ressemble à la voix des gens comporte de sérieux risques, qui sont particulièrement une priorité en période d'élections », indique le message. « Nous collaborons avec des partenaires américains et internationaux du gouvernement, des médias, du divertissement, de l'éducation, de la société civile et au-delà pour garantir que nous intégrons leurs commentaires à mesure que nous construisons. »
L'appel automatisé de Biden a probablement été effectué avec un logiciel d'ElevenLabs, et non avec un produit OpenAI, mais Voice Engine pourrait avoir les mêmes capacités. À la fin de l'article, OpenAI déclare qu'en raison de son « approche de la sécurité de l'IA et de (leurs) engagements volontaires » (s'engager en faveur de la sûreté, de la sécurité et de la confiance), il ne diffuse pas largement Voice Engine pour le moment.
« Nous espérons que cet aperçu de Voice Engine souligne à la fois son potentiel et motive également la nécessité de renforcer la résilience sociétale face aux défis posés par des modèles génératifs toujours plus convaincants », indique le message. OpenAI appelle ensuite à la suppression progressive de l'authentification vocale par mesure de sécurité ; des politiques visant à protéger l’utilisation de la voix des personnes dans l’IA ; éducation; et plus de technologie pour identifier les voix inauthentiques – tout cela grâce à sa propre technologie.
Apprenez-en davantage et écoutez des exemples de Voice Engine dans le billet de blog d'OpenAI, Naviguer dans les défis et les opportunités des voix synthétiques.