OpenAI présente le créateur de voix synthétique, Voice Engine

Date de publication :

Publié il y a 2 ans

30 mars 2024

Par

OpenAI présente le créateur de voix synthétique, Voice Engine

Le modèle peut créer un son réaliste à partir d'un clip de 15 secondes et d'une invite de texte.

OpenAI a lancé des fonctionnalités vocales dans ChatGPT en septembre dernier. La société présente désormais un modèle appelé Voice Engine, qui peut utiliser un seul clip audio de 15 secondes et une invite texte pour générer un son plus long. OpenAI se vante que Voice Engine produit des voix réalistes avec une inflexion et un ton, plutôt qu'un drone robotique.

Selon le blog d'OpenAI, Voice Engine a été développé pour la première fois en 2022 pour alimenter la fonctionnalité de lecture à haute voix de ChatGPT ainsi que la synthèse vocale. Depuis lors, OpenAI a testé Voice Engine dans un certain nombre de scénarios différents : pour les enfants et les non-lecteurs ; pour les personnes non verbales et les personnes qui auraient autrement perdu la voix ; et traduction. Pour chacun de ces cas, OpenAI s'est associé à des entreprises dans ces espaces respectifs.

OpenAI consacre une grande partie du billet de blog à assurer que Voice Engine est construit en toute sécurité – et bien qu'il ne mentionne pas explicitement le tristement célèbre appel automatisé de Joe Biden, il est sous-entendu : « Nous reconnaissons que générer un discours qui ressemble à la voix des gens comporte de sérieux risques, qui sont particulièrement une priorité en période d'élections », indique le message. « Nous collaborons avec des partenaires américains et internationaux du gouvernement, des médias, du divertissement, de l'éducation, de la société civile et au-delà pour garantir que nous intégrons leurs commentaires à mesure que nous construisons. »

L'appel automatisé de Biden a probablement été effectué avec un logiciel d'ElevenLabs, et non avec un produit OpenAI, mais Voice Engine pourrait avoir les mêmes capacités. À la fin de l'article, OpenAI déclare qu'en raison de son « approche de la sécurité de l'IA et de (leurs) engagements volontaires » (s'engager en faveur de la sûreté, de la sécurité et de la confiance), il ne diffuse pas largement Voice Engine pour le moment.

« Nous espérons que cet aperçu de Voice Engine souligne à la fois son potentiel et motive également la nécessité de renforcer la résilience sociétale face aux défis posés par des modèles génératifs toujours plus convaincants », indique le message. OpenAI appelle ensuite à la suppression progressive de l'authentification vocale par mesure de sécurité ; des politiques visant à protéger l’utilisation de la voix des personnes dans l’IA ; éducation; et plus de technologie pour identifier les voix inauthentiques – tout cela grâce à sa propre technologie.

Apprenez-en davantage et écoutez des exemples de Voice Engine dans le billet de blog d'OpenAI, Naviguer dans les défis et les opportunités des voix synthétiques.

Article suivant

Les meilleures offres du jour sur les haut-parleurs intelligents Amazon Echo : procurez-vous un Echo Pop et une ampoule couleur intelligente pour seulement 23 $

Article précédent

Offre Amazon du jour : obtenez le Kindle Scribe pour 100 $ de réduction

Pierre Challon

Pierre, plus connu sous son pseudonyme "Pierrot le Fou", est un rédacteur emblématique du site Indigo Buzz. Originaire d'une petite ville du sud-ouest du Gers, cet aventurier des temps modernes est né sous le signe de l'ombre en 1986 au sommet d'une tour esotérique. Élevé dans une famille de magiciens-discount, il a développé un goût prononcé pour l'excentricité et la magie des mots dès son plus jeune âge. Pierre a commencé sa carrière de rédacteur dans un fanzine local dédié aux films d'horreur des années 80, tout en poursuivant des études de communication à l'Université de Toulouse. Passionné par l'univers du web, il a rapidement pris conscience de l'impact du numérique et des réseaux sociaux sur notre société. C'est alors qu'il a décidé de troquer sa collection de cassettes VHS contre un ordinateur flambant neuf... enfin presque.