MIDNATT est le premier artiste propulsé par l’IA de HYBE. Voici comment le projet a vu le jour.
Grâce à la technologie de correction de la prononciation multilingue, un artiste peut désormais communiquer avec des milliards de personnes à travers le monde.
La société de technologie vocale AI Supertone veut « changer le paradigme du processus créatif », déclare le PDG Lee Kyogu, et cela commence par la K-pop.
Supertone peut reproduire, perfectionner ou générer des voix originales pour aider les artistes à contourner les « processus d’enregistrement et d’édition répétitifs » et à concrétiser des idées qui, jusqu’à présent, « n’existaient que dans leur esprit ». Lee Hyun, un chanteur de ballades coréen établi, rêvait de communiquer avec les fans internationaux tout en réinventant son image. Avec Supertone, il a créé MIDNATT, un alter ego qui chante en six langues en utilisant la puissance de l’IA.
MIDNATT a sorti son premier single, « Masquerade, » en mai. Par e-mail, Lee et MIDNATT (AKA Lee Hyun) ont expliqué à Indigo Buzz comment le projet avait vu le jour.
Un communiqué de presse a déclaré que MIDNATT « est plus audacieux et plus honnête que Lee Hyun ». En quoi MIDNATT est-il plus honnête ? En quoi la technologie vous aide-t-elle à être plus honnête ?
MIDNATT: J’ai essayé de mettre mes propres histoires et sentiments dans la musique aussi honnêtement que possible. Cela reflète à la fois l’ambition et la peur que j’avais de montrer au public cette nouvelle facette de moi-même en tant qu’artiste. La technologie a été appliquée à la piste pour donner vie à cette histoire. C’est quelque chose de complètement nouveau que j’ai entrepris, mais je voulais relever le défi en sachant que cela pourrait élargir mon spectre musical. (Grâce à cela), j’ai pu exprimer mon son et mon message de manières beaucoup plus diverses.
D’après ce que j’ai compris en parlant au PDG de HYBE IM, Chung, Supertone a développé une technologie de prononciation spécifiquement pour ce projet. Pouvez-vous m’en dire plus sur ce processus?
Lee : Nous appelons cela « la technologie de correction de la prononciation multilingue ». Cette technologie corrige la prononciation d’une personne afin qu’elle ait un son plus naturel et fluide, bien qu’elle n’ait jamais parlé une langue particulière auparavant. Grâce à cette technologie, n’importe qui peut parler ou chanter naturellement dans n’importe quelle langue, en surmontant les barrières linguistiques et en transmettant l’émotion et le sens précis contenus dans une chanson ou un discours.
Pour Project L, nous sommes passés par le processus suivant : Tout d’abord, l’artiste a enregistré le morceau dans six langues différentes. Bien sûr, sa prononciation n’était pas parfaite à ce stade. Ensuite, chaque locuteur natif a raconté le même contenu ou les mêmes paroles. Enfin, en appliquant la technologie de Supertone, nous avons pu extraire les prononciations natives et remplacer le contenu linguistique contenu dans l’enregistrement de l’artiste. En conséquence, l’audio a conservé le timbre ou les caractéristiques de la voix de l’artiste, tandis que la prononciation a capturé la fluidité d’un locuteur natif.
Vous avez utilisé une technologie Supertone spécifique qui a ajusté votre prononciation dans les langues étrangères. Comment les six langues ont-elles été choisies ?
MIDNATT : Nous avons utilisé la technologie vocale dans l’espoir d’atténuer les barrières linguistiques que les fans du monde entier pourraient ressentir lorsqu’ils écoutent une chanson en langue étrangère. Les six langues utilisées sur la piste couvrent jusqu’à 8 milliards de personnes dans le monde. Je voulais faire de la musique qui résonne avec le plus de monde possible.
Comment avez-vous étudié chaque langue pour apprendre les détails de sa prononciation ? Quelle langue a été la plus difficile à maîtriser ?
MIDNATT : Avant ce projet, je n’avais jamais reçu une éducation appropriée dans les cinq langues qui me sont étrangères (anglais, japonais, chinois, espagnol et vietnamien). Au début, j’écoutais un enregistrement de la prononciation de locuteurs natifs et je l’imitais. À partir de là, je l’ai pratiqué encore et encore. Heureusement, j’avais autour de moi du personnel qui parle couramment plusieurs langues, j’ai donc également reçu beaucoup d’aide de leur part. La langue chinoise a certaines prononciations qui n’existent pas en coréen, donc l’enregistrement en chinois était particulièrement difficile. De plus, l’anglais est considéré comme une langue universelle, j’ai donc également accordé beaucoup d’attention à la prononciation la plus proche possible de l’anglais dans la prononciation d’un locuteur natif.
Lee Hyun, ta voix s’est transformée en une voix de femme pour « Masquerade ». Il y a tellement de façons dont la voix aurait pu sonner; il aurait pu avoir plusieurs timbres différents, une rugosité ou une douceur, etc. Comment avez-vous décidé à quoi devait ressembler la version « féminine » de MIDNATT ?
MIDNATT : La voix féminine dans « Masquerade » exprime un autre de mes ego. Cela représente mon moi passé, et parce qu’il y a plusieurs ego que je voulais exprimer dans le morceau, nous avons pensé qu’utiliser une voix féminine, en plus de la mienne, transmettrait beaucoup mieux le message des paroles. Cela a commencé avec moi en pensant à quoi ressemblerait une chanteuse qui a un style vocal similaire au mien. Mais l’ajout d’une voix féminine n’était pas une décision qui n’appartenait qu’à moi, (elle était) née de ma collaboration avec Hitchhiker.
Lee : Supertone a écouté la version de démonstration de « Masquerade » et a conçu une voix féminine en utilisant la technologie Face2Voice®. Hitchhiker a ensuite utilisé la référence de Supertone et d’autres données qui ont aidé à concevoir la version féminine de la voix de MIDNATT.
Comment l’idée d’utiliser les outils de Supertone est-elle venue dans les discussions autour de MIDNATT ? Qui en a parlé et comment avez-vous appris comment cela pourrait bénéficier à l’artiste avant de décider de le poursuivre ?
Lee: Hitchhiker a déclaré que lorsqu’un artiste chante, il essaie d’exprimer et de transmettre le sens de la chanson et le message des paroles dans son style unique. Les artistes s’efforcent de chanter dans plusieurs langues pour se connecter avec les fans du monde entier. Cependant, si la prononciation n’est pas parfaite, cela peut réduire l’immersion et même mal interpréter la chanson. En conséquence, il a pensé à une technologie qui pourrait corriger la prononciation sans endommager le sens original de la chanson. Bien que MIDNATT ait compris les incertitudes qui l’accompagnaient étant donné qu’il s’agissait de la première collaboration de HYBE entre technologie et divertissement, il y voyait une opportunité de nouveaux défis et a choisi de participer à ce projet, d’autant plus que les attentes des fans continuaient d’augmenter.
La technologie de réalité étendue (XR) utilisée pour créer le clip vidéo « Masquerade » est presque aussi nouvelle que la technologie utilisée pour corriger votre prononciation. Vous avez tourné de nombreux clips au cours de votre carrière, en quoi ce processus a-t-il été différent ? Selon vous, quels sont les avantages de l’utilisation de ce type de technologie dans la production de vidéoclips ?
MIDNATT : Le clip de « Masquerade » utilisait une méthode de tournage complètement différente, j’étais donc constamment émerveillé. Si je dois choisir une différence majeure (entre le tournage de ce clip vidéo et les précédents), je dirais qu’il y a une variété de décors dans la vidéo, mais la majorité d’entre eux ont été tournés au même endroit sans avoir à se déplacer jusqu’à un endroit différent. Dans le passé, si nous avions une toile de fond particulière en tête, nous devions trouver un lieu réel qui lui ressemble. Mais maintenant, avec l’aide de la technologie, nous pouvons créer une toile de fond que nous voulons beaucoup plus librement. Je crois que l’utilisation d’une technologie comme celle-ci est quelque chose qui permet un plus grand niveau d’expression créative.
Avez-vous trouvé d’autres utilisations de l’IA dans votre vie quotidienne ? Par exemple, utilisez-vous ChatGPT ou une IA d’image générative ? Ou peut-être préférez-vous la réalité virtuelle ou les jeux ?
Lee : C’est intéressant. En fait, j’utilise parfois GPT-4 lorsque je travaille sur des documents. Mais je n’ai pas eu la chance d’utiliser directement une IA générative liée à l’image ou à la vidéo. Cependant, j’utilise indirectement l’IA tous les jours. Lorsque j’écoute de la musique ou regarde des vidéos sur YouTube, le contenu qui m’est recommandé est également basé sur des algorithmes d’IA. La conduite semi-autonome en voiture peut être un autre exemple.
MIDNATT : Je ne joue pas beaucoup, mais si je dois choisir, j’aime les jeux VR. La technologie que j’utilise le plus dans ma vie de tous les jours, je dirais, ce sont probablement les différentes applications et fonctions de mon smartphone.
Une grande partie de l’attention des auditeurs et des médias sur les débuts de MIDNATT était sur l’élément IA du projet. Que pensez-vous du fait que l’IA soit considérée comme un « truc » ? Comment l’intégrer à la musique sans aliéner les auditeurs et désavantager les artistes ?
Lee : Bien sûr, de telles préoccupations peuvent exister. Mais tout comme de nombreuses autres technologies, nous croyons fermement que l’IA peut être utilisée comme un outil fantastique pour maximiser la créativité des vrais créateurs et artistes. L’invention de la guitare électrique a encouragé des artistes incroyables comme Jimi Hendrix, et Daft Punk a utilisé des synthétiseurs à leur manière créative pour apporter de l’innovation à la musique électronique. De plus, à en juger par les réactions des fans après le dévoilement du projet L, nous pensons qu’il présente une valeur positive de l’art intégrant la technologie de l’IA.
MIDNATT : J’avais une idée claire de ce que j’aimerais que le premier projet de MIDNATT soit. Je suis entré dans le projet en pensant que même si nous présentions les dernières technologies et un son à la mode, cela ne devrait rien enlever à mon histoire unique et à mon authenticité en tant qu’artiste. Nous avons travaillé sur la piste et appliqué la technologie d’une manière qui maintient toujours l’unicité de ma voix et lui donne un moyen d’expression diversifié. Je suis très reconnaissant que mes fans aient compris l’intention et la sincérité derrière cela.