Pour le sous-titrage, les humains sont toujours la clé d’une technologie accessible et basée sur l’IA

Date de publication :

Publié il y a 1 an

4 août 2023

Par

Pour le sous-titrage, les humains sont toujours la clé d'une technologie accessible et basée sur l'IA

Le nouveau rapport de sous-titrage de l’IA montre d’énormes améliorations, mais ce n’est toujours pas suffisant.

Les arguments en faveur de la surveillance humaine des services d’intelligence artificielle (IA) se poursuivent, avec le monde entrelacé de la transcription audio, du sous-titrage et de la reconnaissance automatique de la parole (ASR) rejoignant l’appel à des applications qui complètent, et non remplacent, l’apport humain.

Les légendes et les sous-titres jouent un rôle essentiel dans l’accès aux médias et à l’information pour les téléspectateurs sourds ou malentendants, et leur utilisation a augmenté au cours des dernières années. Les défenseurs des personnes handicapées ont fait pression pour de meilleures options de sous-titrage pendant des décennies, soulignant un besoin de plus en plus pertinent avec la prolifération des services de streaming à la demande. Les plates-formes basées sur la vidéo se sont également rapidement accrochées à l’IA, YouTube annonçant les premiers tests d’une nouvelle fonctionnalité d’IA qui résume des vidéos entières et TikTok explorant son propre chat bot.

Ainsi, avec l’engouement croissant pour l’IA comme bouée aux limites de la technologie, impliquer les derniers outils et services d’IA dans le sous-titrage automatique peut sembler une prochaine étape logique.

3Play Media, une société de services d’accessibilité vidéo et de sous-titrage, s’est concentrée sur l’impact des outils d’IA générative sur les sous-titres utilisés principalement par les téléspectateurs sourds et malentendants dans son rapport 2023 sur l’état de la reconnaissance automatique de la parole récemment publié. Selon les résultats, les utilisateurs doivent être conscients de bien plus que la simple précision lorsque de nouveaux services d’IA à évolution rapide sont ajoutés.

La précision de la reconnaissance vocale automatique

Le rapport de 3Play Media a analysé le taux d’erreurs de mots (le nombre de mots transcrits avec précision) et le taux d’erreurs formatées (la précision des mots et du formatage dans un fichier transcrit) de différents moteurs ASR ou générateurs de sous-titres alimentés par l’IA. Les différents moteurs ASR sont intégrés dans une gamme d’industries, y compris les nouvelles, l’enseignement supérieur et les sports.

« Un ASR de haute qualité ne conduit pas nécessairement à des sous-titres de haute qualité », indique le rapport. « Pour le taux d’erreur de mot, même les meilleurs moteurs n’ont fonctionné qu’à environ 90 % avec précision, et pour le taux d’erreur formaté, qu’à environ 80 % avec précision, ce qui n’est pas suffisant pour la conformité légale et une précision de 99 %, la norme de l’industrie en matière d’accessibilité. »

L’Americans with Disabilities Act (ADA) exige des gouvernements étatiques et locaux, des entreprises et des organisations à but non lucratif qui servent le public qu’ils « communiquent efficacement avec les personnes ayant des troubles de la communication », y compris des services de sous-titrage fermé ou en temps réel pour les sourds et les malentendants. entendre les gens. Selon les règles de conformité de la Federal Communications Commission (FCC) pour la télévision, les sous-titres doivent être précis, synchronisés, continus et correctement placés dans la « toute mesure possible ».

La précision des sous-titres dans l’ensemble de données a également beaucoup fluctué selon les marchés et les cas d’utilisation. « Les actualités et les réseaux, les cinématiques et les sports sont les plus difficiles à transcrire avec précision pour ASR », écrit 3Play Media, « car ces marchés ont souvent du contenu avec de la musique de fond, des discours qui se chevauchent et un son difficile. Ces marchés ont les taux d’erreur moyens les plus élevés pour taux d’erreurs sur les mots et taux d’erreurs formatées, les actualités et les réseaux étant les moins précis. »

Alors que, en général, les performances se sont améliorées depuis le rapport 2022 de 3Play Media, la société a constaté que les taux d’erreur étaient encore suffisamment élevés pour justifier la collaboration d’un éditeur humain pour tous les marchés testés.

Tenir les humains au courant

Les modèles de transcription à tous les niveaux, du consommateur à l’industrie, intègrent le sous-titrage audio généré par l’IA depuis des années. Beaucoup utilisent déjà ce que l’on appelle des systèmes « human-in-the-loop », où un processus en plusieurs étapes intègre à la fois des outils ASR (ou IA) et des éditeurs humains. Des entreprises comme Rev, un autre service de sous-titrage et de transcription, ont souligné l’importance des éditeurs humains dans la synchronisation audiovisuelle, le formatage de l’écran et d’autres étapes nécessaires pour rendre les médias visuels entièrement accessibles.

Le tweet a peut-être été supprimé

Les modèles human-in-the-loop (également connus sous le nom de HITL) ont été promus dans le développement de l’IA générative pour mieux surveiller les biais implicites dans les modèles d’IA et pour guider l’IA générative avec une prise de décision dirigée par l’homme.

L’Initiative pour l’accessibilité du Web du World Wide Web Consortium (W3C) a également longtemps maintenu sa position sur la surveillance humaine, comme indiqué dans sa directive sur les légendes et les sous-titres. « Les sous-titres générés automatiquement ne répondent pas aux besoins des utilisateurs ou aux exigences d’accessibilité, à moins qu’il ne soit confirmé qu’ils sont parfaitement exacts. Ils nécessitent généralement des modifications importantes », indiquent les directives de l’organisation. « Les sous-titres automatiques peuvent être utilisés comme point de départ pour développer des sous-titres et des transcriptions précis. »

Et dans un rapport de 2021 sur l’importance des transcriptions générées par l’homme en direct, 3Play Media a noté des hésitations similaires.

« L’IA n’a pas la même capacité de contextualisation qu’un être humain, ce qui signifie que lorsque ASR comprend mal un mot, il est possible qu’il soit remplacé par quelque chose de non pertinent, ou complètement omis », écrit la société. « Bien qu’il n’y ait actuellement aucune exigence légale définitive pour les taux de précision des sous-titres en direct, les réglementations fédérales et étatiques existantes en matière de sous-titrage pour le contenu enregistré stipulent que les hébergements accessibles doivent offrir une expérience égale à celle d’un spectateur entendant… Bien que ni l’IA ni les sous-titreurs humains ne puissent fournir Précision à 100 %, les méthodes les plus efficaces de sous-titrage en direct intègrent les deux afin de s’en approcher le plus possible. »

Hallucinations signalées

En plus des chiffres de précision inférieurs en utilisant uniquement l’ASR, le rapport de 3Play Media a noté une préoccupation explicite quant à la possibilité d' »hallucinations » de l’IA, à la fois sous la forme d’inexactitudes factuelles et de l’inclusion de phrases entières complètement fabriquées.

De manière générale, les hallucinations basées sur l’IA sont devenues un aspect central parmi un arsenal de plaintes contre les textes générés par l’IA.

En janvier, le chien de garde de la désinformation NewsGuard a publié une étude sur la facilité de ChatGPT à générer et à diffuser des allégations trompeuses aux utilisateurs se faisant passer pour de « mauvais acteurs ». Il a noté que le bot AI a partagé des informations erronées sur les événements d’actualité 80 fois sur 100 en réponse aux principales invites liées à un échantillon de faux récits. En juin, un animateur de radio américain a intenté une action en diffamation contre OpenAI après que son chatbot, ChatGPT, aurait proposé des « faits » erronés sur l’hôte à un utilisateur recherchant des détails sur une affaire devant un tribunal fédéral.

Pas plus tard que le mois dernier, des dirigeants de l’IA (dont Amazon, Anthropic, Google, Inflection, Meta, Microsoft et OpenAI) ont rencontré l’administration Biden-Harris « pour aider à évoluer vers un développement sûr, sécurisé et transparent de la technologie de l’IA » avant une éventuelle décret exécutif sur l’utilisation responsable de l’IA. Toutes les entreprises présentes ont signé une série de huit engagements pour assurer la sécurité, la sûreté et la confiance du public.

Pour l’intégration de l’IA dans la technologie quotidienne – et en particulier pour les développeurs à la recherche d’autres formes d’IA générant du texte comme voie pavée vers l’accessibilité – les inexactitudes telles que les hallucinations présentent un risque tout aussi important pour les utilisateurs, explique 3Play Media.

« Du point de vue de l’accessibilité, les hallucinations présentent un problème encore plus flagrant : la fausse représentation de l’exactitude pour les téléspectateurs sourds et malentendants », explique le rapport. 3Play écrit que, malgré des performances impressionnantes liées à la production de phrases grammaticales bien ponctuées, des problèmes tels que les hallucinations présentent actuellement des risques élevés pour les utilisateurs.

Les leaders de l’industrie tentent de lutter contre les hallucinations avec une formation continue, et certains des plus grands leaders de la technologie, comme Bill Gates, sont extrêmement optimistes. Mais ceux qui ont besoin de services accessibles n’ont pas le temps d’attendre que les développeurs perfectionnent leurs systèmes d’IA.

« Bien qu’il soit possible que ces hallucinations soient réduites grâce à un réglage fin, les conséquences négatives pour l’accessibilité pourraient être profondes », conclut le rapport de 3Play Media. « Les éditeurs humains restent indispensables pour produire des sous-titres de haute qualité accessibles à nos principaux utilisateurs finaux : les personnes sourdes et malentendantes. »

Vous voulez plus de SBien social et accessibilité histoires dans votre boîte de réception? Inscrivez-vous à la newsletter Top Stories de Indigo Buzz aujourd’hui.

Article suivant

Apple a discrètement investi des milliards dans l’IA générative

Article précédent

La recherche Google brouille désormais automatiquement les images explicites

Pierre Challon

Pierre, plus connu sous son pseudonyme "Pierrot le Fou", est un rédacteur emblématique du site Indigo Buzz. Originaire d'une petite ville du sud-ouest du Gers, cet aventurier des temps modernes est né sous le signe de l'ombre en 1986 au sommet d'une tour esotérique. Élevé dans une famille de magiciens-discount, il a développé un goût prononcé pour l'excentricité et la magie des mots dès son plus jeune âge. Pierre a commencé sa carrière de rédacteur dans un fanzine local dédié aux films d'horreur des années 80, tout en poursuivant des études de communication à l'Université de Toulouse. Passionné par l'univers du web, il a rapidement pris conscience de l'impact du numérique et des réseaux sociaux sur notre société. C'est alors qu'il a décidé de troquer sa collection de cassettes VHS contre un ordinateur flambant neuf... enfin presque.

Cliquer pour commenter

La précision de la reconnaissance vocale automatique

Tenir les humains au courant

Hallucinations signalées

Laisser un commentaire Annuler la réponse

Laisser un commentaire
Annuler la réponse