L’IA a déchiffré le texte de ces anciens parchemins fossilisés. Voici ce qu’il dit.
L’archéologie à l’ère de l’IA.
Les papyrus d’Herculanum, un ancien parchemin fossilisé par l’éruption du Vésuve en 79 après JC, sont désormais déchiffrables, grâce à un projet d’IA open source.
L’étudiant en informatique Luke Farritor « est devenu la première personne en deux millénaires à voir un mot entier dans un parchemin non ouvert en août dernier », selon le Vesuvius Challenge, qui offre des prix en espèces à ceux qui parviennent à comprendre ce que dit le parchemin.
En plus des découvertes précédentes des chercheurs, ces jalons ont été possibles grâce à l’approche open source. Les techniques d’apprentissage automatique utilisées par les candidats ne sont pas particulièrement nouvelles. Mais c’est en apportant « l’esprit open source à un projet académique » que l’on a pu obtenir des résultats aussi rapides, a déclaré JP Prosma, porte-parole du concours. « En open source les données et en mettant en place les bonnes incitations pour les candidats, ceux-ci ont pu explorer beaucoup plus d’idées qu’une petite équipe d’universitaires n’aurait jamais pu le faire dans le même laps de temps », a poursuivi Posma.
Comment l’IA a-t-elle été utilisée pour déchiffrer des textes anciens ?
Le concours a été créé pour accélérer la recherche et la découverte des parchemins après que des chercheurs de l’Université du Kentucky dirigés par le Dr Brent Seales ont utilisé la vision par ordinateur pour « ouvrir » virtuellement les parchemins en 2015. Les cendres volcaniques de l’éruption avaient carbonisé les parchemins, les préservant ainsi. , mais aussi les rendant trop délicats à dérouler. Les tomodensitogrammes tridimensionnels ont pu générer une image virtuelle complète des rouleaux en 2019, ce qui a ensuite incité les entrepreneurs Nat Friedman et Daniel Gross à financer un concours cette année pour rendre la recherche open source.
Le tweet a peut-être été supprimé
Entrez Farritor, qui a exploité les découvertes précédentes de « motifs de crépitement » à l’encre par un autre concurrent nommé Casey Handmer. Farritor a formé un modèle d’apprentissage automatique pour apprendre les modèles, qui sont ensuite devenus des données pour améliorer les capacités de reconnaissance du modèle. Finalement, le modèle de Farritor a trouvé une formation de lettres qui composait le mot « porphyras », qui signifie violet dans l’écriture ancienne.
Farritor a reçu 40 000 $ pour avoir découvert le premier mot. Un autre candidat, l’étudiant en biorobotique Youssef Nader, a utilisé une autre méthode impliquant un modèle de pré-entraînement non supervisé sur les données, puis affinant les données sur les « étiquettes de fragments ». Nader a trouvé des lettres formant peut-être les mots « réalisant » et « similaire » ; il a reçu 10 000 $ pour sa découverte.
Le contenu des rouleaux « contient probablement des textes de Philodème, un philosophe épicurien », a déclaré Posma. En utilisant cette technique, les chercheurs espèrent déchiffrer d’autres rouleaux carbonisés trouvés sur le site, ce qui « doublerait le nombre d’œuvres de littérature ancienne dont nous disposons ».
Maintenant qu’un élément majeur du puzzle a été résolu, la course est lancée pour déchiffrer le reste. Le Vesuvius Challenge attribuera le grand prix de 700 000 $ à celui qui pourra lire « quatre passages de texte » à partir des parchemins. Ceux qui souhaitent s’impliquer peuvent obtenir plus d’informations sur le site Web du défi et sur Kaggle, ainsi qu’accéder au code sur Github. Il y a également une conversation animée sur le Vesuvius Challenge sur Discord.