Alexandra Ebert a peut-être le titre d'emploi le plus cool de tous les temps: le chef de l'IA et l'officier de démocratisation des données dans la plupart de l'IA.
Avec une thèse de maîtrise en apprentissage automatique et le RGPD, Ebert apporte une expertise approfondie à son rôle, présidant également le groupe d'experts IEEE Synthetic Data IC (IEEE Standards Association) et hébergeant le podcast Data Democratisation.
Après sa maîtrise, elle a commencé à travailler principalement (fondée en 2017), une société de données synthétiques qui permet aux organisations de créer des ensembles de données entièrement anonymes qui conservent les propriétés statistiques des données originales.
Sa confidentialité préservant plate-forme de données synthétiques imite les données réelles sans exposer des informations sensibles, avec des résultats à haute fidélité qui sont reconnus comme parmi les plus précis du marché, ce qui les rend adaptés aux applications avancées d'IA et d'apprentissage automatique.
La plate-forme de la plupart du temps permet aux organisations de débloquer en toute sécurité l'accès à leurs actifs de données sensibles et de réaliser le plein potentiel de ces données pour stimuler les innovations d'IA et, ce faisant, résoudre les problèmes d'anonymisation des données historiques.
La société a récemment lancé la première boîte à outils de données synthétiques open source de qualité industrielle (SDK), permettant à toute organisation de générer facilement des ensembles de données synthétiques de haute qualité et entièrement professionnels à partir de données propriétaires sensibles, le tout dans leur propre infrastructure de calcul.
Mais avant de creuser ce qu'il offre, explorons pourquoi il est nécessaire.
Le problème avec la technologie d'anonymisation des données
Selon Ebert:
« Il existe de nombreuses technologies d'anonymisation, qui sont toujours utilisées à ce jour, même si les chercheurs crient depuis des décennies maintenant qu'ils ne sont pas sûrs de confidentialité et conformes au RGPD. »
Les méthodes traditionnelles comme le masquage et l'obscurcissement appartiennent à l'ère des petites données. Dans le passé, les organisations n'avaient accès qu'à une poignée de points de données par client, peut-être les détails démographiques de base et certaines informations de compte. Ces techniques étaient intrinsèquement destructrices lorsqu'elles sont appliquées à l'ensemble de données d'origine. «
Par exemple, une banque avec un tableau de données client peut faire des détails sensibles comme les noms de famille et les numéros de sécurité sociale à l'aide d'un marqueur noir.
Même les détails de la transaction pourraient être modifiés – votre café chez Starbucks pourrait ne plus être répertorié à 7 $, mais à la place comme une fourchette estimée de 5 à 10 euros ou des livres.
« L'objectif était d'obscurcir les données jusqu'à ce qu'elle semble suffisamment anonyme.
Cependant, la recherche a démontré à plusieurs reprises que de telles méthodes sont inefficaces à l'ère des mégadonnées. Aujourd'hui, les grandes entreprises détiennent généralement des centaines, voire des milliers, voire des dizaines de milliers, de points de données par client.
Par exemple, avec les transactions par carte de crédit, la connaissance du commerçant et la date de trois transactions distinctes sont souvent suffisantes pour être renforcée 80 pour cent des clients. «
Selon Ebert, l'autre problème est que « l'IA prospère sur les données. Si une organisation avait à l'origine 10 000 points de données par client mais était Réduit à seulement trois ou cinq en raison de l'anonymisation, la valeur globale de l'ensemble de données diminuerait considérablement.
Cela crée un dilemme: les entreprises ont besoin de données de haute qualité pour les informations et l'innovation, mais les méthodes traditionnelles de protection de la vie privée compromettent son utilité. «
La valeur des données synthétiques
Contrairement aux techniques conventionnelles qui modifient, masquent ou suppriment des informations d'un ensemble de données existantes, la plate-forme de données synthétiques de la principale exploite l'IA générative pour analyser et comprendre la structure, les modèles et les relations des données.
«En termes simples, un modèle d'IA peut apprendre comment les clients d'une banque particulière, d'un fournisseur de télécommunications ou d'un assureur santé se comportent au fil du temps – capturant les tendances, les dépendances et les corrélations.
Par exemple, il peut déterminer si un client qui visite Starbucks le matin dînera probablement pour le déjeuner ou effectuera un achat sur Amazon plus tard dans la journée. Ces modèles comportementaux peuvent être automatiquement détectés et reproduits, préservant l'intégrité statistique des données tout en assurant la confidentialité. «
SURTOUT La technologie d'AI intègre un ensemble complet de mécanismes de confidentialité pour s'assurer qu'aucun secret personnel n'est appris ou conservé. L'IA extrait les modèles généralisables à un niveau hautement granulaire tout en empêchant l'inclusion d'individus uniquement identifiables.
Détails Ebert:
« Par exemple, si l'ensemble de données comprenait un individu très distinctif – comme Bill Gates – il serait exclu pour empêcher une violation de la confidentialité, en particulier dans les régions avec moins de milliardaires, comme l'Autriche, par rapport aux États-Unis.
De même, s'il n'y avait que cinq personnes atteintes d'une maladie extrêmement rare, ils seraient également enlevés pour protéger leur intimité.
Cependant, lorsque les caractéristiques apparaissent dans des groupes plus grands – selon 20, 30 ou 50 individus – ces modèles peuvent être conservés tout en assurant la vie privée protection.«
Le processus implique trois étapes clés:
- Apprentissage avancé par Ai-Ai,
- Mécanismes de confidentialité rigoureux pour filtrer les individus uniquement identifiables,
- Un processus génératif complètement séparé qui crée des données synthétiques à partir de zéro – sans modification ou mélange de l'ensemble de données d'origine.
Cela garantit à la fois la protection de la vie privée et la préservation de précieuses informations statistiques.
Travaille principalement avec les entreprises du Fortune 100 à travers l'Europe, l'Amérique du Nord et l'Asie et a levé 31 millions de dollars depuis son lancement. Les clients incluent Citibank, le Département américain de la sécurité intérieure, le groupe Erste, Telefonica et deux des cinq plus grandes banques américaines.
Une première boîte à outils open source mondiale pour la création de données synthétiques sécurisées de confidentialité.
Dans le cadre de la trousse d'outils de Mordéal, le SDK des données synthétiques est disponible en tant que package Python autonome à https://github.com/shostly-ai/Loshlyai Sous la licence Apache V2 entièrement permissive. De plus, c'est facile à utiliser.
Ebert partagé:
« Nous nous assurons que notre technologie est super simple à utiliser car à l'époque, avec l'anonymisation héritée, vous deviez être un expert. Avec principalement l'IA, vous n'avez pas besoin de décider comment protéger la vie privée.
Les mécanismes s'activent automatiquement pour tout ensemble de données donné que vous mettez pour assurer l'anonymat complet. «
Cependant, selon Ebert, alors que les organisations s'efforcent d'une large utilisation des données dans l'IA et l'innovation, les données restent cloisonnées et inaccessibles à la plupart des employés, les gardiens n'étant pas motivés à partager.
« Dans le passé, l'accès aux données a été géré au cas par cas. Les entreprises nous approcheraient de nous avec des défis spécifiques, tels que l'amélioration des modèles de désabonnement des clients qui sous-performes en raison de données de formation de faible qualité.
Des réglementations strictes comme le RGPD ont empêché l'accès aux données de production, ils ont donc recherché des ensembles de données synthétiques qui étaient à la fois conformes à la confidentialité et de haute qualité. «
Aujourd'hui, le changement est vers la démocratisation des données à l'échelle de l'entreprise, permettant à chaque employé de tirer parti efficacement l'IA, les dirigeants visant à augmenter les équipes techniques et le marketing, les ventes et d'autres unités commerciales.
La valeur de l'open source
Selon Ebert, l'Open Source joue un rôle crucial dans la mission principalement de démocratiser les données:
« C'était toujours notre mission de démocratiser les données, et nous pensons qu'il s'agit d'une ressource si importante que nous devons ouvrir l'accès aux données non seulement au sein des entreprises mais aussi de la société dans son ensemble. »
Fonctionne principalement avec des entreprises « Ginormous » Fortune 100, et l'utilisation de la technologie open source permet aux clients de le déployer dans n'importe quel environnement, de le tester, puis de se développer organiquement au sein d'une organisation.
Ebert affirme:
«Nous pouvons parler de l'IA qui sauve le monde, de guérir le cancer et d'aider à lutter contre la crise climatique toute la journée. Si Tu ne vas pas Ouvrez les données au grand public, aux ONG et aux chercheurs, l'aspiration ne deviendra pas une réalité.
Si les données sont accumulées au sein des grandes entreprises, les grands techniciens, ils ont toujours des motifs à but lucratif et nous n'utiliserons pas vraiment l'IA pour les progrès sociétaux.
Par exemple, nous aussi Vous voulez intégrer plus étroitement avec les principaux fournisseurs de cloud et les aides open source y aident. «
Comment les données synthétiques peuvent alimenter l'innovation des startups et la collaboration d'entreprise
Selon Ebert, être un éthicien de l'IA dans le cœur signifie que s'assurer que les pratiques d'IA responsables – la transparence, l'équité et la vie privée – sont intégrées aux inventions dès le début, non traitées comme une réflexion après coup.
Elle note que de nombreuses startups développant des produits pour les entreprises n'ont pas leur propre Les ensembles de données et les «méthodes traditionnelles peuvent prendre des mois pour produire des ensembles de données anonymisés incomplets et peu sûrs».
«Les méthodes d'anonymisation traditionnelles prennent des mois et entraînent toujours des ensembles de données incomplets et à faible valeur qui peuvent ne pas être entièrement sécurisés. Les données synthétiques réduisent ce processus à un ou deux jours ouvrables, permettant aux entreprises de partager rapidement et en toute sécurité des données.«
Elle conseille aux startups de demander de manière proactive des données synthétiques:
« Si une banque fournit une version synthétique de ses transactions financières, les deux parties en bénéficient – la startup peut créer de meilleurs produits et la banque gagne plus efficace d'innovation.
Ils peuvent développer de meilleurs produits et les entreprises intéressées à apporter l'innovation en démarrage ont toujours besoin de données pour les valider. «