6 minutes de lecture
Découvrez les coulisses techniques de l’IA chez Juri’Predis à travers cet entretien avec Martin Babeau, ingénieur en machine Learning. Explorez les défis, avancées, implications et réflexions éthiques de l’IA dans le contexte spécifique de l’entreprise.
En quoi consiste votre rôle en tant qu’ingénieur en machine Learning chez Juri’Predis ?
Mon rôle chez Juri’Predis est de faire vivre le pôle recherche et développement. Avec mon collègue Othmane Nabgouri, nous faisons de la veille technologique et identifions des projets prometteurs en nous basant sur la littérature scientifique. Notre mission principale est de rechercher et fournir des informations pertinentes aux utilisateurs. Pour cela, nous identifions et testons les technologies les plus récentes afin de les rendre exploitables. Une fois leur efficacité prouvée et leur conformité assurée, nous les intégrons progressivement dans notre solution. Un aspect crucial de mon travail est d’éviter les risques liés à l’utilisation de l’IA. Pour garantir la fiabilité de nos solutions, je collabore étroitement avec des juristes qui valident nos projets et nous aident continuellement à les améliorer.
Qu’est-ce que le machine Learning ?
Le machine Learning, composant clé de l’IA, se développe en analysant des jeux de données à l’aide de techniques statistiques et probabilistes automatisées. Un jeu de données peut contenir divers types d’informations comme des images, des vidéos ou des textes. Il constitue le matériau de base de ce processus. Deux méthodes d’apprentissage se distinguent : l’apprentissage supervisé et l’apprentissage non supervisé. Dans le premier cas, la machine dispose déjà des réponses attendues à partir de données étiquetées. Dans le second cas, elle doit générer ses propres réponses en explorant des données non étiquetées.
Chez Juri’Predis, nous travaillons principalement avec des jeux de données extraits de décisions de justice. Actuellement, nous nous concentrons exclusivement sur ces données juridiques. Mes jeux de données consistent en des milliers de décisions de justice annotées. Nous les utilisons pour tester différentes technologies, analyser les résultats et identifier des tendances ou des informations spécifiques.
Quelles sont les principales sources de données que vous utilisez pour entraîner vos modèles d’IA ?
Nos principales sources de données sont les jurisprudences judiciaires et administratives. Elles constituent les deux principales sources de droit consultées sur Juri’Predis. Nous collectons autant de sources de données que possible, notamment grâce à l’Open Data qui pousse les juridictions à mettre à disposition toutes leurs décisions rendues. Ces institutions produisent une grande quantité d’informations juridiques.
Actuellement, les consultations de jurisprudence judiciaire et administrative génèrent la majorité du trafic en raison de leur ampleur et de leur disponibilité. Nous travaillons par exemple sur une version améliorée de la détection des entreprises dans nos documents. Cela nous permettra par la suite d’améliorer leur détection dans le courant judiciaire. C’est un projet en cours d’étude qui nous permettrait de traiter les décisions de l’Institut National de la Propriété Intellectuelle (INPI), du Conseil Supérieur de l’Audiovisuel (CSA), du Journal Officiel de la République Française (JORF) et de la Haute Autorité de Santé (HAS). Nous concentrons nos efforts sur ce qui est le plus utile aux utilisateurs de notre solution.
Quels sont les projets d’intelligence artificielle générative en cours chez Juri’Predis ?
Il y a deux projets en cours sur lesquels nous sommes très enthousiastes.
Le projet NER (Named Entity Recognition) de détection des entreprises représente une évolution du travail effectué précédemment. Son objectif principal est d’identifier les entreprises mentionnées dans les décisions de justice afin de faciliter le travail des avocats. Cela signifie créer un système permettant aux utilisateurs de rechercher rapidement et efficacement les décisions associées à une entreprise spécifique.
Actuellement, nous travaillons sur une version améliorée du projet qui va au-delà de la simple détection d’entreprises. Cette version vise à différencier les entreprises, les cabinets d’avocats et les parties privées des autres entités mentionnées dans la décision. Pour ce faire, nous nous appuyons sur Juri’Entreprises. Notre base de données d’entreprises qui contient toutes les informations nécessaires pour établir ces liens. Notre volonté est d’offrir des résultats plus précis et pertinents.
Le projet RAG (Récupération Augmentée de Génération) s’aligne avec l’intérêt croissant du public pour l’intelligence artificielle générative. Cette technologie permet de créer des documents personnalisés, tels que des contrats, en tenant compte des spécificités de chaque situation. Cependant, son utilisation comporte des risques, comme le cas de jurisprudences erronées aux États-Unis. Pour pallier ces risques, notre projet RAG propose une approche novatrice. Au lieu de se baser uniquement sur les connaissances préexistantes du modèle, il utilise des documents existants comme référence pour générer une réponse. Ainsi, cela permet d’éviter les biais potentiels liés à la mémoire du modèle. Bien que le modèle possède une base considérable de connaissances, il ne sera jamais parfaitement à jour car il n’est pas constamment entraîné sur les nouvelles versions.
Le projet RAG vise à fournir à l’utilisateur un contexte en exposant le texte sur lequel le modèle s’est basé, afin de lui permettre d’évaluer la validité de la réponse générée. Cependant, en raison de la complexité de ce processus, ces outils sont principalement destinés à un public averti, capable de discerner les erreurs potentielles.
Quelles sont les considérations éthiques majeures lors de l’intégration de l’IA ?
Chez Juri’Predis, l’approche éthique repose principalement sur la collaboration étroite entre l’équipe R&D et l’équipe légale. En pratique, mes propositions de projets sont examinées par des juristes pour évaluer leur adéquation avec les standards éthiques. Cela inclut les avis des avocats et du public, ainsi que leur alignement avec nos valeurs et nos objectifs commerciaux. Mon rôle est davantage celui d’un explorateur, qui propose diverses idées en vue d’une validation ultérieure.
Dans cette démarche, l’avis des utilisateurs finaux, notamment les avocats et les juristes, est essentiel. Leurs retours m’aident à évaluer la pertinence et l’impact de nos projets, malgré ma compréhension technique différente. Nous concevons tous nos projets comme des outils destinés à faciliter le travail des professionnels du droit, non à les remplacer. Notre objectif est de rendre leur travail plus efficace et efficient en développant des solutions innovantes.
Par ailleurs, les considérations éthiques ont été renforcées avec l’entrée en vigueur du RGPD. Afin de garantir le respect de la vie privée des individus, nous avons instauré des protocoles de vérification pour permettre la suppression des données sur demande. En ce qui concerne les jeux de données, nous respectons les exigences du RGPD en matière de pseudonymisation des données. Cependant, nous sommes conscients que certaines données sensibles peuvent être présentes dans nos bases, telles que les noms d’avocats ou d’experts. Nous sommes prêts à répondre aux demandes de retrait. Nous réentraînerons nos modèles en conséquence, dans le respect des droits individuels et des normes éthiques.
L’équipe Juri’Predis