Intelligence Artificielle : les actualités passées au crible par Keley - Juil 2021

Catégorie :

Data Science

Savoir-faire :

Data & Digital Performance

Publié le :

29

July

2021

Temps de lecture :

5 minutes

#

Article

#

Actualités IA

#

DataScience

Main artificielle piloté par un robot doté d'intelligence artificielle

Article mis à jour le

Animée par Louis, les meetups mensuels Keley passent en revue les actualités liées à l’Intelligence Artificielle. Data Science, Machine Learning et autres concepts sont abordés de manière ludique et vulgarisée par nos 3 experts : Vincent, Oussama et Mehdi. Voici le deuxième épisode, piochant dans les rencontres du premier semestre.

‍

Une Intelligence Artificielle pour évaluer la qualité des bouchons de vin

C’est peut-être la fin du vin bouchonné, et qui d’autre que des chercheurs français pour s’intéresser au sujet. En effet, le CEA List, institut de CEA Tech, en partenariat avec l’entreprise DIAM Bouchage, productrice de bouchons de liège, propose de détecter grâce à l’Intelligence Artificielle les bouchons défectueux.

Pour bien remplir sa fonction, un bouchon de liège doit laisser traverser juste ce qu’il faut d’oxygène dans le vin, pour lui permettre d’évoluer dans de bonnes conditions et assurer une bonne dégustation. La technologie d’IA utilise non pas la reconnaissance d’image de bouchon, mais les rayons X, dont le résultat sera analysé. L’IA sera ensuite capable d’alerter sur la défectuosité potentielle du bouchon, et sera donc garante de la qualité de notre vin. La promesse de l’article est une détection en un clin d’œil, mais le travail de l’IA est beaucoup plus conséquent.

Source : http://www-list.cea.fr/medias/toute-l-actualite/2021/500-28-avril-2021-reperer-les-bouchons-defectueux-en-un-clin-d-oeil

‍

Kevin De Bruyne se sépare de son agent et négocie son contrat grâce à la Data Science

Kevin De Bruyne est l’un des meilleurs joueurs de football au monde, et assurément l’un des mieux payés. Après la radiation de son agent, il a décidé de négocier la prolongation de son contrat tout seul… avec tout de même l’aide de quelques data analysts. Ces derniers ont compilé les données et statistiques de nombreux joueurs similaires à De Bruyne, dans des équipes concurrentes, tout en mettant en opposition leur salaire et les projections d’évolution de ces salaires. Ils ont ensuite comparé ces données à celle du joueur belge et ont effectué des projections de succès de Manchester City avec ou sans De Bruyne, en fonction de l’âge et de la qualité de l’effectif actuel.

Kevin De Bruyne a ainsi eu en sa possession sa valeur exacte, avant de débuter les négociations avec son club de Manchester City. Et la réussite fut au rendez-vous puisque The Mirror annonce un contrat de 5 ans pour 83 millions de livres sterling.

Ce type de recours à la data par un joueur est une première à ce niveau. Lors d’un précédent meetup, on avait vu que c’étaient majoritairement les clubs qui avaient recours à la data analyse pour parfaire leur recrutement, mais c’est la première fois que l’on voit un joueur de cette qualité et influence dans le monde du football négocier tout seul grâce à la donnée.

Source : https://www.mirror.co.uk/sport/football/news/kevin-de-bruyne-uses-data-23870686

‍

IA et cancer, la détection infaillible ?

Discussion autour du podcast de France Culture : La Méthode Scientifique, faisant intervenir chercheurs et médecins autour d’un sujet santé crucial.

Aujourd’hui dans les hôpitaux, il existe de nombreux outils d’aide à la décision, pour accompagner les médecins dans leurs diagnostics et leurs traitements. Ces outils utilisent en pratique de l’Intelligence Artificielle, mais encore peu poussée, et ont le rôle d’assistant du médecin, en recoupant toutes les informations à disposition.

Par exemple, on entend beaucoup parler d’IA qui caractérise des radios en donnant comme résultat malade, pas malade. C’est une pratique qui existe en travaux, mais très peu en cas réel, car on manque de jeu de données validées, c’est-à-dire validé en amont par le radiologue pour apprendre à l’IA à reconnaître une maladie. En revanche, l’IA est très utilisée pour l’augmentation de la qualité de l’image, à l’instar des photos de la Lune proposées par la NASA. Comme évoqué dans le précédent article, on fait ici appel au machine learning appelé réseaux neuronaux et plus spécifiquement aux CNN pour Convolutional Neural Networks. L’IA a appris dans ces cas à reconnaître une image, ses détails et à la grossir voire à contraster ses spécificités.

Radio des seins sans et avec intervention d'un IA mettant en valeur l'anomalie — À gauche, l’image originale et à droite l’image mise en valeur.

‍

Pourquoi alors l’IA ne serait-elle pas capable de donner un diagnostic si elle est capable de mettre en valeur les anomalies d’une radio ? On l’a vu, une IA pour apprendre s’appuie sur des données validées. Or, la data de labélisation doit être prise en compte, puisque la médecine évolue elle aussi. Ainsi, certaines données validées et labellisées qui étaient peut-être justes à un instant t, peuvent être remises en cause aujourd’hui. Ce serait ainsi mettre entre les mains de l’IA des données d’apprentissage fausses. Et d’un autre côté, en les excluant, on réduit le volume de données validées, et ainsi la qualité de l’apprentissage de l’IA.

Sans rentrer dans des détails médicaux pointus, de trop nombreuses variables entrent en compte aujourd’hui – le principal étant la variété des génomes humains – pour que le volume de données soit reconnu comme significatif. La médecine fait aujourd’hui face à un plafond de verre, en termes de mise en commun de données, de leur catégorisation, et surtout de leur volume. Est soulevé ici le principal problème lié à l’IA et à la data science : pour que ce soit utile, il faut de la donnée.

‍

L’enjeu de l’explicabilité de l’Intelligence Artificielle

Toujours en lien avec l’application médicale, l’explicabilité de l’IA est un sujet incontournable. Comment sortir de l’effet boîte noire où les données rentrent dans une IA qui en ressort un résultat sans que personne ne sache vraiment ce qui se passe à l’étape d’analyse faite par l’IA ?

‍

Process de fonctionnement d'une intelligence artificielle s'appyanbt sur le machine learning

En poursuivant dans la cancérologie par exemple, lorsque d’une radio des poumons est analysée par une IA (à gauche de l’image), celle-ci puise dans un modèle appris sur un data set d’images en stock (au milieu) et donne en guise de résultat un score (à droite) . Ce score représente la confiance que l’on peut avoir dans le résultat, c’est-à-dire le pourcentage que le patient ait un cancer. Mais l’IA ne fait que dire si quelque chose ne va pas, elle ne sait pas dire ce qui ne va pas. Le médecin peut-il exploiter le réseau de neurones (au milieu de l’image) à l’origine du résultat pour trouver les causes de la maladie et déterminer son diagnostic ?

Exemple de couches d'un réseaux de neuronal d'une intelligence artificielle

Quand bien même il ait une double compétence en médecine et data science, il est souvent impossible d’interpréter les différentes couches du réseau de neurones. C’est ce que l’on appelle l’effet boîte noire. Ainsi, si l’on ne peut pas interpréter le travail d’une IA, peut-on avoir confiance en elle ? Sachant que dans le point précédent, on a mis la lumière sur la faible quantité et qualité de données fiables ?

Heureusement, ce manque d’explicabilité n’est pas imputable à toutes les IA. À l’opposé de l’IA que l’on vient de présenter, dite connexionniste, il existe l’IA symboliste. Cette dernière se base sur un modèle plus classique, avec des règles et un moteur d’inférence qui va manipuler ces règles pour répondre à une question. Sa réponse donne un résultat explicite parce qu’elle a évacué toutes les autres propositions grâce à ces règles. Et elle autorise la transparence, car on connait les règles qu’elle applique. On ne considère cependant pas l’IA symboliste comme un modèle ultime, car elle nécessite une quantité encore plus importante de données validées, ce qui dans de nombreux domaines n’existe tout simplement pas.

Aujourd’hui, et grâce à Darpa, une agence du département de la Défense des États-Unis, les deux modèles convergent. Il n’y aura donc plus d’IA connexionniste ou symboliste, mais un mix des deux, soit une IA qui grâce à un réseau de neurones, génère des règles transparentes qui permettront d’obtenir un résultat. En fonction du problème, l’IA sera donc elle-même capable de décider quel modèle appliquer pour donner le meilleur résultat. Et ainsi, dans le cadre de clichés pulmonaires, le médecin aura en sa possession les raisons qui ont poussé l’IA à déterminer si un patient est malade ou pas. Ce qui prépare grandement son diagnostic.

‍

Bien connu en data science, qu’est-ce que l’effet cigogne ?

La légende veut qu’en Alsace, les villages qui comportaient le plus de nids de cigogne avaient un taux de natalité plus élevé. Il n’en fallait pas plus pour créer un mythe : les cigognes apportent les bébés. L’effet cigogne est donc la confusion entre corrélation et causalité. Si un événement A est corrélé à un événement B, alors A cause B. Cela peut bien évidemment être vrai, mais dans la majorité des cas, ce sera une corrélation trompeuse.

Ces deux concepts, corrélation et causalité, sont très connus en data science et plus généralement en mathématiques. Lorsque l’on parle de corrélation, c’est le plus souvent une corrélation dite de Pearson, qui est une simple corrélation linéaire. Si l’on prend deux événements A et B, on peut définir que l’un est corrélé positivement à l’autre, lorsque l’on peut définir A comme étant une fonction croissante de B, ou négativement lorsque A est une fonction décroissante de B, ou nullement dans les autres cas. Cela donne trois valeurs extrêmes d’une corrélation entre A et B, soit -1 la corrélation négative parfaite, 1 la corrélation positive parfaite – c’est-à-dire que lorsque A augmente d’une somme, B augmente de la même somme – et 0 qui signifie qu’il n’y a pas de corrélation.

Et ces corrélations sont observables partout, plus ou moins parfaites, et plus ou moins saugrenues. Le triste exemple ci-dessous fait corréler au États-Unis la consommation de fromage avec le nombre de suicides par drap de lit. Il est évident de dire qu’il n’y a aucune causalité entre le premier événement et le second.

‍

Exemple de corrélation trompeuse entre consommation de fromage et suicide par draps de lit

Pour poursuivre dans les exemples de corrélation qui méritent méfiance, les statistiques sont formelles : on a moins de chance de mourir d’une crise cardiaque lorsque l’on est fumeur. La tromperie réside ici dans le fait que lorsque l’on fume, on a plus de chance d’avoir une crise cardiaque jeune, et plus on avance en âge plus il est difficile de survivre à une crise cardiaque.

Dans le cadre de la data science, il est facile de faire dire aux données n’importe quoi. Pour s’en prémunir, nos équipes s’appuient par exemple beaucoup sur les métiers, qui ont un esprit critique avisé et savent repérer les incohérences, malgré les corrélations apparentes.

Une dernière pour finir ? Vous avez statistiquement plus de chances de vous faire attaquer par un requin si vous mangez une glace que si vous n’en mangez pas. Comment expliquer cette corrélation ? Y-a-t-il une causalité ? Un indice : les requins pourtant, n’aiment pas les glaces…

‍

Mehdi Haddab

Consultant en Data Science

Titulaire d'un Master en Data Science obtenu à l'Université de la Sorbonne, Mehdi est passionné par l'IAet les mathématiques. Il a notamment travaillé pour Orange.

Oussama Raboun

Auparavant Ingénieur en Recherche Data

Diplômé d'un Doctorat en informatique obtenu à l'Université Paris-Dauphine, d'un Master de recherche Paris-Dauphine et Mines ParisTech et d'un diplôme d'ingénieur en ingénierie mathématique, Oussama a rejoint Keley Data afin de construire de nouveaux modèles d'aide à la décision pour nos clients.

Vincent Talbo

Consultant en Data Science

Docteur en Physique, Ingénieur-Chercheur depuis 10 ans, Vincent est passionné par les thématiques touchant aux intelligences artificielles et à l'apprentissage machine.

Envie de partager cet article ?

Button Text