Confiance et analyse des données fiable - KPMG Belgium
Human hand touches robot hand

Confiance et analyse des données fiable

Confiance et analyse des données fiable

Confiance et analyse des données fiable

Peter Van den Spiegel | Author,

Une étude réalisée par KPMG en 2016 a révélé que seulement 34 % des organisations accordaient une grande confiance à leur analyse des données opérationnelles et qu’un pourcentage à peu près équivalent faisait confiance à cette même analyse des données pour générer des informations sur leurs clients. L’enquête a également révélé que seulement 10 % des organisations ont confiance en la qualité de leurs données, en leurs outils et en leurs méthodologies. Les employés ne peuvent se fier aux analyses de données s’ils ne les comprennent pas, ou s’ils ne font pas confiance aux chercheurs qui les effectuent ni aux techniques que ces derniers utilisent.

Comme nous l’avons évoqué dans le premier blog de cette série, les comportements ou les résultats inattendus générés par des initiatives d’intelligence artificielle suscitent une certaine défiance à l’égard de l’analyse des données. Les systèmes d’intelligence artificielle n’agissent pas toujours exactement comme ils sont censés le faire (par exemple, les deux chatbots de Facebook, en 2017, qui ont communiqué dans un langage qui leur était propre). Même si les processus commerciaux sont guidés par des systèmes d’intelligence artificielle, l’organisation doit être en mesure de réagir et de gérer des situations si le système d’intelligence artificielle tombe en panne ou adopte un comportement imprévu. En outre, des conséquences inattendues surviennent lorsqu’un système d’intelligence artificielle assimile certaines fonctions décisionnelles en ayant accès à des données qui n’ont pas été prises en compte par le concepteur et grâce auxquelles il sera capable d’apprendre. Par exemple, de manière tout à fait inattendue, le chatbot de Microsoft lancé sur Twitter en 2016 avait appris un vocabulaire raciste à partir des précédents tweets injurieux que d’autres utilisateurs de Twitter avaient publiés. Ces exemples montrent que nous devons être responsables des données fournies au modèle.

Lorsque vous vous penchez sur l’analyse prescriptive des données et, plus particulièrement, sur les problèmes d’optimisation (comme la répartition optimale de patients dans des chambres d’hôpital, de colis dans des véhicules de livraison ou d’étudiants dans des écoles), il est essentiel que vous formuliez correctement votre objectif. Prenons le cas de la répartition d’étudiants dans les écoles, un problème d’optimisation difficile, qui a fait l’objet de plus de 50 ans de recherche scientifique. Il est clair qu’un algorithme idéal n’existe pas et que des décisions structurelles doivent être prises. Quels sont les objectifs que nous devons prendre en compte et quelle importance devons-nous accorder à chacun d’entre eux ? Il existe un large éventail d’objectifs. Certains sont potentiellement conflictuels. Par exemple, donnons-nous la primauté à la société dans son ensemble en adoptant un point de vue réglementaire/sociodémographique (entre autres, via des critères de référence relatifs au pourcentage d’indicatorleerlingen[i], comme c’est le cas dans certaines régions de Flandre et de Belgique) ou voulons-nous avantager les parents, en minimisant les distances qu’ils doivent parcourir ? Formuler les objectifs de manière différente ou même légèrement ajuster l’importance accordée à un objectif influence considérablement les résultats de l’algorithme.

Dans le domaine de l’analyse prédictive des données, les décisions relatives à l’évaluation des performances de votre modèle (de classification) sont cruciales. Selon le contexte, il est préférable de minimiser les faux négatifs ou les faux positifs en trouvant un compromis. Dans le domaine médical en particulier, le taux de faux négatifs est généralement minimisé au détriment du taux de faux positifs. On estime en effet qu’il est plus sûr de ne pas rater un patient malade et, donc, de potentiellement diagnostiquer la maladie même si le patient est en réalité en bonne santé. Lorsqu’un patient est diagnostiqué positif, il existe toujours une probabilité (que l’on appelle le « taux de faux positifs ») que le modèle ait fourni une évaluation incorrecte. À l’inverse, les tests d’alcoolémie sont généralement conçus pour minimiser les faux positifs. Les gens peuvent toujours demander un second test si le premier indique qu’ils sont en état d’ébriété alors qu’ils ne le sont pas. En suivant cette règle, le nombre de personnes réellement ivres sur la route sera minimisé.

Dans les années à venir, les principaux facteurs de différenciation entre les entreprises ne seront plus les performances de leur modèle, mais bien la confiance en leur analyse des données, soit la confiance qu’elles auront finalement inspirée à leurs employés, à leurs clients et aux autres parties prenantes. Les sociétés ne seront pas en mesure de tirer parti de décisions automatisées si leurs employés ne font pas confiance aux outils qui soutiennent ces décisions. Les clients n’accepteront pas de fournir leurs données s’ils ne sont pas certains que les algorithmes fonctionnent dans leur meilleur intérêt ou s’ils se méfient du but de la collecte de ces données.

Auteurs: Peter Van den Spiegel et Annelies De Corte