L’utilisation de l’IA peut aider les acteurs de l’intégrité à prévenir et à détecter efficacement la corruption et la fraude grâce aux éclairages qu’ils tirent d’ensembles de données importants et complexes qu’il aurait été impossible d’analyser autrement. Toutefois, si les données utilisées sont de mauvaise qualité, ces efforts peuvent être limités ou compromis ; cela peut avoir pour conséquences un gaspillage des ressources et l’apparition d’un certain scepticisme quant aux avantages de l’utilisation de l’IA. La qualité médiocre des données affecte un large éventail d’activités de lutte contre la corruption et la fraude. Par exemple, le prétraitement des données utilisées pour mener des analyses des risques de fraude et de corruption, notamment l’évaluation et la résolution des problèmes de fiabilité, peut prendre encore plus de temps que les travaux « analytiques » en eux-mêmes (OCDE, 2019[79]). De même, de nombreux acteurs de l’intégrité sont confrontés de manière récurrente à la difficulté de devoir gérer l’absence ou le manque de fiabilité des données liées à diverses sources de données critiques, comme les registres des déclarations de patrimoine ou du lobbying, ainsi que les données relatives aux marchés publics.
En outre, l’utilisation de données peu fiables ou incomplètes pour entraîner les modèles peut perpétuer, ou même accentuer, les préjugés et les biais existants (Adam et Fazekas, 2018[80]). Parmi les causes de ces problèmes, on peut citer les biais sociétaux déjà présents dans les données, les données incomplètes, les échantillons de taille restreinte, les erreurs dans la définition des variables, ou encore le fait d’omettre certaines variables ou variables de substitution ou d’en inclure qui soient erronées (OCDE, 2019[9] ; OCDE, 2023[81]). L’utilisation de données de synthèse (données générées artificiellement) dans l’apprentissage des modèles d’IA vise à surmonter certains des problèmes de qualité inhérents à de nombreux ensembles de données complexes (Lee, 2024[82]), mais il n’existe toujours pas de mesure infaillible pour atténuer ces risques. Des erreurs dans le couplage des données et l’utilisation d’algorithmes peu fiables peuvent avoir de profondes répercussions (The Royal Commission into the Robodebt Scheme, 2023[83]).
Les problèmes relatifs à la qualité des données utilisées par l’IA peuvent également aggraver les problèmes existants en ce qui concerne la confiance dans les institutions publiques ainsi que la possibilité d’auditer les processus de prise de décision. Les outils d’IA peuvent être perçus comme des systèmes de « boîte noire » qui prennent des données d’entrée et produisent des données de sortie, tandis que le processus intermédiaire n’est ni visible, ni facile à interpréter. Il existe donc un risque que le public puisse éprouver des difficultés à comprendre comment et par qui les décisions sont prises au sein des institutions publiques, ce qui peut entrainer des répercussions non désirées sur l’intégrité et la transparence du processus. Il peut être difficile pour les institutions publiques de fournir des explications concrètes sur ces processus d’IA, en particulier lorsque des questions de sécurité ou de droits de propriété intellectuelle les en empêchent (International Public Sector Fraud Forum, 2020[73]). Pour de nombreux acteurs de l’intégrité, ces obstacles à surmonter pour garantir l’interprétabilité et l’explicabilité des résultats peuvent mettre à mal les principes mêmes que celles-ci sont censées garantir, comme la transparence et la redevabilité dans le processus décisionnel public.
En outre, il peut être difficile pour les organismes chargés des audits et de l’intégrité d’auditer les systèmes d’IA qui prennent des décisions sur la base de modèles mal entraînés, ou des décisions fondées de manière expérimentale ou intuitive sur des données massives, et de comprendre le fonctionnement d’outils d’IA spécifiques. Les auditeurs qui ne disposent pas du niveau d’accès ou de l’expertise adaptés pourront avoir du mal à vérifier que les systèmes d’IA fonctionnent comme prévu et que les mécanismes nécessaires en matière d’évaluation et de traitement des risques sont en place (OCDE, 2023[81]). L’explication du fonctionnement des systèmes d’IA ainsi que leur audit posent des défis, et il pourrait être plus difficile pour les pouvoirs publics de favoriser la confiance dans le processus décisionnel public et pour la population d’avoir l’assurance que l’élaboration des politiques est efficace et sert l’intérêt général (OCDE, 2019[9] ; OCDE, 2023[81]).