Ryan S. Baker
Université de Pennsylvanie
M. Aaron Hawn
Université de Pennsylvanie
Seiyon Lee
Université de Pennsylvanie
Ryan S. Baker
Université de Pennsylvanie
M. Aaron Hawn
Université de Pennsylvanie
Seiyon Lee
Université de Pennsylvanie
Ce chapitre dresse un état des lieux des données existantes sur les biais algorithmiques dans le domaine de l’éducation. Une fois les biais algorithmiques et leurs causes possibles définis, il passe en revue les données internationales disponibles en la matière dans l’éducation. En majeure partie axées sur le sexe et la race, ces données concernent également d’autres catégories démographiques. Pour conclure, ce chapitre présente quelques recommandations, qui visent notamment à garantir que les obligations en matière de protection de la vie privée n’empêchent pas les chercheurs et les concepteurs d’identifier les biais, et donc de les rectifier.
Le problème des biais algorithmiques suscite des inquiétudes grandissantes depuis dix ans. Un biais algorithmique intervient lorsqu’un algorithme encode (le plus souvent de manière involontaire) les biais présents dans la société, avec à la clé des prévisions ou des inférences qui discriminent sensiblement des groupes précis (Executive Office of the President, 2014[1] ; O’Neil, 2016[2] ; Zuiderveen Borgesius, 2018[3]). Ces inquiétudes sont apparues dans des domaines comme la justice pénale (Angwin et al., 2016[4]), la médecine (O’Reilly-Shah et al., 2020[5]), les techniques de vision par ordinateur (Klare et al., 2012[6]) et le recrutement (Garcia, 2016[7]).
Des études montrent que le problème des biais algorithmique concerne également les algorithmes utilisés dans le domaine de l’éducation. Cela fait plusieurs années que le milieu universitaire met en garde contre l’éventuelle efficacité inégale et le manque de généralisabilité des algorithmes éducatifs (p. ex. (Bridgeman, Trapani et Attali, 2009[8] ; Ocumpaugh et Heffernan, 2014[9])). Dans le domaine de l’éducation, les biais algorithmiques peuvent se manifester de différentes manières. Par exemple, il est possible qu’un algorithme servant à tester les compétences en anglais sous-évalue systématiquement les compétences des élèves de certains pays (Wang, Zechner et Sun, 2018[10] ; Loukina, Madnani et Zechner, 2019[11]), ce qui les empêche d’accéder à l’enseignement tertiaire. Pour donner un autre exemple, il est possible qu’un algorithme visant à détecter le risque d’échec des élèves dans une matière sous-estime les risques propres aux élèves de certains groupes démographiques (Hu et Rangwala, 2020[12] ; Kung et Yu, 2020[13] ; Yu et al., 2020[14]), ce qui les empêche d’accéder au soutien dont ils ont besoin.
Ces inquiétudes ont poussé les universitaires et les entreprises à s’intéresser davantage aux biais algorithmiques dans l’éducation. La montée en flèche du nombre de publications en la matière témoigne de l’attention grandissante que porte le milieu universitaire à cette question. Un débat animé, voire houleux, porte sur la meilleure façon de mesurer le biais algorithmique (Caton et Haas, 2020[15] ; Mehrabi et al., 2021[16] ; Verma et Rubin, 2018[17]) et sur les approches techniques susceptibles d’y remédier (Kleinberg, Mullainathan et Raghavan, 2016[18] ; Loukina, Madnani et Zechner, 2019[11] ; Lee et Kizilcec, 2020[19]). Dans le secteur privé et des ONG, des projets tels que la certification Prioritizing Racial Equity in AI Design Product de Digital Promise (Digital Promise, 2022[20]) témoignent des efforts mis en œuvre pour systématiser la réduction des biais algorithmiques. De nombreuses entreprises ont pris l’initiative de publier des données sur les biais algorithmiques présents dans leurs outils et plateformes, parfois en partenariat avec des universitaires (Bridgeman, Trapani et Attali, 2009[8] ; Bridgeman, Trapani et Attali, 2012[21] ; Christie et al., 2019[22] ; Zhang et al., 2022[23]). Le biais algorithmique dans l’éducation ne suscite pas encore le même intérêt de la part de la sphère politique – au contraire, les politiques actuelles tendent à adopter des réglementations en matière de protection de la vie privée qui, en empêchant de recueillir les données qui permettraient d’identifier les éventuels biais algorithmiques dans l’éducation et de faire front commun pour y remédier, empêchent totalement de résoudre ce problème – voir une critique de cette situation dans (Baker et Hawn, 2022[24]).
En dépit de l’inquiétude croissante suscitée par les biais algorithmiques dans l’éducation, le nombre de travaux ayant tenté de déterminer leur portée et de les corriger demeure restreint. Alors que toujours plus d’articles se penchent sur ce sujet, comme va l’illustrer cette analyse, leur angle d’approche est très variable. L’immense majorité des études sur les biais algorithmiques dans l’éducation s’intéresse à leurs répercussions sur un petit nombre de groupes raciaux et ethniques et sur le sexe (Baker et Hawn, 2022[24]) et se concentre sur les variables démographiques les plus accessibles aux chercheurs (Belitz et al., 2022[25]). En outre, les travaux en la matière portent le plus souvent sur les algorithmes utilisés dans un seul pays, à savoir les États-Unis d’Amérique (Baker et Hawn, 2022[24]). Les études existantes montrent clairement que les groupes déjà défavorisés à l’échelle sociétale le sont encore plus par les technologies éducatives actuelles, situation qui ne peut perdurer. Nous ne connaissons toutefois pas encore toute l’ampleur du problème.
Ce chapitre dresse l’état des lieux des données sur les biais algorithmiques dans le domaine de l’éducation, présente les principaux obstacles à la création d’algorithmes équitables et propose des mesures pour les surmonter. Il conclut en recommandant aux responsables politiques des mesures à mettre en place pour aider à résoudre ce problème sociétal encore largement invisible.
Une analyse menée récemment sur 146 articles révèle un certain flou dans la façon dont les auteurs définissent et emploient le terme biais, allant d’explications insuffisantes sur la façon précise dont les systèmes sont biaisés à des confusions concernant les préjudices dont le biais serait à l’origine (Crawford, 2017[26] ; Blodgett et al., 2020[27]). Nous allons brièvement passer en revue certaines de ces questions en définissant ce qu’est un biais algorithmique avant de proposer une définition opérationnelle limitée pour cet article.
L’expression biais algorithmique est utilisée pour décrire de nombreux problèmes d’équité dans les systèmes automatisés, dont seulement quelques-uns recoupent la définition statistique ou technique du biais. Adoptant une définition large, certains chercheurs définissent les biais comme l’ensemble des préjudices possibles tout au long du processus d’apprentissage automatique, dont toute propriété « involontaire ou potentiellement préjudiciable » des données aboutit à des « résultats indésirables ou défavorables sur un plan sociétal » (Suresh et Guttag, 2021[28]). D’autres cantonnent le biais algorithmique aux cas où la performance ou le comportement d’un modèle sont systématiquement différents d’un groupe à l’autre (Gardner, Brooks et Baker, 2019[29] ; Mitchell et al., 2020[30]). Cette deuxième définition du biais algorithmique, à savoir un écart de performance systématique, peut parfois aboutir à divers effets préjudiciables ou à de la discrimination en fonction de la façon dont les résultats du modèle sont appliqués.
Puisque les biais algorithmiques peuvent avoir des effets involontaires, le processus d’apprentissage automatique doit être mené avec prudence, en anticipant une partie des préjudices bien réels pouvant en découler. Un cadre largement accepté pour ces préjudices les classe en deux grandes catégories : les préjudices d’allocation et les préjudices de représentation (Crawford, 2017[26] ; Suresh et Guttag, 2021[28]).
Les préjudices d’allocation proviennent de la retenue ou de la répartition injuste des chances entre différents groupes, comme les biais entre les sexes lors de l’octroi de limites de crédit (Knight, 2019 ; Telford, 2019), les biais raciaux lors de décisions relatives à des condamnations (Angwin et al., 2016[4]), les biais raciaux lors de l’identification des patients nécessitant des soins de santé supplémentaires (Obermeyer et al., 2019[31]) ainsi que – dans l’éducation – les biais lors d’examens standardisés et leurs conséquences sur les décisions déterminantes en matière d’admission (Dorans, 2010[32] ; Santelices et Wilson, 2010[33]).
Les préjudices de représentation, quant à eux, se manifestent par la représentation négative systématique, ou l’absence de représentation positive, de certains groupes (Crawford, 2017[26]). De nombreuses formes de préjudices de représentation ont été mises en lumière ces dernières années. Sweeney (2013[34]) a notamment identifié des formes de dénigrement et de stéréotype, où, par exemple, le mot « criminel » apparaissait plus fréquemment dans les publicités en ligne après des recherches concernant des prénoms associés à des personnes noires.
Bien qu’il existe visiblement différentes façons d’aborder le biais algorithmique, nous mettons ici l’accent sur les situations où un modèle obtient des résultats nettement supérieurs ou inférieurs en fonction de groupes incompatibles (par exemple, (Gardner, Brooks et Baker, 2019[29] ; Mehrabi et al., 2021[16] ; Mitchell et al., 2020[30])). D’autres formes de biais algorithmiques (comme les cas mentionnés ci-dessus) peuvent être éminemment problématiques, mais comme nous le verrons ci-après, à ce jour, les études publiées dans l’éducation se concentrent sur cette version du biais liée à la performance. Dans cette analyse, nous mettons nous aussi l’accent sur les biais dans les algorithmes en excluant la conception d’ensemble des systèmes d’apprentissage ou d’éducation qui font appel à eux. Des biais peuvent aussi apparaître dans la conception d’activités d’apprentissage, ce qui entraîne des effets différents sur différentes populations (Finkelstein et al., 2013[35]). Il s’agit cependant d’un sujet bien plus vaste, qui dépasse la portée de cette analyse.
Bien que les biais algorithmiques aient des causes complexes, et que les résoudre ou les minimiser puisse être délicat, identifier les biais algorithmiques liés à la performance d’un modèle est relativement simple. Cela se fait en seulement deux étapes : 1) obtention des données sur l’identité des élèves ; 2) contrôle de la performance du modèle chez des élèves appartenant à différents groupes.
La première étape comporte des difficultés relatives à la protection de la vie privée des élèves (Pardo et Siemens, 2014[36]) et les politiques visant à la protéger (Baker, 2022[37]). Si les données sur l’identité des élèves et leur appartenance à des groupes démographiques clés ne sont pas recueillies dès le départ, elles peuvent être difficiles à obtenir par la suite. Une fois les données réparties entre les membres de différents groupes et le modèle appliqué à ces élèves, il est possible de contrôler les éventuels écarts de performance des résultats. Il est possible d’utiliser différentes mesures (Kizilcec et Lee, 2022[38]) ; idéalement, plusieurs seront employées de concert. Premièrement, les mesures généralement utilisées pour évaluer la performance des algorithmes (courbe ROC, Kappa, F1, précision, mémorisation, et ainsi de suite) peuvent aussi servir à évaluer la performance dans les sous-groupes. Deuxièmement, il est possible d’appliquer certaines mesures propres à l’analyse des biais algorithmiques : ABROCA (Gardner, Brooks et Baker, 2019[29]), indépendance, séparation ou suffisance, par exemple.
Après avoir examiné les données relatives aux écarts de performance de l’algorithme entre des groupes, il devient possible d’analyser les effets escomptés et donc d’anticiper les façons dont le biais algorithmique peut aboutir à une réponse ou à une intervention biaisée. Par exemple, si un algorithme servant à prédire le décrochage scolaire dans l’enseignement secondaire présente un rappel (capacité à identifier tous les individus à risque) 20 % inférieur chez les membres d’un groupe traditionnellement défavorisé, nous savons que de nombreux élèves à risque et ayant besoin d’une intervention dans ce groupe n’en bénéficieront pas. À l’inverse, si le même algorithme atteignait une précision (capacité à éviter de sélectionner un individu qui n’est pas à risque) 20 % inférieure chez les membres d’un groupe traditionnellement défavorisé, de nombreux élèves de ce groupe bénéficieraient d’interventions superflues, ce qui, au mieux, leur ferait perdre leur temps. Contrôler les effets escomptés donne également une idée de ce qu’il y a à gagner en corrigeant un biais identifié, et garantit que les efforts en ce sens, s’ils portent leurs fruits, rendront l’algorithme plus équitable et utile en général.
Les chercheurs ont réfléchi aux différents groupes qui sont affectés par les biais algorithmiques ou qui pourraient l’être. Bon nombre sont définis par des caractéristiques protégées par la loi. Au Royaume-Uni, par exemple, l’Equality Act de 2010 a fusionné plus d’une centaine de lois différentes en un même cadre légal harmonisant les protections contre les discriminations motivées par le sexe, la race, l’origine ethnique, le handicap, la religion, l’âge, l’origine nationale, l’orientation sexuelle et l’identité de genre. Aux États-Unis, les mêmes catégories sont protégées par un arsenal de lois, de décisions de commissions et de décisions de justice remontant au Civil Rights Act de 1964. Des lois comparables protègent ces groupes dans l’Union européenne et la plupart des autres pays, même si les groupes protégés et leur définition varient d’un pays à l’autre.
Bien qu’il soit fondamental d’assurer l’équité à ces groupes définis par la loi, rechercher des biais uniquement à l’aune des classes protégées à l’échelon national (catégories avec leur propre histoire compliquée) peut laisser d’autres groupes, peu étudiés, en proie aux biais et aux préjudices. D’autres chercheurs ont suggéré que d’autres caractéristiques sont susceptibles d’être vulnérables aux biais algorithmiques dans l’éducation : le degré d’urbanisation (Ocumpaugh et Heffernan, 2014[9]), les liens familiaux avec l’armée (Baker, Berning et Gowda, 2020[39]) ou la vitesse d’apprentissage (Doroudi et Brunskill, 2019[40]). Les cadres légaux utilisés pour décider quelles classes de personnes méritent d’être mises à l’abri de la discrimination peuvent être utiles pour évaluer les risques inconnus des biais algorithmiques envers les groupes moins étudiés ou non identifiés (Soundarajan et Clausen, 2018[41]). La section 4 passe en revue le petit nombre d’études relatives aux biais algorithmiques associés à d’autres groupes dans le domaine de l’éducation.
Pour tenter de mieux cataloguer les causes des biais algorithmiques, des chercheurs ont décrit les étapes du cycle de l’apprentissage automatique ainsi que les types de biais et de préjudices susceptibles d’en découler (Barocas, Hardt et Narayanan, 2019[42] ; Friedman et Nissenbaum, 1996[43] ; Hellström, Dignum et Bensch, 2020[44] ; Mehrabi et al., 2021[16] ; Silva et Kenney, 2019[45] ; Suresh et Guttag, 2021[28]). Si certains auteurs décomposent l’apprentissage machine en grandes étapes (p. ex, la mesure, l’apprentissage du modèle et l’action) (Barocas, Hardt et Narayanan, 2019[42] ; Kizilcec et Lee, 2022[38]), d’autres définissent des étapes plus précises, comme la collecte des données, la préparation des données, le développement du modèle, l’évaluation du modèle, le post-traitement du modèle et le déploiement du modèle (Suresh et Guttag, 2021[28]). Les chercheurs du secteur privé, quant à eux, ajoutent des étapes plus courantes dans les contextes appliqués, comme la définition des tâches, la construction de l’ensemble de données, le processus de test, le déploiement et les commentaires permanents des utilisateurs (Cramer et al., 2019[46]).
Chacune de ces étapes peut voir ressortir des formes particulières de biais, comme des biais historiques, de représentation, de mesure, d’agrégation, d’évaluation et de déploiement (Suresh et Guttag, 2021[28]). Fruit d’algorithmes ambitieux, orientés sur les objectifs et ancrés dans des données issues d’un monde traditionnellement inéquitable, le biais historique est souvent perpétué dans l’éducation. L’exemple le plus courant tient sans doute à l’utilisation des données démographiques des élèves pour améliorer la performance d’un modèle, avec à la clé une baisse des notes prévues pour certains élèves en fonction de leur appartenance à un groupe démographique (p. ex. (Wolff et al., 2013[47])). Selon une étude récente sur le rôle des données démographiques dans l’exploration des données éducatives, environ la moitié des articles qui intègrent des données démographiques aux modèles risquent de présenter cette forme de biais s’ils utilisent au moins un attribut démographique en tant qu’élément prédictif sans tenir compte des données démographiques lors du test ou de la validation de leur modèle (Paquette et al., 2020[48]).
Le biais de représentation intervient lorsque des groupes sous-échantillonnés dans les données d’entraînement reçoivent des prévisions de performance inférieures à celles des autres groupes. Le biais de mesure se produit lorsque le construct des variables choisies manque de validité, ce qui aboutit à des prévisions inéquitables d’un groupe à l’autre. Un modèle prédisant la violence scolaire, par exemple, peut être biaisé si l’échantillonnage des élèves impliqués dans la violence repose sur des préjugés – c’est-à-dire que le même comportement violent est attesté pour les membres d’une race, mais pas d’une autre (Bireda, 2002[49]).
Au-delà des étapes de collecte des données de l’apprentissage automatique, la phase d’apprentissage du modèle risque de présenter un biais d’agrégation : lorsque les données d’entraînement issues de populations distinctes sont combinées, le modèle en découlant peut être moins performant pour certains groupes d’élèves, voire pour tous (Suresh et Guttag, 2021[28]). Par exemple, lorsque des détecteurs d’émotion des élèves ont été entraînés sur une combinaison d’élèves issus d’un milieu urbain, rural ou suburbain, ils étaient moins performants sur l’ensemble des trois groupes que des détecteurs entraînés sur des groupes séparés (Ocumpaugh et Heffernan, 2014[9]). Dans les phases d’application de l’apprentissage automatique, on parle d’un biais d’évaluation lorsque les ensembles de tests utilisés pour évaluer un modèle ne représentent pas les populations auxquelles le modèle sera appliqué. Quant au biais de déploiement, il se produit lorsqu’un modèle conçu dans un but précis est utilisé pour d’autres tâches, par exemple lorsqu’un modèle conçu pour aider les enseignants à identifier le décrochage scolaire sert à attribuer des notes de participation sommatives aux élèves.
De plus en plus d’études et d’enquêtes journalistiques ont mis au jour ces formes de biais algorithmiques dans des domaines comme la prévision du risque de décrochage scolaire dans l’enseignement secondaire ou tertiaire (Anderson, Boodhwani et Baker, 2019[50]), la prévision de risque d’échec dans une matière (Hu et Rangwala, 2020[12] ; Lee et Kizilcec, 2020[19]), la correction automatisée de rédactions (Bridgeman, Trapani et Attali, 2009[8] ; Bridgeman, Trapani et Attali, 2012[21]), l’évaluation de la maîtrise orale d’une langue (Wang, Zechner et Sun, 2018[10]) et la détection des émotions des élèves (Ocumpaugh et Heffernan, 2014[9]). Dans ces cas et d’autres qui seront analysés ci-après, le biais algorithmique a des répercussions sur les algorithmes éducatifs en ce qui concerne la race, l’origine ethnique, la nationalité, le sexe, la langue maternelle, le degré d’urbanisation et le statut socio-économique des élèves ainsi que le niveau d’études des parents et le fait qu’un élève ait un parent dans l’armée. Ces données ont suscité un accroissement de la recherche universitaire et privée sur les façons de mieux identifier les biais algorithmiques et de les minimiser, et d’en atténuer les préjudices.
Une grande partie des travaux qui s’intéressent aux biais algorithmiques met l’accent sur leur minimisation aux étapes de l’évaluation et du post-traitement du modèle pendant le processus d’apprentissage automatique. De récentes enquêtes présentent plusieurs taxonomies et définitions de l’équité accompagnées d’indicateurs (Barocas, Hardt et Narayanan, 2019[42] ; Caton et Haas, 2020[15] ; Kizilcec et Lee, 2022[38] ; Mehrabi et al., 2021[16] ; Mitchell et al., 2020[30] ; Verma et Rubin, 2018[17]). Bien que ces indicateurs formels contribuent nettement à expliquer le biais algorithmique, leur application a mis en évidence des obstacles. Plus précisément, des défis techniques relatifs à l’utilisation d’indicateurs de l’équité se manifestent dans plusieurs résultats « impossibles » (Chouldechova, 2017[51] ; Kleinberg, Mullainathan et Raghavan, 2016[18] ; Berk et al., 2018[52] ; Loukina, Madnani et Zechner, 2019[11] ; Lee et Kizilcec, 2020[19] ; Darlington, 1971[53]), où la satisfaction d’un critère statistique d’équité empêche la satisfaction d’un autre. Par exemple, Kleinberg et al. (2016[18]) démontrent qu’il est mathématiquement impossible, dans des circonstances normales, qu’un modèle d’estimation des risques puisse éviter les trois propriétés indésirables suivantes : 1) l’altération systématique des résultats d’un groupe démographique à la hausse ou à la baisse ; 2) l’attribution d’une estimation moyenne du risque supérieure à des individus qui ne sont pas à risque dans un groupe plutôt qu’un autre ; 3) l’attribution d’une estimation moyenne du risque inférieure à des individus qui ne sont pas à risque dans un groupe plutôt qu’un autre.
Minimiser le biais comporte d’autres défis, comme la difficulté à décrire des arbitrages optimaux en matière d’équité pour les problèmes propres à certains domaines (Lee et Kizilcec, 2020[19] ; Makhlouf, Zhioua et Palamidessi, 2021[54] ; Suresh et Guttag, 2021[28]). Cette démarche doit aussi composer avec la critique sociotechnique suivante : accorder une importance démesurée à des critères statistiques en apparence objectifs à des fins d’équité peut donner aux concepteurs et aux utilisateurs des algorithmes un prétexte pour éviter de se confronter à tous les biais et préjudices potentiels découlant de leur emploi dans le cadre de décisions importantes (Green, 2020[55] ; Green et Hu, 2018[56] ; Green et Viljoen, 2020[57]). Afin de remédier au problème global posé par les biais algorithmiques, il est essentiel de les identifier et de les atténuer dès les premières étapes de la collecte et de la préparation des données et pas uniquement aux étapes finales du processus.
Les tentatives visant à remédier aux biais algorithmiques en se contentant d’ajuster les algorithmes peuvent s’avérer inefficaces si nous n’avons pas collecté les bonnes données. Plus précisément, les biais de représentation et de mesure (Suresh et Guttag, 2021[28]) peuvent empêcher les méthodes déployées par la suite de résoudre les biais, voire de les détecter.
En guise d’exemple typique, si nous nous contentons de collecter des données d’entraînement auprès d’enfants de la classe moyenne supérieure issus d’un milieu suburbain, nous ne devons pas nous attendre à ce que notre modèle fonctionne pour les élèves à revenu faible issus d’un milieu urbain. Plus généralement, faute de collecter les données auprès du bon échantillon d’élèves, nous encourons des biais de représentation et nous ne pouvons attendre de nos modèles qu’ils fonctionnent pour tous les élèves.
Le biais de mesure est un autre défi significatif impossible à surmonter par la simple amélioration des indicateurs ou des algorithmes. Si les biais de mesure peuvent apparaître à la fois au niveau des variables prédictives et des catégories d’entraînement (Suresh et Guttag, 2021[28]), les cas les plus préoccupants concernent ces dernières. Si par exemple, les élèves noirs se comportent de la même façon que des élèves d’autres groupes, mais demeurent plus susceptibles d’être catégorisés comme prenant part à la violence scolaire dans un ensemble de données, il devient difficile de déterminer si un algorithme fonctionne aussi bien pour les deux groupes, voire d’avoir la certitude qu’il n’est pas biaisé. De façon surprenante, ce biais en matière de catégories d’entraînement peut même provenir des élèves eux-mêmes si la catégorisation dépend de leurs réponses qui peuvent être influencées par leur confiance en eux, leur interprétation culturelle ou le risque de stéréotype (Tempelaar, Rienties et Nguyen, 2020[58]). Dans ce cas, trouver une autre variable à prédire – exempte de biais – peut être la meilleure solution. D’autres cas de biais de mesure peuvent être plus simples à minimiser, par exemple lorsque les correcteurs humains, sous l’effet de leurs propres biais (Kraiger et Ford, 1985[59] ; Okur et al., 2018[60]), catégorisent certains aspects des données collectées auparavant. En cas de variables prédictives biaisées, celles-ci peuvent remplacer d’autres variables qui définiraient explicitement l’appartenance à un groupe, auquel cas mieux vaut ne pas en tenir compte.
En fin de compte, la meilleure démarche pour remédier aux biais de représentation et de mesure consiste à collecter de meilleures données – des données qui incluent des groupes pertinents en proportions suffisantes, et dont les variables clés ne sont pas biaisées (Cramer et al., 2019[46] ; Holstein et al., 2019[61]). Cela étant, pour y parvenir, il convient de savoir quels groupes doivent être représentés dans les ensembles de données utilisés pour développer les modèles – et c’est sur quoi se penche la prochaine section.
La grande majorité des recherches s’intéresse à quelques groupes parmi les effectifs variés des élèves, et met l’accent sur des variables comme la race, l’origine ethnique, la nationalité et le sexe (Baker et Hawn, 2022[24]). Sans surprise, la race, l’origine ethnique, la nationalité et le sexe représentent les catégories ou variables démographiques les plus fréquemment collectées ou rendues accessibles aux chercheurs, que ce soit par convention ou commodité, d’autant plus que la plupart des recherches ont été menées aux États-Unis.
Ces grandes catégories présentent des écarts dans la façon dont les variables sont considérées. Dans certains cas on prend en compte des groupes raciaux, tandis que dans d’autres, ils n’entrent en considération que si un élève est considéré comme issu d’une minorité sous-représentée. Bien qu’ils soient une minorité dans la plupart des études, les Asiatiques ne sont généralement pas considérés comme une minorité sous-représentée dans les recherches dans le domaine de l’éducation aux États-Unis. Même lorsque les groupes raciaux sont séparés dans les analyses, l’hétérogénéité au sein de ces groupes est généralement ignorée [comme la différence entre les personnes dont les ancêtres vivent dans leur pays actuel depuis des générations et les nouveaux immigrants ; les personnes avec différentes origines nationales aux histoires et cultures très différentes ; (Baker et al., 2019[62])].
Cette section examine les données relatives aux biais algorithmiques dans l’éducation en se penchant sur les groupes d’élèves affectés de façon systématique dans ces catégories courantes. Elle présente une vue d’ensemble en fonction des différentes régions du monde où chaque étude a été menée afin d’illustrer le nombre variable d’études sur les biais algorithmiques dans l’éducation entre les régions. Nous verrons ce qu’implique cette variation, ainsi que les façons d’y remédier, dans la suite du chapitre.
La majorité des études sur les biais algorithmiques dans le domaine de l’éducation a été menée aux États-Unis. Le vif intérêt pour la documentation et la résolution des biais algorithmiques dans ce pays tient à des préoccupations sociétales plus générales en matière de biais algorithmique (Corbett-Davies et Goel, 2018[63]) et de discrimination au sens large (Barocas, Hardt et Narayanan, 2019[42] ; O’Neil, 2016[2]). Il peut également refléter la disponibilité relativement élevée des données éducatives à des fins de recherche aux États-Unis. Même la plupart des études portant sur la façon dont les élèves de différentes nationalités sont affectés par les recherches en matière de biais algorithmiques ont été menées aux États-Unis (Bridgeman, Trapani et Attali, 2009[8] ; Bridgeman, Trapani et Attali, 2012[21] ; Li et al., 2021[64] ; Ogan et al., 2015[65] ; Wang, Zechner et Sun, 2018[10]).
Aux États-Unis, un nombre considérable d’études s’est penché sur l’effet des biais algorithmiques sur différents groupes raciaux dans le domaine de l’éducation. Une analyse menée récemment par Baker et Hawn (2022[24]) identifie dix cas où cette question a été étudiée, avec des algorithmes allant de la prévision du décrochage scolaire (Anderson, Boodhwani et Baker, 2019[50] ; Christie et al., 2019[22] ; Kai et al., 2017[66] ; Yu, Lee et Kizilcec, 2021[67]) et de la prévision de l’échec à une matière (Lee et Kizilcec, 2020[19] ; Yu et al., 2020[14]) à la correction automatisée de rédactions (Bridgeman, Trapani et Attali, 2009[8] ; Bridgeman, Trapani et Attali, 2012[21] ; Ramineni et Williamson, 2018[68]). En règle générale, dans ces études, les algorithmes étaient moins efficaces pour les élèves noirs et hispaniques/latinos (Anderson, Boodhwani et Baker, 2019[50] ; Bridgeman, Trapani et Attali, 2012[21] ; Lee et Kizilcec, 2020[19] ; Ramineni et Williamson, 2018[68] ; Yu, Lee et Kizilcec, 2021[67]) et présentaient également des profils de résultats faux positifs et négatifs différents pour les élèves de différents groupes raciaux (Anderson, Boodhwani et Baker, 2019[50]). Plus récemment, le wiki du centre Penn Center for Learning Analytics (PCLA) (Penn Center for Learning Analytics, s.d.[69]) a recensé six études supplémentaires (publiées depuis que l’analyse de (Baker et Hawn[24])a été finalisée) en la matière. Étrangement, bon nombre de ces études récentes montrent des effets plus limités que dans les études antérieures, ce qui porte à croire qu’il y avait des problèmes de « classement » dans les travaux antérieurs (les résultats affichant de petits effets n’étaient pas publiés) ou qu’il y a un élargissement de la gamme de contextes possibles étudiés.
Bien qu’une attention considérable soit accordée à la race en général, il y a moins d’études consacrées aux élèves autochtones, souvent en raison de problèmes de taille de l’échantillon (Anderson, Boodhwani et Baker, 2019[50]), même s’il existe des contre-exemples notables (voir (Christie et al., 2019[22])).
Aux États-Unis, un nombre considérable d’études porte également sur l’effet des biais algorithmiques dans l’éducation chez des élèves en fonction du sexe. Baker et Hawn (2022[24]) ont identifié neuf cas, après quoi le wiki du centre PCLA a identifié trois articles supplémentaires. Dans ces articles, les effets du sexe sont très hétérogènes, avec des biais significatifs tantôt contre les élèves de sexe féminin (Gardner, Brooks et Baker, 2019[29] ; Yu et al., 2020[14]), tantôt contre ceux de sexe masculin (Hu et Rangwala, 2020[12] ; Lee et Kizilcec, 2020[19] ; Kai et al., 2017[66]).
Bien que la race soit utilisée en tant que variable prédictive en Europe (Wolff et al., 2013[47]), elle n’a pas fait l’objet d’une étude systématique en ce qui concerne les biais algorithmiques dans le domaine de l’éducation. Aucune étude sur la façon dont les biais algorithmiques affectent les élèves de différentes nationalités n’a été menée en Europe à notre connaissance, bien que Bridgeman et ses collègues (2009[8] ; 2012[21]) se soient penchés sur les biais algorithmiques touchant la correction automatisée de rédactions chez les élèves du monde entier, y compris de plusieurs pays européens. Ils en concluent que les élèves des pays européens sont moins affectés que ceux des pays asiatiques. Cependant, Wang, Zechner et Sun (2018[10]) ont mis en évidence des inexactitudes considérables dans l’évaluation de la parole chez les élèves en Allemagne, tandis que Li et al. (2021[64]) ont relevé que la prévision des résultats scolaires est moins efficace chez les élèves moldaves que chez les élèves de pays plus riches.
Des études sur les biais algorithmiques en matière de sexe ont néanmoins été menées en Europe : Riazy et al. (2020[70]) se sont penchés sur les effets du sexe sur la prévision des résultats dans une matière tandis que Rzepka et al. (2022[71]) ont examiné les effets du sexe sur des prévisions menées lors d’une activité d’apprentissage de l’orthographe. Seuls des effets mineurs ont été mis en évidence.
De manière générale, jusqu’à présent, aucune donnée ne prouve que les biais algorithmiques entraînent des répercussions majeures en Europe, que ce soit en matière de race, de nationalité ou de sexe. Cela étant, seules quelques études ont été menées et celles-ci ne couvrent pas toute la gamme d’applications étudiées aux États-Unis.
De nombreuses études portant sur les biais algorithmiques en matière de nationalité ont été menées sur des élèves dans le monde entier, même si elles impliquaient principalement des chercheurs aux États-Unis. Baker et Hawn (2022[24]) ont identifié quatre études de ce type, qui portent sur différentes applications, de la prévision des résultats scolaires (Li et al., 2021[64]) et de la correction automatisée de rédactions (Bridgeman, Trapani et Attali, 2009[8] ; Bridgeman, Trapani et Attali, 2012[21]) à l’évaluation de la parole (Wang, Zechner et Sun, 2018[10]) et à des modèles de demande d’aide (Ogan et al., 2015[65]). Ces études ont mis en évidence des biais affectant des élèves en Chine, en Corée, en Inde, au Vietnam, aux Philippines et au Costa Rica, ainsi que des personnes vivant dans des pays dont la langue principale est l’arabe. Ces études relativement différentes les unes des autres (à l’exception des deux menées par Bridgeman et al.) rendent compte de différents comportements ; elles indiquent clairement que d’autres études s’imposent.
Trois études sur les biais algorithmiques en matière de sexe dans le domaine de l’éducation ont été menées à l’extérieur des États-Unis et de l’Europe. Verdugo et ses collègues (2022[72]) ont mis en évidence des biais dans les algorithmes prédisant le décrochage universitaire au Chili, avec des effets négatifs chez les étudiantes. Sha et ses collègues (2021[73] ; 2022[74]), qui se sont penchés sur des algorithmes avec quatre applications différentes en Australie, ont trouvé des biais considérables liés au sexe, qui n’allaient toutefois pas toujours dans le même sens.
Il s’est avéré que la correction automatisée de rédactions utilisée dans un examen important (le TOEFL, test d’anglais langue étrangère) attribue systématiquement des notes différentes de celles des correcteurs humains. Plus précisément, l’algorithme a évalué les locuteurs natifs de l’arabe, de l’hindi et de l’espagnol moins bien que les élèves d’autres pays, par rapport aux correcteurs humains. L’algorithme a été utilisé pour remplacer l’un des deux correcteurs humains. En réponse à ces éléments, le concepteur de ce test a institué une nouvelle pratique : pour commencer, un seul correcteur humain et la machine notent la rédaction. Si l’humain et la machine accordent des notes sensiblement différentes, un deuxième humain note la rédaction. Si les deux humains concordent, la note automatique est supprimée (Bridgeman, Trapani et Attali, 2012[21]).
Un modèle prédisant le décrochage chez les élèves de première année dans une université chilienne s’est avéré moins performant chez les élèves de sexe féminin et les élèves ayant été scolarisés dans l’enseignement secondaire privé. Différentes techniques d’équité ont été appliquées, avec à la clé plus d’égalité dans la performance du modèle, et ainsi, plus d’égalité dans le soutien apporté aux élèves décrocheurs (Vasquez Verdugo et al., 2022[72]).
Les modèles détectant les émotions des élèves (ennui, frustration, confusion ou motivation) sur une plateforme d’enseignement en ligne se sont avérés moins performants chez les élèves issus d’un milieu rural que chez ceux issus d’un milieu urbain ou suburbain. Après la création d’un modèle adapté aux élèves issus d’un milieu rural, le modèle a vu sa performance s’améliorer pour ce groupe. Les modèles sont utilisés pour procéder à des recherches en ingénierie de l’apprentissage sur la façon d’améliorer la conception des contenus pédagogiques ; en réduisant leurs inégalités, on réduit le risque de prendre de mauvaises décisions en matière de conception (Ocumpaugh et Heffernan, 2014[9]).
Si la majorité des études consacrées aux biais algorithmiques dans l’éducation portait sur la race, l’origine ethnique, la nationalité et le sexe, d’autres catégories d’identité ont également été étudiées. Dans cette section, nous allons examiner les données relatives aux biais algorithmiques dans l’éducation qui affectent les élèves de ces catégories. Dans toutes les études, les chercheurs se sont penchés sur les biais algorithmiques concernant le degré d’urbanisation (milieu urbain ou rural), le milieu socio-économique, le type d’établissement fréquenté (public ou privé), la langue maternelle, les liens familiaux avec l’armée et le handicap des élèves ainsi que le niveau d’études des parents. Ces variables n’ont généralement pas été étudiées avec un degré de détail suffisant pour en tirer des conclusions solides. Comme pour la race, l’origine ethnique, la nationalité et le genre, la majorité des études se sont déroulées aux États-Unis (15 études), contre trois en Europe et deux dans le reste du monde.
Selon le wiki du centre PCLA, quatre études se sont penchées jusqu’à présent sur les biais algorithmiques relatifs à la langue maternelle dans l’éducation : deux aux États-Unis (Naismith et al., 2019[75] ; Loukina, Madnani et Zechner, 2019[11]), une en Europe (Rzepka et al., 2022[71]) et une en Australie (Sha et al., 2021[73]). Trois d’entre elles montrent que les biais algorithmiques affectent les locuteurs non natifs tandis qu’une autre (Rzepka et al., 2022[71]) relève que le modèle était légèrement plus précis pour les locuteurs non natifs. Les quatre études portaient sur des tâches éducatives centrées sur l’utilisation de la langue (rédaction, oral, orthographe et publication dans des forums de discussion).
Le wiki du centre PCLA a recensé cinq études portant sur le niveau d’études parental : quatre aux États-Unis et une en Europe. Toutes les cinq présentent des écarts en matière de performance et de prévisions de leur modèle, mais le biais se manifeste d’une façon différente d’une étude à l’autre : certaines relèvent une meilleure performance chez les élèves dont les parents sont plus instruits là où d’autres font ce constat chez les élèves dont les parents sont moins instruits.
Le wiki du centre PCLA a aussi relevé cinq études sur le milieu socio-économique, toutes menées aux États-Unis. Quatre des cinq articles (prévision du décrochage, moyenne pondérée cumulative et apprentissage) constatent que les algorithmes sont moins efficaces chez les élèves issus d’un milieu socio-économique plus défavorisé, tandis que le cinquième (sur la correction automatisée de rédactions) ne montre aucune différence probante. Une sixième étude menée au Chili, différenciant les élèves scolarisés dans l’enseignement public de ceux du privé (variable fortement corrélée au milieu socio-économique), montre que les modèles qui prédisent le décrochage scolaire à l’université sont plus fiables pour les élèves issus de l’enseignement public.
Relativement peu d’études ont été menées sur les effets des biais algorithmiques sur les élèves ayant un handicap. Aux États-Unis, Baker et Hawn (2022[24]) attestent d’une seule étude en la matière, réalisée par Loukina et Buzick (2017[76]), qui montre qu’un système d’évaluation des compétences orales en anglais était moins fiable chez les élèves identifiés comme ayant un trouble de la parole par les administrateurs du test.
En Europe, Baker et Hawn (2022[24]) rendent à nouveau compte d’une seule étude, menée par Riazy et al. (2020[70]), qui ont trouvé qu’un système de prévision des résultats dans une matière présentait systématiquement des inexactitudes chez les élèves se déclarant handicapés. Ces deux études ne couvrent manifestement pas toute la gamme de handicaps pouvant aboutir à un biais algorithmique en matière d’éducation, tandis qu’aucune étude n’a été documentée à l’extérieur des États-Unis et de l’Europe.
Selon le wiki du centre PCLA, deux études se sont penchées sur les biais algorithmiques en matière de degré d’urbanisation des élèves (milieu urbain/rural), toutes deux aux États-Unis. Ocumpaugh et ses collègues (2014[9]) mettent en évidence que les modèles prédisant les émotions des élèves développés en s’appuyant sur les données d’élèves issus d’un milieu urbain sont moins efficaces lorsqu’ils sont testés sur les données d’élèves issus d’un milieu rural plutôt que sur celles d’élèves invisibles issus d’un milieu urbain. Le même constat s’applique si le modèle est développé en s’appuyant sur les données d’élèves issus d’un milieu rural puis testé sur des élèves issus d’un milieu urbain. Cependant, Samei et ses collègues (2015[77]) montrent que les modèles sur les discussions en classe ne présentent pas de différence entre milieu urbain et milieu rural. D’autres études sont de mise pour déterminer quels types de prévisions sont concernés lorsque les modèles mélangent milieu urbain et milieu rural.
Enfin, une étude menée aux États-Unis montre que les modèles qui prédisent l’obtention d’un diplôme et les notes standardisées aux examens sont moins précis chez les élèves ayant des parents dans l’armée (Baker, Berning et Gowda, 2020[39]). Ces études qui se penchent sur différentes variables prouvent, dans l’ensemble, que les biais algorithmiques ont des répercussions qui dépassent la race/l’origine ethnique, le sexe et la nationalité. Tout un éventail de variables reste à étudier, comme la religion, l’âge, le fait que les parents soient des travailleurs immigrés, la transidentité, l’orientation sexuelle et d’autres handicaps que les troubles de la parole.
Les sections précédentes de ce chapitre ont présenté l’état des connaissances sur la façon dont les biais algorithmiques se manifestent dans le domaine de l’éducation. Notre analyse montre que des données prouvent clairement que les biais algorithmiques se manifestent de nombreuses façons tout en révélant nos lacunes en la matière. De nombreux domaines potentiellement affectés par les biais algorithmiques sont décrits dans un seul article, tandis que de nombreux autres n’ont pas été étudiés du tout. L’ampleur du problème dans différents cas et chez différents groupes d’élèves demeure également floue.
Comme le soulignent Baker et Hawn (2022[24]), nous commençons seulement à chercher comment résoudre le problème des biais algorithmiques. En premier lieu, il existe des biais inconnus – un problème existe, mais les concepteurs et les chercheurs ne le savent pas. Peut-être savent-ils qu’un problème existe en général, sans savoir exactement qui est affecté, ou comment. Les études descriptives peuvent faire passer un algorithme pédagogique donné d’un biais inconnu à un biais connu.
En cas de biais connu, on sait désormais qu’il existe un problème, où il se produit et qui est touché. Nos connaissances demeurent peut-être incomplètes, mais elles sont suffisantes pour agir. Dès lors que nous savons quel est le biais, il devient possible d’avancer vers l’équité. La sphère de l’apprentissage automatique au sens large comprend de mieux en mieux les mesures à prendre pour améliorer l’équité des algorithmes (Mehrabi et al., 2021[16] ; Narayanan, 2018[78]). Bien que cette tâche demeure loin d’être parfaite, et que les meilleures méthodes soient toujours sujettes à débat (Kleinberg, Mullainathan et Raghavan, 2016[18] ; Berk et al., 2018[52]), il existe désormais un savoir-faire suffisant pour rectifier un biais algorithmique dès lors qu’il est connu. Enfin, augmenter l’équité algorithmique peut être une étape vers la création d’un monde équitable, avec une réelle égalité des chances pour tous les élèves – voir (Holstein et Doroudi, 2022[79]).
Œuvrer en faveur de l’équité impose de déterminer dans quels domaines les technologies et les pédagogies sont les plus inéquitables, et de s’efforcer de résoudre ces problèmes en premier lieu. La plupart des domaines les plus inéquitables impliquent des inégalités déjà bien connues. Mais certaines peuvent être moins connues des milieux éducatifs et politiques. Il nous arrive d’occulter des inégalités majeures en raison de nos propres biais et idées reçues. En d’autres termes, il faut poursuivre la recherche puisqu’à l’heure actuelle le monde de l’éducation évolue majoritairement dans une situation de biais inconnu.
Il existe actuellement de nombreux obstacles pour atteindre l’équité et l’égalité en matière de technologies éducatives. Le principal obstacle, comme le souligne la section précédente, tient à tout ce que nous ne savons pas sur les biais qui existent dans le monde en général, mais aussi entre les pays. Comme l’indiquent Baker et Hawn (2022[24]), les biais inconnus peuvent être classés en deux catégories. D’un côté, lorsque nous ne savons pas qu’il existe des biais algorithmiques pour un groupe d’élèves donnés. De l’autre, lorsque nous savons qu’il existe un biais touchant un groupe donné, sans pour autant savoir de quelle façon il se manifeste. Ces deux types de biais semblent exister selon notre compréhension des biais algorithmiques dans le domaine de l’éducation. À ce stade, la recherche est limitée, qu’il s’agisse des groupes étudiés et du degré de détail avec lequel les biais algorithmiques ont été étudiés chez les groupes qui en sont notoirement affectés dans l’éducation. Même pour les problèmes étudiés relativement en détail comme le racisme et le sexisme, nous ne connaissons pas toutes les façons dont ceux-ci affectent l’efficacité des algorithmes pédagogiques. Par exemple, les biais des algorithmes pédagogiques chez les populations autochtones ont moins fait l’objet d’études que ceux affectant d’autres groupes ; il en est de même pour les élèves transgenres ; et le vécu des minorités raciales au regard des algorithmes éducatifs a fait l’objet d’études bien plus détaillées aux États-Unis que partout ailleurs.
L’un des principaux obstacles à la réalisation de ce type de recherche réside dans le manque de données éducatives de qualité et facilement accessibles sur l’identité, la perception, le statut ou l’appartenance à un groupe. Comme le soulignent Belitz et al. (2022[25]), même lorsqu’on collecte des données sur l’identité, celles-ci concernent un petit nombre de catégories. De surcroît, la plupart des études n’obtiennent même pas ce faible degré de données sur l’identité ou l’appartenance à un groupe.
Plusieurs raisons expliquent les obstacles à la collecte de données sur l’appartenance à un groupe : la commodité, les obstacles réglementaires et les réserves concernant la protection des données personnelles des élèves, par exemple. Bien souvent, les instances chargées de la conformité comme les responsables de la protection des données personnelles et les comités d’éthique institutionnels considèrent que les données démographiques sont à haut risque : ils créent des mesures incitatives (pas toujours consciemment) pour éviter de les collecter. Si – pour donner un exemple courant aux États-Unis – un chercheur doit obtenir une autorisation parentale pour collecter des données démographiques sans être tenu de l’obtenir s’il évite toute donnée démographique, il est dès lors fortement incité à éviter de collecter des données démographiques, ce qui conduit à terme à ignorer les problèmes des biais algorithmiques (et d’autres formes de biais). De nombreux pays sont en train de durcir leurs lois concernant la protection des données personnelles dans l’éducation – des lois dont l’ambition est de protéger les enfants, mais qui, en l’état, peuvent empêcher totalement d’identifier ou de rectifier les biais algorithmiques (voir la discussion dans Baker, sous presse).
Une autre mesure incitative clé qui réduit les études sur les biais algorithmiques tient au risque encouru par toute entreprise qui aborde ouvertement les défauts de son produit. Toute communication quant aux défauts d’un produit – voire à la conception d’un produit – peut ouvrir une porte à la concurrence. Un environnement très compétitif où les entreprises peuvent choisir d’analyser ou non les défauts de leur produit est un environnement où les entreprises ont une bonne raison de ne pas examiner (et résoudre) les biais de leur produit. En plus de favoriser la concurrence, communiquer trop ouvertement sur les biais peut conduire à des critiques de la part de la presse, de membres de la communauté et d’universitaires. Dans le pire des cas, une organisation qui évoque publiquement les biais de ses contenus s’expose à des procès ou des actions en justice de la part des législateurs.
Bien que les systèmes d’apprentissage soient actuellement incités, dans une certaine mesure, à démontrer leur efficacité éducative – voir des plateformes comme What Works Clearinghouse et Evidence for ESSA (WWC, 2012[80] ; Slavin, 2020[81]) – ces initiatives considèrent qu’un programme d’enseignement est soit efficace soit inefficace dans l’ensemble, et non pour des groupes d’élèves en particulier.
Un autre obstacle important à surmonter pour résoudre les biais algorithmiques dans le domaine de l’éducation est le manque de boîtes à outils propres à ce domaine pour évaluer et résoudre les biais. On sait que les données éducatives sont différentes des autres types de données utilisées couramment dans l’apprentissage automatique en raison de leur nature complexe à plusieurs niveaux (actions parmi les élèves parmi les classes parmi les enseignants parmi les établissements parmi les districts scolaires ; et facteurs identitaires qui se confondent avec ces niveaux) dont il convient de tenir compte pour qu’une analyse soit valable (O’Connell et McCoach, 2008[82]). Bien que les boîtes à outils existantes soient applicables jusqu’à un certain point, il reste encore du travail à faire pour les rendre faciles à adapter et à utiliser dans l’éducation – voir (Kizilcec et Lee, 2022[38] ; Holstein et Doroudi, 2022[79]). Les boîtes à outils servant à identifier les biais algorithmiques offrent généralement des indicateurs utiles (évoqués ci-dessus), mais elles ignorent les aspects uniques des données éducatives, ce qui nuit à leur pertinence. Le fait qu’elles sont conçues pour considérer les points de mesure de façon interchangeable, les rend incompatibles avec les algorithmes éducatifs tenant explicitement compte de la nature multiniveau des données éducatives. À l’heure actuelle, cette lacune en matière de boîtes à outils augmente le coût lié au contrôle et à la rectification des biais algorithmiques pour les organisations dépourvues d’expertise en la matière.
Dans l’ensemble, s’il est clair qu’il importe de remédier aux biais algorithmiques dans le domaine de l’éducation, faute d’efforts concertés, il existe manifestement plusieurs défis et obstacles qui ralentissent les efforts dans ce domaine. Heureusement, les responsables politiques ont plusieurs mesures à leur disposition.
Dans cette section, nous présentons six recommandations à l’intention des responsables politiques susceptibles de contribuer à résoudre les biais algorithmiques en rectifiant ou contournant les défis existants dans l’environnement et en s’appuyant sur les travaux d’universitaires, d’ONG et du secteur privé (Encadré 9.2).
1. Tenir compte des biais algorithmiques lors de la création de politiques et d’obligations relatives à la protection de la vie privée afin de ne pas empêcher les chercheurs d’identifier et de résoudre les biais algorithmiques.
2. Exiger des analyses en matière de biais algorithmiques, ainsi que les collectes de données nécessaires.
3. Orienter l’analyse des biais algorithmiques en fonction du contexte et des préoccupations locales en matière d’égalité.
4. Financer la recherche relative aux biais inconnus dans le monde entier.
5. Financer la création de boîtes à outils pour les biais algorithmiques dans l’éducation.
6. Repenser les centres d’échange d’informations sur l’efficacité pour tenir compte de la diversité des élèves.
La première recommandation vise simplement à ne pas rendre impossible la rectification des biais algorithmiques. Comme indiqué plus haut, de nombreux pays envisagent l’adoption de lois relatives à la protection des données personnelles dans l’éducation qui empêcheraient totalement de collecter (ou de conserver suffisamment longtemps pour procéder à une analyse) les données sur l’identité, les interactions et les résultats des élèves, autant de données pourtant indispensables à l’identification et à la résolution des biais algorithmiques. Si les fournisseurs de technologies éducatives sont dans l’incapacité de collecter ou d’utiliser des données sur l’identité des élèves, il leur est impossible de déterminer qui est affecté de façon négative par les biais algorithmiques et quasi impossible de créer des algorithmes comportant moins de biais algorithmiques. Si les fournisseurs de technologies éducatives sont dans l’incapacité de conserver les données concernant l’utilisation des outils par les élèves assez longtemps pour évaluer les résultats pertinents, il leur est impossible de déterminer si des élèves de différents groupes sont affectés de façon différente. La protection des données des élèves est importante, mais l’équité aussi.
Dans l’idéal, au lieu de créer des politiques qui empêchent la collecte des données nécessaires au contrôle et à la résolution des biais algorithmiques, les responsables politiques exigeraient au contraire que ces données soient collectées dans le cadre de mesures de protection relevant des meilleures pratiques. Dans l’idéal, cette obligation de collecte des données s’accompagnerait d’un certain degré de protection ou de décharge de responsabilité pour les entreprises qui respectent pleinement les pratiques de sécurité (en particulier dans l’environnement actuel, où assurer une protection parfaite des données est difficile même en respectant les meilleures pratiques).
Ce serait une première étape vers une obligation d’étayer et de publier explicitement les contrôles des biais algorithmiques dans le cadre des algorithmes éducatifs utilisés au-delà d’une certaine échelle (mille utilisateurs actifs, par exemple), en fournissant au minimum des données indiquant si les modèles présentent des écarts significatifs de qualité de leur performance entre différentes populations (si elles sont présentes dans leur base d’utilisateurs). Exiger la publication des données sur les biais algorithmiques suffirait probablement à créer une pression assez forte pour remédier aux biais révélés dans les algorithmes.
Un défi auquel sont actuellement confrontées les organisations qui tentent de collecter des données de bonne foi afin d’étudier leurs biais algorithmiques consiste à déterminer quelles variables identitaires doivent faire l’objet d’une collecte de données (Belitz et al., 2022[25]). Les responsables politiques peuvent les aider. Bien que les catégories de recensements constituent une source de variables possibles, elles passent à côté des catégories clés associées aux biais algorithmiques (comme évoqué ci-dessus) et peuvent aussi inclure des groupes absents d’un ensemble de données précis en raison de leur répartition inégale dans la population. Une politique standardisant un ensemble minimum de marqueurs d’identité à collecter et à signaler dans chaque région politique permettrait d’assurer un certain degré de cohérence et de comparabilité entre différents rapports de biais algorithmiques. Cela aiderait également à garantir que les groupes actuellement les plus défavorisés soient soutenus plutôt que d’être encore plus défavorisés par les algorithmes éducatifs. Enfin, la standardisation d’un ensemble minimum de catégories d’identité éviterait aussi aux organisations de signaler uniquement les groupes pour lesquels leurs outils ne sont pas biaisés. Le processus actuel de sélection des catégories pertinentes au sein d’un environnement politique donné ne doit pas être arbitraire ; dans l’idéal, la sélection serait effectuée par une variété représentative d’acteurs à l’échelle locale, dont des chercheurs capables d’évaluer les données disponibles.
Comme l’illustre la discussion ci-dessus, il est difficile de résoudre un problème sans savoir qu’il existe ; il est difficile de résoudre les biais inconnus. Jusqu’à présent, l’immense majorité de la recherche relative aux biais algorithmiques concerne la race/l’origine ethnique et le sexe aux États-Unis – et même dans ce pays, des groupes raciaux ou ethniques clés plus présents dans certaines régions (comme les Premières Nations ou les membres des diasporas portugaises et brésiliennes en Nouvelle-Angleterre) sont sous-étudiés, tout comme d’autres catégories liées à des biais algorithmiques.
À l’extérieur des États-Unis, les biais algorithmiques font l’objet de beaucoup moins d’études. Il apparaît clairement que d’autres études relatives aux biais algorithmiques dans l’éducation dans d’autres pays de l’OCDE s’imposent afin de savoir quels groupes sont affectés, et de quelle façon. Sans ces études, les concepteurs du monde entier devront se contenter de résoudre les problèmes d’inégalité connus aux États-Unis, qui sont différents des problèmes d’autres pays (Wimmer, 2017[83]), ou devront tenter de résoudre les problèmes en se fiant à leur intuition plutôt qu’à des données.
Les responsables politiques peuvent remédier à cette situation en créant des programmes de subvention qui octroient des fonds à la recherche consacrée aux groupes affectés par les biais algorithmiques dans l’éducation dans leur région.
Comme abordé plus haut, l’absence de boîtes à outils efficaces pour identifier et rectifier les biais algorithmiques dans le domaine de l’éducation rend cette démarche plus coûteuse ; les organisations se voient contraintes d’embaucher un expert en la matière ou de développer leur propre expertise au fil du temps. La création de boîtes à outils de qualité axées sur la convivialité et prenant en charge les meilleures pratiques augmentera la faisabilité de ce type d’analyse et les possibilités d’amélioration auprès d’un large éventail de fournisseurs de technologies éducatives et de chercheurs. Les responsables politiques peuvent remédier à cette situation en créant des programmes de subvention qui octroient des fonds pour la création de ce type de boîte à outils. Même une seule de ces boîtes à outils ferait une différence considérable dans ce domaine.
À l’heure actuelle, les centres d’échange d’informations sur l’efficacité telles que What Works Clearinghouse et Evidence for ESSA – créées (respectivement) directement par une agence gouvernementale et à l’aide d’une subvention octroyée par une fondation – résument les données relatives à l’efficacité de différents programmes d’enseignement, y compris des programmes dispensés par ordinateur. Néanmoins, ils considèrent l’efficacité de façon unidimensionnelle : soit un programme d’enseignement est efficace pour tous, soit il ne l’est pour personne. Les programmes d’enseignement et les technologies éducatives peuvent cependant être efficaces pour certains groupes d’élèves et pas pour d’autres (Cheung et Slavin, 2013[84]). Il est peu probable qu’une technologie éducative avec un biais algorithmique présente la même efficacité pour tous les élèves ; si ses algorithmes sont moins efficaces pour certains groupes d’élèves, elle aide très probablement moins efficacement ces élèves à obtenir de meilleurs résultats. Avec la création de nouveaux centres d’échange d’informations, ou alors que les centres existants sollicitent de nouveaux financements, les responsables politiques peuvent les amener à tenir compte des différences en matière d’efficacité entre plusieurs groupes d’élèves. Cela incitera d’autant plus les fournisseurs de technologies éducatives (et les concepteurs des programmes d’enseignement en général) à démontrer (et garantir) l’efficacité de leurs produits pour tous les élèves, dans toute leur diversité.
Dans ce chapitre, nous avons passé en revue les données disponibles concernant les biais algorithmiques dans l’éducation : qui est affecté, de quelle façon et quelles sont les (vastes) lacunes en matière de compréhension de ce domaine. Nous avons analysé certains des facteurs qui freinent les progrès en la matière et faisons des recommandations axées sur ce que les responsables politiques peuvent faire pour aider le secteur à mieux comprendre et réduire les biais algorithmiques dans l’éducation.
Le potentiel des algorithmes est élevé dans le domaine de l’éducation. Les meilleurs systèmes d’apprentissage adaptatifs et systèmes de prévision des risques ont des effets positifs importants sur les résultats des élèves (Ma et al., 2014[85] ; VanLehn, 2011[86] ; Millron, Malcom et Kil, 2014[87]). Cependant, ce potentiel ne peut pleinement être atteint si les algorithmes reproduisent, voire amplifient les biais présents dans les sociétés à travers le monde. Ce n’est qu’en procédant à des études et en remédiant aux biais algorithmiques que nous pourrons créer des technologies éducatives qui atteignent leur plein potentiel et aident à leur tour chaque élève à atteindre son plein potentiel.
Les responsables politiques du monde entier sont à un tournant dans la résolution des biais algorithmique et la création de technologies éducatives justes et équitables pour tous les élèves. L’existence des biais algorithmiques est mieux comprise, y compris dans le domaine de l’éducation. Il s’agit de la première étape vers une meilleure compréhension des élèves affectés, et de la façon dont ils sont affectés. Toutefois, ces avancées ont une portée limitée : des facettes précises de l’identité des élèves (en particulier la race/l’origine ethnique et le sexe) ont fait bien plus l’objet d’études que d’autres aspects qui semblent également affectés par les biais algorithmiques. En outre, les études sur les biais algorithmiques dans l’éducation se concentrent amplement aux États-Unis, ce qui crée un certain flou sur les élèves affectés dans le reste du monde et sur les moyens de les soutenir. Enfin, ces avancées sont menacées par la possibilité de lois disproportionnées sur la protection de la vie privée, qui pourraient empêcher les travaux futurs d‘étudier et de corriger les biais algorithmiques et, à terme, favoriser l’équité.
[50] Anderson, H., A. Boodhwani et R. Baker (2019), Assessing the Fairness of Graduation Predictions.
[4] Angwin, J.; J. Larson; S. Mattu et L. Kirchner (2016), Machine Bias, Auerbach Publications.
[37] Baker, R. (2022), The Current Trade-off Between Privacy and Equity in Educational Technology, Rowman & Littlefield.
[39] Baker, R., A. Berning et S. Gowda (2020), Differentiating Military-Connected and Non-Military-Connected Students: Predictors of Graduation and SAT Score.
[24] Baker, R. et A. Hawn (2022), « Algorithmic Bias in Education », International Journal of Artificial Intelligence in Education, vol. 32/4, pp. 1052-1092.
[62] Baker, R.; E. Walker; A. Ogan et M. Madaio (2019), « Culture in Computer-Based Learning Systems: Challenges and Opportunities », Computer-Based Learning in Context, vol. 1/1, pp. 1-13, https://doi.org/10.35542/osf.io/ad39g.
[42] Barocas, S., M. Hardt et A. Narayanan (2019), Fairness and Machine Learning. Limitations and opportunities, https://fairmlbook.org/.
[25] Belitz, C.; J. Ocumpaugh; S. Ritter; R. Baker; S. Fancsali et N. Bosch (2022), « Constructing categories: Moving beyond protected classes in algorithmic fairness », Journal of the Association for Information Science and Technology, pp. 1-6, https://doi.org/10.1002/asi.24643.
[52] Berk, R., H. Heidari; S. Jabbari; M. Kearns et A. Roth (2018), « Fairness in Criminal Justice Risk Assessments: The State of the Art », Sociological Methods & Research, vol. 50/1, pp. 3-44, https://doi.org/10.1177/0049124118782533.
[49] Bireda, M. (2002), Eliminating Racial Profiling in School Discipline: Cultures in Conflict, Rowman & Littlefield Education.
[27] Blodgett, S.; S. Barocas; H. Daumé III et H. Wallach (2020), « Language (Technology) is Power: A Critical Survey of “Bias” in NLP », Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pp. 5454–5476, https://doi.org/10.18653/v1/2020.acl-main.485.
[21] Bridgeman, B., C. Trapani et Y. Attali (2012), « Comparison of Human and Machine Scoring of Essays: Differences by Gender, Ethnicity, and Country », Applied Measurement in Education, vol. 25/1, pp. 27-40, https://doi.org/10.1080/08957347.2012.635502.
[8] Bridgeman, B., C. Trapani et Y. Attali (2009), Considering Fairness and Validity in Evaluating Automated Scoring.
[15] Caton, S. et C. Haas (2020), « Fairness in Machine Learning: A Survey », arXiv preprint arXiv:2010.04053, https://doi.org/10.48550/arXiv.2010.04053.
[84] Cheung, A. et R. Slavin (2013), « The effectiveness of educational technology applications for enhancing mathematics achievement in K-12 classrooms: A meta-analysis », Educational Research Review, vol. 9, pp. 88-113, https://doi.org/10.1016/j.edurev.2013.01.001.
[51] Chouldechova, A. (2017), « Fair Prediction with Disparate Impact: A Study of Bias in Recidivism Prediction Instruments », Big Data, vol. 5/2, pp. 153-163, https://doi.org/10.1089/big.2016.0047.
[22] Christie, S.; D. Jarratt; L. Olson et T. Taijala (2019), « Machine-Learned School Dropout Early Warning at Scale », International Educational Data Mining Society (EDM 2019), pp. 726-731.
[63] Corbett-Davies, S. et S. Goel (2018), « The Measure and Mismeasure of Fairness: A Critical Review of Fair Machine Learning », arXiv, https://doi.org/10.48550/arXiv.1808.00023.
[46] Cramer, H. et al. (2019), Translation Tutorial: Challenges of incorporating algorithmic fairness.
[26] Crawford, K. (2017), The Trouble with Bias - NIPS 2017 Keynote, https://www.youtube.com/watch?v=fMym_BKWQzk.
[53] Darlington, R. (1971), « Another look at « cultural fairness. » », Journal of Educational Measurement, vol. 8/2, pp. 71–82, https://doi.org/10.1111/j.1745-3984.1971.tb00908.x.
[20] Digital Promise (2022), Prioritizing Racial Equity in AI Design, https://productcertifications.microcredentials.digitalpromise.org/explore/1-prioritizing-racial-equity-in-ai-design-4 (consulté le 23 décembre 2022).
[32] Dorans, N. (2010), « Misrepresentations in Unfair Treatment by Santelices and Wilson », Harvard Educational Review, vol. 80/3, pp. 404-413, https://doi.org/10.17763/haer.80.3.l253473353686748.
[40] Doroudi, S. et E. Brunskill (2019), Fairer but Not Fair Enough On the Equitability of Knowledge Tracing, https://doi.org/10.1145/3303772.3303838.
[1] Executive Office of the President (2014), Big Data: Seizing Opportunities, Preserving Values.
[35] Finkelstein, S. et al. (2013), The Effects of Culturally Congruent Educational Technologies on Student Achievement.
[43] Friedman, B. et H. Nissenbaum (1996), « Bias in computer systems », ACM Transactions on Information Systems, vol. 14/3, pp. 330–347, https://doi.org/10.1145/230538.230561.
[7] Garcia, M. (2016), « Racist in the Machine: The Disturbing Implications of Algorithmic Bias », World Policy Journal, vol. 33/4, pp. 111-117, https://doi.org/10.1215/07402775-3813015.
[29] Gardner, J., C. Brooks et R. Baker (2019), Evaluating the Fairness of Predictive Student Models Through Slicing Analysis, Association for Computing Machinery, https://doi.org/10.1145/3303772.3303791.
[55] Green, B. (2020), The false promise of risk assessments: epistemic reform and the limits of fairness, https://doi.org/10.1145/3351095.3372869.
[56] Green, B. et L. Hu (2018), The Myth in the Methodology: Towards a Recontextualization of Fairness in Machine Learning.
[57] Green, B. et S. Viljoen (2020), Algorithmic realism: expanding the boundaries of algorithmic thought, https://doi.org/10.1145/3351095.3372840.
[44] Hellström, T., V. Dignum et S. Bensch (2020), Bias in Machine Learning -- What is it Good for?, https://doi.org/10.48550/arXiv.2004.00686.
[79] Holstein, K. et S. Doroudi (2022), Equity and Artificial Intelligence in education, Routledge.
[61] Holstein, K.; J. Wortman Vaughan; H. Daumé III; M. Dudik et H. Wallach (2019), Improving fairness in machine learning systems: What do industry practitioners need?.
[12] Hu, Q. et H. Rangwala (2020), Towards Fair Educational Data Mining: A Case Study on Detecting At-risk Students, https://files.eric.ed.gov/fulltext/ED608050.pdf.
[66] Kai, S. et al. (2017), Predicting Student Retention from Behavior in an Online Orientation Course.
[38] Kizilcec, R. et H. Lee (2022), Algorithmic fairness in education, Routledge.
[6] Klare, B., M. Burge; J. Klontz; R. Vorder Bruegge et A. Jain (2012), Face Recognition Performance: Role of Demographic Information, IEEE, https://doi.org/10.1109/TIFS.2012.2214212.
[18] Kleinberg, J., S. Mullainathan et M. Raghavan (2016), Inherent Trade-Offs in the Fair Determination of Risk Scores, https://doi.org/10.48550/arXiv.1609.05807.
[59] Kraiger, K. et J. Ford (1985), « A Meta-Analysis of Ratee Race Effects in Performance Ratings », Journal of Applied Psychology, vol. 70/1, pp. 56-65.
[13] Kung, C. et R. Yu (2020), Interpretable Models Do Not Compromise Accuracy or Fairness in Predicting College Success, Association for Computing Machinery, https://doi.org/10.1145/3386527.3406755.
[19] Lee, H. et R. Kizilcec (2020), Evaluation of Fairness Trade-offs in Predicting Student Success, https://doi.org/10.48550/arXiv.2007.00088.
[64] Li, X.; D. Song; M. Han; Y. Zhang et R. Kizilcec (2021), « On the limits of algorithmic prediction across the globe », arXiv preprint arXiv:2103, https://doi.org/10.48550/arXiv.2103.15212.
[76] Loukina, A. et H. Buzick (2017), « Use of Automated Scoring in Spoken Language Assessments for Test Takers With Speech Impairments: Automated Scoring With Speech Impairments », ETS Research Report Series, vol. 3, https://doi.org/10.1002/ets2.12170.
[11] Loukina, A., N. Madnani et K. Zechner (2019), The many dimensions of algorithmic fairness in educational applications, Association for Computational Linguistics, https://doi.org/10.18653/v1/W19-4401.
[54] Makhlouf, K., S. Zhioua et C. Palamidessi (2021), « On the Applicability of Machine Learning Fairness Notions », ACM SIGKDD Explorations Newsletter, vol. 23, pp. 14-23.
[85] Ma, W.; O. Adesope; J. Nesbit et Q. Liu (2014), « Intelligent Tutoring Systems and Learning Outcomes: A Meta-Analysis », Journal of Educational Psychology, vol. 106/4, pp. 901-918.
[16] Mehrabi, N.; S. Zhioua et C. Palamidessi (2021), « A Survey on Bias and Fairness in Machine Learning », ACM Computing Surveys, vol. 54/6, pp. 1-35, https://doi.org/10.1145/3457607.
[87] Millron, M., L. Malcom et D. Kil (2014), « Insight and Action Analytics: Three Case Studies to Consider », Research & Practice in Assessment, vol. 9, pp. 70-29.
[30] Mitchell, S.; E. Potash; S. Barocas; A. D'Amour et K. Lum (2020), « Algorithmic Fairness: Choices, Assumptions, and Definitions », Annual Review of Statistics and Its Application, vol. 8, pp. 141-163, https://doi.org/10.1146/annurev-statistics-042720-125902.
[75] Naismith, B.; N. Han; A. Juffs; B. Hill et D. Zheng (2019), Accurate Measurement of Lexical Sophistication with Reference to ESL Learner Data.
[78] Narayanan, A. (2018), Translation tutorial: 21 fairness definitions and their politics.
[2] O’Neil, C. (2016), Weapons of math destruction: how big data increases inequality and threatens democracy, Crown Publishing.
[5] O’Reilly-Shah, V. et al. (2020), « Bias and ethical considerations in machine learning and the automation of perioperative risk assessment », British Journal of Anaesthesia, vol. 125/6, pp. 843-846, https://doi.org/10.1016/j.bja.2020.07.040.
[31] Obermeyer, Z.; B. Powers; C. Vogeli et S. Mullainathan (2019), « Dissecting racial bias in an algorithm used to manage the health of populations », Science, vol. 366/6464, pp. 447-453, https://doi.org/10.1126/science.aax2342.
[82] O’Connell, A. et D. McCoach (2008), Multilevel modeling of educational data, IAP.
[9] Ocumpaugh, J. et C. Heffernan (2014), « Population validity for educational data mining models: A case study in affect detection », British Journal of Educational Technology, vol. 45/3, pp. 487-501, https://doi.org/10.1111/bjet.12156.
[65] Ogan, A.; E. Walker; R. Baker; M. Rodrigo; J.C. Soriano et M.J. Castro (2015), « Towards understanding how to assess help-seeking behavior across cultures », International Journal of Artificial Intellignce in Education, vol. 25/2, pp. 229-248, https://doi.org/10.1007/s40593-014-0034-8.
[60] Okur, E.; S. Aslan; N. Alyuz; A. Arslan et R. Baker (2018), Role of Socio-Cultural Differences in Labeling Students’ Affective States, Springer International Publishing.
[48] Paquette, L.; J. Ocumpaugh; Z. Li; A. Andres et R. Baker (2020), « Who’s Learning? Using Demographics in EDM Research », Journal of Educational Data Mining, vol. 12/3, pp. 1–30, https://doi.org/10.5281/zenodo.4143612.
[36] Pardo, A. et G. Siemens (2014), « Ethical and privacy principles for learning analytics », British Journal of Educational Technology, vol. 45/3, pp. 438-450, https://doi.org/10.1111/bjet.12152.
[69] Penn Center for Learning Analytics (s.d.), Algorithmic Bias in Education, https://www.pcla.wiki/index.php/Algorithmic_Bias_in_Education.
[68] Ramineni, C. et D. Williamson (2018), « Understanding Mean Score Differences Between the e-rater® Automated Scoring Engine and Humans for Demographically Based Groups in the GRE® General Test », ETS Research Report Series, vol. 2018/1, pp. 1-31, https://doi.org/10.1002/ets2.12192.
[70] Riazy, S., K. Simbeck et V. Schreck (2020), Fairness in Learning Analytics: Student At-risk Prediction in Virtual Learning Environments, https://doi.org/10.5220/0009324100150025.
[71] Rzepka, N.; K. Simbeck; H. Müller et N. Pinkwart (2022), Fairness of In-session Dropout Prediction, https://doi.org/10.5220/0010962100003182.
[77] Samei, B.; A. Olney; S. Kelly; M. Nystrand; S. D'Mello; N. Blanchard et A. Greasser (2015), Modeling Classroom Discourse: Do Models That Predict Dialogic Instruction Properties Generalize across Populations?.
[33] Santelices, M. et M. Wilson (2010), « Unfair Treatment? The Case of Freedle, the SAT, and the Standardization Approach to Differential Item Functioning », Harvard Educational Review, vol. 80/1, pp. 106-134, https://doi.org/10.17763/haer.80.1.j94675w001329270.
[74] Sha, L.; M. Raković; A. Das; D. Gašević et G. Chen (2022), « « Leveraging Class Balancing Techniques to Alleviate Algorithmic Bias for Predictive Tasks in Education », IEEE Transactions on Learning Technologies, vol. 15/4, pp. 481-492, https://doi.org/10.1109/TLT.2022.3196278.
[73] Sha, L.; M. Raković; A. Whitelock-Wainwright et D. Carroll (2021), Assessing algorithmic fairness in automatic classifiers of educational forum posts, https://doi.org/10.1007/978-3-030-78292-4_31.
[45] Silva, S. et M. Kenney (2019), « Algorithms, Platforms, and Ethnic Bias », Communications of the ACM, vol. 62/11, pp. 37-39, https://doi.org/10.1145/3318157.
[81] Slavin, R. (2020), « How evidence-based reform will transform research and practice in education », Educational Psychologist, vol. 55/1, pp. 21-31, https://doi.org/10.1080/00461520.2019.1611432.
[41] Soundarajan, S. et D. Clausen (2018), Equal Protection Under the Algorithm : A Legal-Inspired Framework for Identifying Discrimination in Machine Learning.
[28] Suresh, H. et J. Guttag (2021), « A Framework for Understanding Sources of Harm throughout the Machine Learning Life Cycle », EAAMO ’21: Equity and Access in Algorithms, Mechanisms, and Optimization 17, pp. 1-9, https://doi.org/10.1145/3465416.3483305.
[34] Sweeney, L. (2013), « Discrimination in online ad delivery », Communications of the ACM, vol. 56/5, pp. 44-54, https://doi.org/10.1145/2447976.2447990.
[58] Tempelaar, D., B. Rienties et Q. Nguyen (2020), « Subjective data, objective data and the role of bias in predictive modelling: Lessons from a dispositional learning analytics application », Plos One, vol. 15/6, https://doi.org/10.1371/journal.pone.0233977.
[86] VanLehn, K. (2011), « The relative effectiveness of human tutoring, intelligent tutoring systems, and other tutoring systems », Educational Psychologist, vol. 46/4, pp. 197-221, https://doi.org/10.1080/00461520.2011.611369.
[72] Vasquez Verdugo, J.; X. Gitiaux; C. Ortega et H. Rangwala (2022), FairEd: A Systematic Fairness Analysis Approach Applied in a Higher Educational Context, https://doi.org/10.1145/3506860.3506902.
[17] Verma, S. et J. Rubin (2018), Fairness Definitions Explained, https://doi.org/10.1145/3194770.3194776.
[10] Wang, Z., K. Zechner et Y. Sun (2018), « Monitoring the Performance of Human and Automated Scores for Spoken Responses », Language Testing, vol. 35/1, pp. 101-120, https://doi.org/10.1177/0265532216679451.
[83] Wimmer, A. (2017), « Power and pride: national identity and ethnopolitical inequality around the world », World Politics, vol. 69/4, pp. 605-639, https://doi.org/10.1017/S0043887117000120.
[47] Wolff, A.; Z. Zdrahal; A. Nikolov et M. Pantucek (2013), Improving retention: predicting at-risk students by analysing clicking behaviour in a virtual learning environment, https://doi.org/10.1145/2460296.2460324.
[80] WWC (2012), What Works Clearinghouse, https://ies.ed.gov/ncee/wwc/.
[67] Yu, R., H. Lee et R. Kizilcec (2021), Should College Dropout Prediction Models Include Protected Attributes?, https://doi.org/10.48550/arXiv.2103.15237.
[14] Yu, R.; Q. Li; C. Fischer; S. Doroudi et D. Xu (2020), Towards Accurate and Fair Prediction of College Success: Evaluating Different Sources of Student Data.
[23] Zhang, J.; J.L. Andres, Juliana Ma; S. Hutt; R. Baker; J. Ocumpaugh; C. Mills; J. Brooks; S. Sethuraman et T. Young (2022), Detecting SMART Model Cognitive Operations in Mathematical Problem-Solving Process.
[3] Zuiderveen Borgesius, F. (2018), Discrimination, artificial intelligence, and algorithmic decision-making, Council of Europe, https://pure.uva.nl/ws/files/42473478/32226549.pdf.