Stéphan Vincent-Lancrin
OCDE
Carlos González-Sancho
OCDE
Stéphan Vincent-Lancrin
OCDE
Carlos González-Sancho
OCDE
La gouvernance des données désigne l’ensemble des réglementations et politiques qui visent à garantir la protection de la vie privée et des données, y compris la formation et l’affectation de ressources humaines spécialisées. Ce chapitre présente les principaux concepts et pratiques dans le domaine de la protection des données et de la vie privée, ainsi que les préoccupations de la société en la matière, puis il dresse un état des lieux des pratiques et des réglementations nationales. Il se penche ensuite sur la question du partage des données à des fins de recherche dans l’éducation, qui représente l’un des grands avantages de la transformation numérique dans l’éducation, au-delà même de la personnalisation de l’enseignement. Enfin, le chapitre passe en revue la démarche entreprise par certains pays pour formuler des directives sur l’utilisation de la prise de décision automatisée et des systèmes d’IA, puis examine ce nouveau domaine de réglementation et de gouvernance. La conclusion insistera sur l’importance de conserver une approche fondée sur la gestion du risque en matière de gouvernance des données et des algorithmes.
Le développement d’un écosystème d’éducation numérique devrait permettre d’utiliser les données et les outils numériques afin d’améliorer la qualité, l’efficacité, l’efficience et l’égalité dans l’éducation. Dans ce but, l’utilisation et la réutilisation des données en temps réel, ou quasi réel, offrent le moyen de prendre des décisions plus éclairées ou d’évaluer les pratiques éducatives en vue de proposer de nouvelles réformes, mais comportent un risque en matière de protection des données et de la vie privée qui doit être atténué. Le niveau de confiance dans l’utilisation et la réutilisation des données est faible dans la plupart de nos sociétés, et est lié à une crainte légitime face au risque d’atteinte à la vie privée. C’est pourquoi la plupart des pays ont adopté des politiques et législations solides en matière de protection de données et de la vie privée qui concernent le traitement et le partage des données au sein des systèmes d’éducation.
Pour réfléchir à la question de la gouvernance des données, il est important de commencer par distinguer les différentes catégories de données. La collecte et le traitement des données statistiques existent depuis longtemps et sont régis par des législations et des procédures propres. Elles sont généralement publiques, et ne seront pas examinées en tant que telles dans ce chapitre. Ce chapitre porte sur deux grandes catégories de données : les données administratives, qui sont collectées dans le cadre de la scolarité des élèves ou des programmes éducatifs et, dans une moindre mesure, les données commerciales, en particulier celles qui sont collectées par des fournisseurs commerciaux via l’utilisation des logiciels éducatifs par les élèves et les enseignants en milieu scolaire (ou à des fins pédagogiques).
La transformation numérique a également attiré l’attention sur les capacités des technologies intelligentes à prendre des décisions automatisées ou à aider les professionnels de l’éducation. Avec l’émergence de l’intelligence artificielle (IA) générative, plus personne ne peut ignorer la puissance de l’IA. Parallèlement, des voix se sont élevées pour dénoncer le risque de biais véhiculés par les algorithmes, voire d’aggravation des biais humains, même si les algorithmes présentent aussi la capacité de limiter l’interférence des biais humains dans les décisions d’ordre éducatif. Si aujourd’hui le recours aux décisions automatisées est très rare dans l’éducation (et inexistant dans le secteur public en général), certains pays envisagent actuellement de définir de nouveaux critères et objectifs en matière de prise de décision automatisée et des systèmes d’IA, soit au moyen de directives, soit au moyen de réglementations sur les algorithmes et l’IA. Le chapitre 16 « Perspectives, lignes directrices et garde-fous » de ce rapport (OECD, 2023[1]) présente les orientations existantes sur l’emploi de l’IA générative dans l’éducation.
Cette première partie est consacrée à la présentation des principaux concepts et pratiques en matière de protection des données et de la vie privée, ainsi que des préoccupations de la société à cet égard, et souligne la nécessité de trouver un équilibre entre les risques de ré-identification des individus et la valeur que représentent les données collectées et partagées. La deuxième partie de ce chapitre présente un état des lieux des réglementations nationales en matière de protection des données et de la vie privée et de leurs modalités, fondées sur des politiques multi-niveaux et parfois sur la technologie. Le partage des données avec le milieu de la recherche est un élément essentiel de la gouvernance des données au niveau des pays, ceux-ci pouvant également envisager la création d’espaces de données permettant d’exploiter le traitement des données collectées par les fournisseurs commerciaux. Enfin, l’avant-dernière partie de ce chapitre sera l’occasion d’examiner la démarche entreprise par certains pays pour formuler des directives sur l’utilisation de la prise de décision automatisée et des systèmes d’IA, en tant que domaine émergent de réglementation et de gouvernance. La conclusion insistera sur l’importance de conserver une approche fondée sur la gestion du risque en matière de gouvernance des données et des algorithmes.
Les données collectées par les outils numériques administratifs contiennent souvent des informations personnelles permettant d’identifier les élèves et les enseignants, directement ou indirectement – ce qui est également le cas de certains jeux de données collectés par des solutions et outils numériques éducatifs commercialisés par des fournisseurs privés. L’une des grandes problématiques de la protection des données dans l’éducation concerne le respect de la vie privée (et, en fin de compte, la sécurité et le bien-être) et la façon de la concilier avec, d’une part, l’utilisation et la réutilisation des données à l’intérieur de l’écosystème numérique de l’éducation et, d’autre part, avec les usages dans la recherche et l’innovation, qui nécessitent de communiquer ces données anonymisées à des tiers.
Le concept d’information personnelle est un élément central du droit moderne en matière de respect de la vie privée. L’approche juridique la plus courante est de distinguer parmi ces données les éléments qui constituent des informations personnelles, c’est-à-dire qui permettent d’identifier une personne, et celles qui ne le permettent pas. De façon générale, seules les informations à caractère personnel entrent dans le champ d’application des législations sur la vie privée. La distinction entre les informations personnelles et non personnelles est donc ce qui détermine les droits et obligations des personnes (les « personnes concernées ») et des entités (les « dépositaires des données » ou les « responsables du traitement ou maîtres du fichier ») qui collectent et gèrent les données conservées sur ces personnes.
D’un point de vue juridique traditionnel, les risques pour la vie privée semblent circoncis en grande partie à cette catégorie de données, considérées comme des informations personnelles. Évidemment, le contexte reste déterminant, car tout type de données peut être considéré comme personnel ou non selon que les circonstances et d’autres données disponibles permettent raisonnablement de déduire l’identité des personnes à partir du jeu de données.
Cette distinction entre informations personnelles et non personnelles est donc l’une des caractéristiques générales des cadres de protection de la vie privée dans toute la zone de l’OCDE. Les lignes directrices de l’OCDE régissant la protection de la vie privée et des flux transfrontaliers des données à caractère personnel définissent les « données à caractère personnel » comme « toute information ayant un lien avec une personne identifiée ou identifiable (personne concernée) ». La notion de « données à caractère personnel » est également la clé de voûte du règlement général de protection des données de l’UE (RGPD), entré en vigueur en mai 2018, qui remplace et élargit le champ de la directive européenne sur la protection des données de 1995 (Directive 95/46/CE). L'article 4 du RGPD définit les « données à caractère personnel » comme suit :
« toute information se rapportant à une personne physique identifiée ou identifiable (ci-après dénommée « personne concernée ») ; (…) une personne physique qui peut être identifiée, directement ou indirectement, notamment par référence à un identifiant, tel qu'un nom, un numéro d'identification, des données de localisation, un identifiant en ligne, ou à un ou plusieurs éléments spécifiques propres à son identité physique, physiologique, génétique, psychique, économique, culturelle ou sociale ».
Aux États-Unis, les données personnelles sont désignées par les termes « données d’identification personnelle » (personally identifiable information – PII). En vertu de la loi FERPA (législation américaine sur les droits et la protection de la vie privée et familiale dans l’éducation) qui fixe les obligations légales en matière de protection de la confidentialité des registres scolaires, les PII désignent, sans s’y limiter :
« a) le nom de l’élève ; b) le nom des parents ou d’autres membres de la famille de l’élève ; c) l’adresse de l’élève ou de la famille de l’élève ; (d) tout identifiant personnel, tel que le numéro de sécurité sociale de l'élève, son numéro d'étudiant ou ses données biométriques ; (e) tout autre identifiant indirect, tels que la date de naissance de l'élève, son lieu de naissance et le nom de jeune fille de sa mère ; (f) d'autres informations qui, seules ou combinées, sont liées ou peuvent être liées à un élève en particulier et permettraient à une personne raisonnable de la communauté scolaire, qui n'a pas personnellement connaissance du contexte, d'identifier l'élève avec une certitude raisonnable ; (g) les informations demandées par une personne dont l'établissement d'enseignement ou l’administration pense raisonnablement qu'elle connaît l'identité de l'élève auquel le dossier scolaire se rapporte » (34 CFR § 99.3).
L’un des principes fondamentaux des réglementations en matière de respect de la vie privée est que la protection des personnes physiques s’applique au traitement de leurs données à caractère personnel, c’est-à-dire aux opérations effectuées en lien avec ces données, comme leur collecte, leur conservation, leur structuration, leur adaptation, leur analyse ou leur dissémination. Les lignes directrices de l’OCDE régissant la protection de la vie privée s’appliquent spécifiquement aux données personnelles et énoncent huit principes directeurs relatifs à la collecte et à l’utilisation des données dans le respect de la vie privée (Encadré 8.1). Élaborées en 1980, leur révision en 2013 a permis de réitérer la pertinence de ces principes dans « un environnement ouvert et interconnecté où les données à caractère personnel représentent un bien de plus en plus précieux » et où « les usages de plus en plus en étendus et innovants des données personnelles génèrent des avantages économiques et sociaux croissants, mais exacerbent également les risques pour la vie privée » (OECD, 2013[2]).
Il est important de souligner que les cadres juridiques comme le RGPD et le FERPA imposent des restrictions à l’échange et au traitement des données personnelles sans les interdire, et établit la nécessité d’un fondement légal (comme le droit national) pour encadrer les situations particulières de traitement. Parmi ces situations, l’utilisation de ces données dans l’intérêt public, notamment à des fins de recherche scientifique ou de statistiques, requiert souvent d’appliquer des dispositions spécifiques (voir p. ex. l’article 89 du RGPD).
Les lignes directrices de l’OCDE régissant la protection de la vie privée et des flux transfrontaliers des données à caractère personnel représentent un consensus international sur les normes applicables au respect de la vie privée et formulent des orientations sur la collecte et l’utilisation des informations personnelles, quel qu’en soit le moyen. Les pays peuvent compléter les principes de la politique de protection de la vie privée et des libertés individuelles définis dans ce document par des mesures supplémentaires. Ces orientations énoncent huit principes qui doivent guider la collecte et l’utilisation des données personnelles.
1. Principe de limitation de la collecte. La collecte des données à caractère personnel, et toute autre donnée obtenue par des moyens licites et loyaux, devrait faire l’objet de limitations et, le cas échéant, après en avoir informé la personne concernée ou avec son consentement.
2. Principe de la qualité des données. Les données de caractère personnel devraient être pertinentes par rapport aux finalités en vue desquelles elles doivent être utilisées et, dans la mesure où ces finalités l’exigent, elles devraient être exactes, complètes et tenues à jour.
3. Principe de spécification des finalités. Les finalités en vue desquelles les données de caractère personnel sont collectées devraient être déterminées au plus tard au moment de la collecte des données, et lesdites données ne devraient être utilisées par la suite que pour atteindre ces finalités ou d'autres qui ne soient pas incompatibles avec les précédentes et qui seraient déterminées dès lors qu'elles seraient modifiées
4. Principe de limitation de l’utilisation. Les données de caractère personnel ne devraient pas être divulguées, ni fournies, ni utilisées à des fins autres que celles spécifiées conformément au principe précédent, si ce n’est a) avec le consentement de la personne concernée ; ou b) lorsqu’une règle de droit le permet.
5. Principe des garanties de la sécurité. Il conviendrait de protéger les données de caractère personnel grâce à des garanties de sécurité raisonnables contre des risques tels que la perte des données ou leur accès, destruction, utilisation, modification ou divulgation non autorisés.
6. Principe de transparence. Il conviendrait d'assurer, d'une façon générale, la transparence des progrès, pratiques et politiques, ayant trait aux données de caractère personnel. Il devrait être possible de se procurer aisément les moyens de déterminer l'existence et la nature des données de caractère personnel, et les finalités principales de leur utilisation, de même que l'identité du maître du fichier et le siège habituel de ses activités.
7. Principe de participation individuelle. Toute personne physique devrait avoir le droit : a) d’obtenir du maître du fichier, ou par d'autres voies, confirmation du fait que le maître du fichier détient ou non des données la concernant ; b) de se faire communiquer les données la concernant […] ; c) d’être informée des raisons pour lesquelles une demande qu’elle aurait présentée conformément aux alinéas a) et b) est rejetée et de pouvoir contester un tel rejet ; et d) de contester les données la concernant et, si la contestation est fondée, de les faire effacer, rectifier, compléter ou corriger.
8. Principe de responsabilité. Tout maître du fichier devrait être responsable du respect des mesures donnant effet aux principes énoncés ci-dessus.
Source : (OECD, 2013[3])
Le processus de génération de données personnelles peut se fonder sur une diversité de méthodes, impliquant à divers degrés la participation et la connaissance de ce processus de la part des personnes concernées (Abrams, 2014[4]). Les données personnelles peuvent, en premier lieu, être communiquées ou divulguées intentionnellement, comme dans le contexte des enquêtes ; elles peuvent également être fournies lorsque cela est obligatoire, par exemple en tant que condition d’accès à un service, comme pour les inscriptions scolaires. En second lieu, elles peuvent être générées sans le plein consentement ou la connaissance de la personne concernée, sous la forme de traces numériques provenant des traceurs en ligne ou d’observations relevées par des capteurs (p. ex. (Buckley et al., 2021[5])). En outre, les données personnelles peuvent de plus en plus être dérivées ou déduites d’autres données existantes, que ce soit par des méthodes automatiques ou probabilistes. Dans le cadre de la collecte administrative, les personnes concernées conservent normalement la maîtrise et la visibilité sur les informations les concernant. Aujourd’hui, les individus créent et partagent, volontairement ou non, des informations personnelles sur eux-mêmes et sur d’autres personnes (p. ex. les camarades de classe, les enseignants), sur des plateformes en ligne comme les réseaux sociaux, les sites de partage de photos ou les sites d’évaluation. Ces plateformes s’inscrivent souvent dans des écosystèmes plus larges où l’accès aux données personnelles est rendu possible par de nombreux services en ligne (comme les listes de contact via les applications mobiles), ce qui permet non seulement de combiner les informations des utilisateurs, mais également de déduire des « profils fantômes » de non-utilisateurs, mettant ainsi en lumière le caractère collectif des problématiques liées à la vie privée dans les nouveaux environnements numériques (García et al., 2018[6]).
Les définitions juridiques tiennent compte de ces complexités et précisent que les données personnelles peuvent permettre l’identification de personnes de façon immédiate, mais également par d’autres moyens, plus indirects. C’est le fondement de la distinction entre identifiants « directs » et « indirects » (ou « quasi-identifiants ») qui relèvent tous deux de la catégorie générale des données à caractère personnel.
Les identifiants directs sont des éléments de données permettant d’établir un lien explicite avec la personne concernée et donc de l’identifier facilement. Pour les élèves et leurs familles, les identifiants directs sont notamment leur nom, leur adresse, leur numéro de sécurité sociale ou code de référence administrative, leur numéro ou code d’identification scolaire personnel, leur photographie, leurs empreintes digitales et d’autres données biométriques. D’autres types de données, générées par voie numérique dans ou hors du cadre scolaire, peuvent également être concernés. En vertu du RGPD européen par exemple, les éléments de données comme l’adresse électronique, la localisation des données sur les téléphones mobiles ou l’adresse IP peuvent également être considérés comme des données personnelles. Concernant les enseignants et le personnel scolaire, la plupart de ces mêmes variables peuvent servir d’identifiants directs, de même que d’autres éléments de données comme les affectations ou les notes obtenues aux évaluations professionnelles.
Par ailleurs, les identifiants indirects ou quasi-identifiants constituent des éléments de données qui, sans être spécifiques à une personne en particulier, peuvent être utilisés pour identifier des personnes physiques, généralement en les combinant à d’autres informations. Les identifiants indirects se rapportant aux élèves sont notamment le code postal ou d’autres informations de localisation, l’appartenance ethnique ou raciale, la date et le lieu de naissance, le niveau d’enseignement, l’inscription aux cours, la participation à des programmes éducatifs spécifiques ou des informations sur les transferts entre établissements. En ce qui concerne les enseignants, les quasi-identifiants peuvent concerner notamment la situation matrimoniale, le revenu, les informations sur les certificats, la formation et les qualifications, la titularisation ou l’affectation de l’enseignant.
Une zone grise demeure autour de « l’identifiabilité » des autres types de données d’éducation. Les informations sur les menus de la cantine, sur les manuels ou d’autres supports pédagogiques fournis aux élèves dans des cours spécifiques ne devraient pas comporter d’informations personnelles. Cependant, ces informations, combinées à d’autres éléments de données, peuvent rendre possible l’identification d’élèves ou de professionnels en particulier.
Ainsi, lorsqu’il existe un moyen de croiser les dossiers des élèves et des enseignants, les informations au niveau de l’élève peuvent facilement devenir des identifiants indirects d’un enseignant en particulier, et vice-versa. Les systèmes d'information longitudinaux, qui conservent des informations à la fois sur les élèves et les enseignants sont particulièrement exposés et tout inventaire détaillé des éléments de données personnelles qui relèvent de la protection de la vie privée devrait tenir compte des éléments se rapportant à ces deux catégories de personnes et des recoupements potentiels entre eux (NCES, 2011[7]).
La distinction conceptuelle entre données personnelles et non personnelles laisse penser qu’il suffirait de supprimer les informations personnelles d’un jeu de données pour éliminer efficacement les risques d’atteinte à la vie privée. Dans cette perspective, la protection de la vie privée doit cibler les éléments de données eux-mêmes et s’appuyer principalement sur l’anonymisation des dossiers personnels au niveau individuel. Toutefois, l’idée que l’on puisse véritablement séparer les informations personnelles et non personnelles en fonction de leur « identifiabilité » potentielle est de plus en plus remise en question.
Selon un consensus croissant parmi les experts de la protection de la vie privée, la grande disponibilité des données et les progrès analytiques constituent un gigantesque tremplin décuplant la capacité à croiser des données en apparence non personnelles afin d’identifier ou de rendre possible l’identification d’individus dans divers contextes, ce qui démultiplie les possibilités de (ré-)identifier les personnes concernées (pour un aperçu de ces questions, voir (National Academies of Sciences, 2017[8]). Cette situation remet en question les approches réglementaires qui fondent le droit à la vie privée et les restrictions d’usage des données sur la distinction entre informations personnelles et non personnelles.
Les exemples qui suivent illustrent la façon dont les évolutions de la collecte et de l’analyse des données ont changé la donne en renforçant considérablement la capacité de déduire des informations sensibles à partir de données apparemment anodines. Dans une étude célèbre, Sweeney (Sweeney, 1997[9]) a pu identifier le dossier médical d’un gouverneur d’État américain en recoupant des informations telles que la date de naissance, le code postal et le sexe, qu’il a trouvées dans le registre d’inscription des électeurs et les données de consultation médicale1.Des chercheurs ont également réussi à ré-identifier des personnes abonnées à Netflix en croisant leurs avis et les évaluations saisies dans la base de données mondiale sur les films (IMDb) à partir du titre des films et de leur date de sortie (Narayanan et Shmatikov, 2008[10]). La société de vente au détail Target a par exemple utilisé des données d’historique d’achats pour déduire la probabilité qu’une consommatrice donnée soit en début de grossesse et adapter son offre commerciale en conséquence (Duhigg, 2012[11]). L’analyse des transactions de carte de crédit et des données temporaires de localisation de plus d’un million de personnes a permis de démontrer qu’il suffit de quatre points de données pour identifier personnellement environ 90 % des personnes concernées à l’intérieur de ces vastes ensembles de données de grande ampleur (de Montjoye et al., 2015[12]) (de Montjoye et al., 2013[13]). Rocher, Hendrickx et de Montjoye (2019[14]) ont passé en revue d’autres exemples de ré‑identification réussie à partir de jeux de données réputés anonymes et ont proposé un modèle statistique pour déterminer la probabilité qu’une ré-identification soit possible à partir d’ensembles de données très incomplets. Ces exemples démontrent que, malgré l’application de procédures strictes d’anonymisation et d’échantillonnage, la ré-identification reste possible à partir d’ensembles de données de grande dimension fournissant des informations sur un grand nombre de caractéristiques se rapportant à des individus. De plus, des déductions sur des informations personnelles sensibles et des historiques de données sur un individu en particulier sont possibles par le biais d’attaques sur des données agrégées (voir l’examen de (Dwork et al., 2017[15]).
Ces évolutions suscitent un sentiment de malaise croissant sur l’efficacité des mécanismes classiques de protection de la vie privée à l’ère des mégadonnées. Comme l’a déclaré le président du Comité consultatif américain des sciences et des technologies,
« Il est de plus en plus facile de contourner l’anonymisation à l’aide de techniques développées pour de nombreux usages légitimes des mégadonnées. De façon générale, plus les ensembles de données existants sont grands et diversifiés, plus la probabilité de pouvoir ré-identifier des personnes augmente (c’est-à-dire de réassocier un historique au nom de la personne). Si l’anonymisation reste utile en tant que garantie supplémentaire dans certains cas, les approches qui la considèrent comme une protection suffisante doivent être mises à jour. » (Executive Office of the President, 2014, p. xi[16]).
Les données administratives scolaires n’échappent pas à ce risque. Un élève ou un enseignant peut figurer dans un jeu de données externe contenant des informations d’identification personnelle qui ont été supprimées des dossiers scolaires dûment anonymisés. Cependant, en croisant ces deux sources de données avec d’autres variables communes, ou qui se recoupent, il est possible de retrouver l’identité d’un élève ou d’un enseignant dans l’ensemble de données scolaires, et même d’accroître la quantité des informations disponibles sur cette personne. Par exemple, le dossier scolaire d’un élève peut être croisé avec des données provenant du service des bourses universitaires ou avec des réponses à des enquêtes sur les débouchés professionnels. Le numéro de sécurité sociale d’un élève peut figurer uniquement dans ces dernières sources, tandis que la date de naissance est consignée dans toutes. En croisant ces données, un dossier scolaire peut ainsi être associé au titulaire d’un numéro de sécurité sociale en particulier. De la même manière, les dossiers universitaires des étudiants peuvent être croisés avec les données médicales ou judiciaires collectées par des administrations publiques qui utilisent un élément de données commun.
Dans cet exemple, un doute peut subsister sur l’identité d’élèves ayant la même date de naissance. Pour les différencier, il est cependant possible de chercher des informations complémentaires portant sur d’autres variables communes à ces deux élèves (p. ex. le sexe ou le code postal) afin d’établir une correspondance entre des élèves ayant la même date de naissance entre différents jeux de données différents. Les éléments communs qui désignent avec certitude l’identité d’une personne permettent d’établir une correspondance directe et exacte selon la méthode dite du couplage déterministe de données ; en revanche, lorsqu’un doute subsiste quant à l’identité d’une personne à partir des recoupements de données, le couplage reste possible au moyen d’une méthode probabiliste.
D’autres sources de données peuvent également être utilisées pour retrouver l’identité d’un élève ou d’un enseignant, en les recoupant avec des données figurant dans les dossiers scolaires, comme des articles de presse relatant un événement. Par exemple, une mesure disciplinaire prise à la suite d’actes de harcèlement peut figurer dans le dossier scolaire d’un élève incriminé sans que soient précisées l’identité des autres élèves impliqués ou les motivations d’un tel comportement. Cependant, l’incident a pu être relaté dans des articles de la presse locale qui apportent des informations supplémentaires, même si l’identité des élèves incriminés n’y est pas divulguée. L’indication de la date de l’incident ou de l’âge des élèves peut ainsi être utilisée par une personne ayant accès aux deux sources d’information pour ré‑identifier les élèves impliqués.
Si la ré-identification d’une personne est possible en recoupant des données provenant de sources externes, il est important de souligner que l’identité d’une personne peut également être établie en combinant des éléments de données figurant dans un même ensemble de données scolaires ou en la déduisant à partir d’une catégorie de données provenant de rapports statistiques. Ce risque pèse plus particulièrement sur les élèves et les enseignants appartenant à une minorité peu représentée au sein d’une population donnée. Par exemple, une analyse démographique des résultats des élèves d’une école ou d’une commune en particulier lors d’un examen national, combinée à des informations relatives au niveau d’enseignement, au sexe et à l’appartenance ethnique, peut rendre possible l’identification d’élèves présentant certaines caractéristiques visibles et résultats d’apprentissage spécifiques.
Ces exemples mettent au jour l’association positive qui existe entre l’utilisation des données d’identification indirecte et les possibilités de ré-identification. Ainsi, les élèves ou enseignants présentant des traits distinctifs rares sont davantage exposés au risque de divulgation de leur identité personnelle que ceux ayant des caractéristiques plus courantes dans la population. La situation éducative particulière d’un élève, une certification peu commune d’un enseignant ou, plus généralement, le code postal de résidents d’une zone faiblement peuplée sont autant d’exemples de variables susceptibles d’indiquer l’identité de personnes à l’intérieur d’un même jeu de données.
Les risques de ré-identification sont donc dynamiques et cumulatifs. Le risque est encore plus élevé pour les dossiers administratifs scolaires qui peuvent être croisés avec des publications antérieures d’autres données scolaires ou avec des informations disponibles à partir d’autres sources. Face à l’accroissement général de la quantité et de la diversité des données existantes, les risques de ré-identification d’élèves et d’enseignants à partir de leur dossier scolaire augmentent de façon exponentielle.
Ces dernières années, le risque que les données personnelles puissent être consultées sans autorisation ou utilisées de façon abusive suscite une inquiétude de plus en plus profonde et répandue. C’est dans ce contexte que le risque de divulgation des dossiers scolaires, même dûment anonymisés, devient préoccupant pour les élèves et les enseignants.
L’insuffisance des protections face aux risques de cyberattaques fait naître des inquiétudes en raison du risque de violation des données ou de divulgation d’informations personnelles qui en découle. L’ampleur et le nombre de ces incidents ont en effet augmenté ces dernières années. Selon une étude commandée par le gouvernement britannique, 46 % des entreprises du pays ont subi au moins une cyberattaque en 2016, cette proportion s’élevant même à 68 % parmi les grandes entreprises (ministère britannique du Numérique, de la Culture, des Médias et des Sports, 2017). Les administrations publiques ont également été touchées par des fuites de données à grande échelle : en effet, en 2015, 21 millions de dossiers provenant du Bureau américain des ressources humaines ont été volés ; la même année, plus d’un million de Japonais ont été victimes d’une attaque informatique sur les comptes de la Caisse nationale des retraites ; au Canada, un disque dur externe comportant les dossiers de prêts d’études de 600 000 bénéficiaires a été égaré en 2012 (OECD, 2016[17]) ; (Office of the Privacy Commissioner of Canada, 2015[18]). L’ampleur de ces fuites de données a globalement augmenté au cours de la dernière décennie, y compris celles affectant les administrations publiques (Information is Beautiful, 2019[19]). Cependant, si ces attaques peuvent donner l’impression que le niveau de sécurité des données est faible dans l’environnement numérique, les recherches montrent que les risques liés à la cybercriminalité sont souvent surestimés. Malgré la multiplication des attaques informatiques, les éléments factuels indiquent plutôt que la sécurité sur Internet s’est améliorée, si l’on exprime la fréquence de ces incidents en proportion du nombre et de la dimension des activités en ligne (Jardine, 2015[20]). Cette constatation est probablement aussi valable concernant la proportion et la quantité de données numériques existantes.
L’utilisation abusive des données personnelles représente également un sujet de préoccupation courant. Dans l’Union européenne, près de la moitié (46 %) des personnes interrogées dans l’enquête Eurobaromètre 2019 sur la cybersécurité se sont dites inquiètes que quelqu’un puisse faire un usage abusif de leurs données personnelles (European Commission, 2019[21]). Aux États-Unis, 34 % des personnes interrogées par le Pew Research Centre indiquaient en 2023 avoir été la cible d’une forme d’attaque ou de piratage informatique de leurs données au cours de l’année précédente. Les réponses indiquent également un niveau élevé de méfiance quant à l’utilisation des données personnelles par l’administration publique (71 % se disent « très » ou « assez » inquiets de la façon dont l’administration publique utilise leurs données) et par des entreprises du secteur privé (67 % indiquent comprendre peu ou pas du tout ce que font les entreprises avec leurs données) (Pew Research Center, 2023[22]). Une enquête antérieure datant de 2019 a montré que la plupart des personnes interrogées estiment que les risques associés à la collecte de ces données surpassent ses avantages (81 % pour les données collectées par les entreprises et 66 % pour celles collectées par l’administration publique) (Pew Research Center, 2019[23]).
Dans le secteur de l’éducation, les préoccupations relatives à l’utilisation abusive des données, en particulier à des fins commerciales, sont souvent liées à l’implication croissante des entreprises privées de technologies dans le fonctionnement des établissements scolaires et d’enseignement supérieur. Le partage des données administratives des élèves et des enseignants avec les fournisseurs de technologie est souvent nécessaire pour permettre la fourniture de services informatiques aux systèmes d’éducation, qu’il s’agisse de données de l’administration (p. ex., emploi du temps), de l’apprentissage numérique (p. ex. logiciels et contenus pédagogiques, tableaux de bord) ou des examens (p. ex. les évaluations sur support informatique). Les autorités locales chargées de l’éducation et les établissements manquent souvent de temps et de l’expertise technique nécessaire pour gérer leurs bases de données de plus en plus grandes, et sont donc contraintes de faire appel à des opérateurs externes qui offrent des solutions informatiques en nuage ou d’autre nature. Même lorsque le droit relatif à la protection de la vie privée impose aux tierces parties les mêmes obligations qu’aux organismes publics, le recours aux entreprises privées pour gérer les données personnelles dans l’éducation reste un sujet controversé (Polonetski et Jerome, 2014[24]).
Le cas de Google constitue un bon exemple de l’intervention croissante des fournisseurs de technologies dans le fonctionnement des établissements scolaires. Plus de 20 millions d’ordinateurs portables Chromebook exploités par Google ont été déployés dans des établissements scolaires du monde entier depuis leur lancement en 2011. De plus, en janvier 2021, 150 millions d’élèves et d’enseignants dans le monde étaient abonnés à la solution éducative G Suite for Education (lancée en 2010 sous le nom de Google Apps for Education), soit 70 millions de plus qu’en 20172.Cette suite propose des solutions de messagerie électronique, de gestion et de mise en réseau de documents, et est complétée par des applications pédagogiques spécifiques comme l’outil de réalité virtuelle Google Expeditions. Aux États-Unis, Google s’est engagé à respecter pleinement le FERPA et les autres réglementations en matière de protection de la vie privée qui interdisent à tout fournisseur privé de services aux établissements scolaires d’utiliser les informations des élèves à des fins de ciblage publicitaire. En application de ces exigences, les publicités ne sont pas affichées sur la page des comptes G Suite des utilisateurs dans les établissements d’enseignement primaire et secondaire3.Cependant, des inquiétudes subsistent quant au traçage et au ciblage publicitaire qui s’appliquent lorsque les utilisateurs passent à des applications externes, et plus largement quant à la présence d’entreprises technologiques dans les établissements scolaires qui expose de plus en plus les élèves au marketing ciblé et à d’autres pratiques commerciales (Boninger et Molnar, 2016[25]) (Singer, 2017[26]).
Des préoccupations existent également quant à la capacité des fournisseurs d’environnement d’apprentissage virtuel et de cours en ligne ouverts à tous (MOOC) de contourner les mesures de protection de la vie privée qui prédominent dans les établissements scolaires et d’enseignement supérieur, en collectant les données directement auprès des apprenants, souvent sous le régime général de protection de la vie privée applicable aux transactions de nature commerciale (Zeide et Nissenbaum, 2018[27]).
Une autre préoccupation du même ordre concerne le risque de diversification des types de données collectées en raison du recours à des technologies d’identification biométrique et de suivi du comportement dans les établissements. Aux États-Unis, nombre d’États ont ainsi adopté de nouvelles législations ciblant le secteur privé qui étendent les garanties de protection de la vie privée au-delà du champ traditionnel des données scolaires administratives à d’autres types de données. La loi SOPIPA sur la protection des informations personnelles en ligne des élèves, adoptée en Californie en septembre 2014, a été la première législation à attribuer directement au secteur privé la responsabilité de protéger les données des élèves en interdisant explicitement aux fournisseurs de services technologiques de vendre les données des élèves ou de créer des profils d’élèves à des fins autres qu’éducatives. La loi SOPIPA a ensuite servi de modèle à l’introduction de législations similaires dans d’autres États américains (Singer, 2014[28]) (Data Quality Campaign, 2017[29]). Plus globalement, la loi COPPA sur la protection de la vie privée en ligne des enfants de 1998 interdit toute collecte, utilisation et dissémination d’informations personnelles d’enfants âgés de moins de 13 ans sans le consentement préalable et éclairé de leurs parents.
Dans l’Union européenne, le RGPD et la dernière mouture de la directive sur les services médiatiques et l’audiovisuel (SMA) prévoient des dispositions particulières en faveur de la protection des données des personnes mineures, afin d’éviter tout traitement de leurs données à des fins commerciales, comme le démarchage, le profilage et la publicité basée sur le ciblage comportemental (Ronchi et Robinson, 2019[30]). Le RGPD a renforcé la réglementation des usages commerciaux des données personnelles d’éducation, puisqu’en vertu des nouvelles règles en vigueur les fournisseurs de services numériques sont considérés comme « sous-traitants » des données, tandis que les élèves et les établissements scolaires demeurent les « maîtres » des données et conservent le contrôle juridique sur leurs données et le pouvoir de décision sur les requêtes de tiers en matière de données (articles 4 à 6, 35)4.
Les atteintes à la vie privée peuvent exposer les élèves et les enseignants à différents types de préjudice et, parmi les plus préoccupants, entraîner des risques de pratiques discriminatoires. Ces préjudices peuvent être objectifs ou subjectifs et d’ordre économique, juridique, ou psycho-émotionnel et peuvent nuire à la réputation d’une personne. Le risque de préjudice constitue généralement le critère majeur pour déterminer la sensibilité d’un élément de données et la nécessité d’appliquer des mesures de protection. Cependant, il est souvent difficile de déterminer dans quel cas une information peut être divulguée (sans risque), car certaines utilisations de données peuvent présenter un intérêt pour la société (Solove, 2006[31]).
Les préjudices potentiels d’une utilisation abusive des informations personnelles des élèves et des enseignants, au-delà du risque d’usage à des fins commerciales, incluent les pratiques de profilage, de discrimination, d’usurpation d’identité ou encore la détresse émotionnelle. Les atteintes à la confidentialité des dossiers scolaires personnels dont les établissements scolaires et d’enseignement supérieur ont la responsabilité, peuvent nuire à la réputation de ces derniers, les obliger à enquêter sur ces incidents et à apporter des mesures de réparation, ainsi qu’entraîner des dommages financiers.
Le risque de profilage est particulièrement élevé en raison de la nature exhaustive et longitudinale de certains jeux de données administratives dans l’éducation. Le profilage désigne l’usage de données à des fins d’analyse des caractéristiques personnelles ou des schémas comportementaux en vue de classer les individus ou des groupes d’individus dans des catégories (profils), et de prédire ainsi leurs préférences, comportements ou capacités. Cette pratique, combinée à la prise de décision automatisée, présente le risque que des décisions soient prises par une machine sans aucune intervention humaine en se basant sur des profils établis à partir de données (EU Data Protection Working Party, 2017[32]) (Future of Privacy Forum, 2017[33]) (Information Commissioner’s Office, 2017[34]). De fait, cette pratique correspond à la façon dont fonctionne l’IA dans l’éducation, mais généralement sous supervision humaine (OECD, 2021[35]).
Le principal problème du profilage est que, en raison de ces prédictions, des groupes ou des individus vulnérables subissent un traitement différencié ou des pratiques discriminatoires dans des domaines comme l’accès aux prestations et services sociaux, à des possibilités d’apprentissage, à l’embauche ou à des assurances, entre autres. Ainsi, des élèves peuvent se voir refuser l’accès à certaines catégories d’études, se voir refuser plus souvent l'éligibilité aux prestations en fonction de l'obtention préalable de bourses, ou le filtrage des candidats en fonction du type d’établissement fréquenté plutôt que des résultats aux examens. Ces pratiques discriminatoires peuvent s’ajouter à d’autres traitements injustes fondés sur le sexe, l’appartenance ethnique ou d’autres caractéristiques personnelles. Les dossiers scolaires portant sur l’ensemble de la scolarité depuis la maternelle peuvent être utilisés, seuls ou combinés avec des données provenant d’autres sources, pour établir des profils d’élèves qui conditionneront d’une manière inéquitable les décisions et les débouchés qui s’offriront à eux au cours de leurs études et même au-delà. Cela étant, les dossiers scolaires sont par ailleurs utilisés habituellement de façon légitime en vue de prendre des décisions dans les procédures d’admission dans des établissements d’enseignement supérieur ou d’attribution d’aides financières. La notion de « biais algorithmique » englobe ce type de risque (Baker, Hawn et Lee, 2023[36]).
Le fait qu’un événement regrettable survenu dans le parcours d’un élève soit inscrit définitivement dans son dossier soulève également d’autres préoccupations, notamment le risque que certains débouchés lui soient refusés. Ainsi, un élève ayant fait l’objet de mesures disciplinaires au cours de sa scolarité pourrait être exposé plus tard au risque de se voir refuser un emploi sur ce critère. Ces dilemmes sont similaires à ceux liés à l’utilisation potentielle des casiers judiciaires des mineurs ou des dossiers médicaux. Un autre risque peut naître des attentes liées à l’accessibilité de ces informations personnelles, qui peuvent entraîner des incitations malsaines ou un comportement plus timoré dans certaines situations où les enjeux sont élevés. Les élèves peuvent, par exemple, renoncer à s’inscrire à certains cursus d’enseignement supérieur par crainte que de futurs recruteurs puissent se baser sur leurs choix d’études comme indicateur de préférences personnelles (p. ex. opinions politiques ou orientation sexuelle) et sélectionner les candidats sur ce critère. Les enseignants, pour leur part, pourraient être moins enclins à expérimenter des pratiques innovantes dont les résultats sont plus incertains, et se limiter à leurs pratiques habituelles pour ne pas risquer qu’une baisse des résultats n’ait des conséquences sur leur mobilité ou leur avancement professionnels. Ces préoccupations relèvent davantage d’un problème éthique lié à l’utilisation abusive par les êtres humains d’informations dont ils ne disposaient pas auparavant.
Au cœur du problème, le fait que l’accès à davantage de données ne garantit pas de meilleures déductions et des décisions plus justes. L’utilisation sélective et arbitraire des données scolaires disponibles peut ainsi entraîner une prise de décision biaisée et des pratiques discriminatoires, en particulier en raison de l’amélioration de leur granularité et de la prise en compte d’un plus grand nombre d’entrées chronologiques et d’aspects liés aux caractéristiques et comportements individuels. Une plus grande disponibilité des données comporte un risque de préjudice dans la mesure où les données sont utilisées de façon inappropriée, mais l’amélioration de leur qualité et de certaines applications de profilage peut également contribuer à lutter contre les discriminations et à personnaliser et perfectionner certains services (EU Data Protection Working Party, 2017[32]) (Future of Privacy Forum, 2017[33]).
Plutôt que d’interdire l’utilisation des données personnelles ou d’imposer une protection trop stricte en raison de risques éventuels, il faut se demander comment on peut les utiliser selon des critères que la société estime justes et utiles. Les politiques de protection des données personnelles devraient pouvoir susciter la confiance des personnes comme de la société dans son ensemble, dans l’utilisation des données et imaginer des solutions pour répondre aux préoccupations des citoyens, qu’elles soient fondées ou non.
Tous les pays et entités pour lesquels nous disposons d’informations, à l’exception des États-Unis, ont adopté des législations générales et transversales en matière de protection de données et de respect de la vie privée, qui s’appliquent au secteur de l’éducation comme à tous les autres secteurs. Tous les membres de l’Union européenne, ainsi que certains pays voisins (comme le Royaume-Uni et la Norvège) ont adopté le RGPD, qui doit s’appliquer dans tous les pays de l’UE. Les États-Unis n’ont pas défini de législation globale, mais ont adopté une série de législations sectorielles en faveur de la protection des données et du respect de la vie privée, dont une spécifique au secteur de l’éducation (FERPA). Les législations générales s’appliquent toutes au niveau national. De plus, elles se fondent toutes sur les principes énoncés à la section précédente en termes de contenu.
Environ la moitié des pays ou entités disposent également d’une loi (ou règle contraignante) qui couvre plus particulièrement la protection de la vie privée et des données personnelles dans le contexte éducatif (13 sur 28). Généralement, ces législations servent à clarifier les modalités d’accès des pays aux données qu’ils collectent et traitent dans le cadre de leurs systèmes d’information scolaires (SIS) et d’autres systèmes administratifs. Ces règles prévoient des restrictions en matière d’accès aux systèmes et de modalités d’utilisation, de partage des données, etc.Les pays qui ne disposent pas de système d’information scolaire centralisé (ou dont le système d’éducation est de petite taille) n’ont généralement pas de législation spécifique. La plupart des directives formulées par les pouvoirs publics au niveau national fournissent des indications pour faciliter l’application des réglementations nationales en matière de protection des données et de la vie privée par les établissements scolaires et les enseignants.
En Europe, certains pays ne font que mettre en application le RGPD (notamment la Tchéquie où les pouvoirs publics collectent des données scolaires sous forme agrégées uniquement), tandis que la plupart des pays ont transposé le RGPD dans leur législation nationale, qui s’applique à l’éducation comme aux autres secteurs. C’est le cas en Angleterre, par exemple (Data Protection Act 2018 et le RGPD britannique), en Finlande (Data Protection Act), en Islande (2018 Act on Data Protection and the Processing of Personal Data) ou en Irlande (Data Protection Act 2018).
En vertu du cadre général du RGPD, certains pays ont également élaboré des règles spécifiques à l’éducation qui se fondent généralement sur une approche plus restrictive que celle du RGPD. La Suède a, par exemple, intégré le RGPD dans sa loi sur l’éducation. En France, le Code de l’éducation, qui s’applique à la protection des données des élèves, des enseignants et du personnel scolaire, limite l’utilisation des données et impose des règles pour les rendre anonymes. Les agents de la fonction publique du ministère de l’Éducation travaillent en étroite collaboration avec la Commission nationale de l’informatique et des libertés (CNIL) pour définir une approche commune face aux nouvelles situations en la matière et rendre possible l’ambitieuse politique d’éducation numérique française.
En Autriche, la loi sur la documentation dans l’éducation (BilDokG – Bildungsdokumentationsgesetz) vise à garantir la protection des données à tous les niveaux d’enseignement pour les élèves, les enseignants et le personnel scolaire. Cette législation encadre la gouvernance des données à chaque étape de la collecte jusqu’à leur utilisation. Elle impose, par exemple, l’anonymisation des données scolaires et la pseudonymisation des identifiants des élèves lors de leur transfert des établissements aux instituts de statistiques. L’utilisation de ces données n’est licite qu’à des fins de recherche ou statistiques. De plus, le règlement de 2021 sur les TIC dans les établissements scolaires (IKT-Schulverordnung) encadre l’utilisation des appareils numériques dans les établissements et impose, par exemple, l’installation d’un logiciel de gestion informatique appartenant à l’État sur tous les appareils fournis par les pouvoirs publics. Pour prévenir toute utilisation abusive des données par des fournisseurs de services numériques tiers hors du territoire national, ces derniers doivent signer un contrat avec l’État qui les engage à limiter l’usage de ces données à des fins pédagogiques.
Certains pays européens permettent ou imposent aux établissements ou aux municipalités de définir leurs propres règles en matière de protection de la vie privée (dans le respect des législations nationales et du RGPD). Par exemple, les établissements scolaires en Italie doivent appliquer des règles de protection des données et de la vie privée qui font l’objet d’une surveillance par des agents externes. Aux Pays-Bas, les établissements désignent des responsables de la protection des données chargés de définir les politiques de respect de la vie privée et de sensibiliser le personnel scolaire à ces problématiques. L’Espagne a transposé le RGPD dans le droit national en adoptant la loi organique 3/2018, qui encadre spécifiquement la protection des données dans l’éducation, tandis que les administrations des régions autonomes ont fixé des règles ou directives complémentaires régissant les utilisations technologiques particulières en fonction de leur contexte scolaire. L’administration centrale propose, pour sa part, des directives en matière de protection des données et de la vie privée via son site Internet AsequraTIC.
Hors d’Europe, certains pays ont également adopté des législations qui s’inspirent parfois ou s’alignent sur le RGPD européen. La loi générale brésilienne sur la protection des données personnelles (LGPD) présente en effet des similitudes avec le RGPD, même si la définition des données personnelles qu’elle a fixée est plus stricte. En Türkiye, la loi de protection de données à caractère personnel (KVKK) s’inspire du RGPD, mais le pays ne dispose pas de règles ou de directives spécifiquement destinées au secteur de l’éducation. Enfin, au Chili, pays qui dispose d’une législation sur la protection des données datant de plusieurs décennies, un projet de loi en la matière fondé sur les principes du RGPD était en cours de discussion début 2024.
Au Canada, la protection des données et de la vie privée est régie par deux textes législatifs principaux :la loi sur la liberté d’information et la protection de la vie privée (FIPPA) garantit le droit d’accès des personnes à leurs propres informations, et la loi sur la protection des informations personnelles et les documents électroniques (PIPEDA) exige le consentement des personnes à la collecte, la divulgation et l’utilisation de leurs informations personnelles. Les législations en la matière spécifiques à l’éducation relèvent de la compétence des différentes provinces et territoires. Par exemple, la loi sur la protection de la vie privée et du droit à l’information de l’État du Nouveau-Brunswick définit plus particulièrement les règles et directives en matière de protection des données dans l’éducation, telles que les lignes directrices et mesures restrictives relatives à l’utilisation par les fournisseurs commerciaux des données sur les élèves et le personnel scolaire, que les établissements doivent valider avant de signer des contrats de marché public.
Au Japon, la loi sur la protection des informations personnelles (APPI) régit la gestion des informations personnelles (y compris les données dans l’éducation lorsqu’il s’agit d’informations personnelles). Jusqu’en 2022, l’APPI ne s’appliquait qu’aux informations personnelles détenues par le secteur privé, tandis que les informations détenues par l’administration et les organismes publics indépendants étaient régies par la loi sur la protection des informations personnelles détenues par les organes administratifs (APPIHAO) et la loi sur la protection des informations personnelles détenues par les organismes publics indépendants (APPIHIAA). En mai 2021, une réforme a fusionné et intégré ces deux législations dans l’APPI et a introduit une obligation de rendre des comptes sur les fuites de données, imposant des sanctions plus strictes en cas de non-respect des règles de la Commission de la protection des informations personnelles (PPC). Depuis 2023, l’APPI s’applique également à la gestion des données personnelles détenues par les administrations locales.
Les États-Unis ont choisi une approche sectorielle en matière de protection des données. L’éducation fait partie des secteurs régis par une législation spécifique en matière de protection des données, à savoir la loi sur les droits et la protection de la vie privée et familiale dans l’éducation (FERPA), déjà citée. Elle est complétée par la loi pour la protection des droits des élèves (PPRA), la loi de protection des enfants sur Internet (CIPA) et la réglementation en matière de protection de la vie privée des enfants en ligne (COPPA). Les deux dernières s’appliquent au secteur de l’éducation, car elles concernent les mineurs. Les États sont libres de fixer leurs propres législations et règles générales ou spécifiques en matière de protection des données et de la vie privée, en complément des lois fédérales. Le ministère fédéral de l’Éducation a publié des directives destinées aux établissements scolaires et aux autres acteurs concernés qui expliquent comment se conformer aux mesures de protection des données. D’autres directives et/ou législations spécifiques relatives à la collecte des données via des outils numériques, et les mesures de protection connexes, relèvent de la compétence des États fédérés. La Californie a, par exemple, adopté une loi transversale sur la protection des données et formulé des recommandations locales en la matière.
Pour résumer, tous les pays disposent de réglementations solides en matière de protection des données et de la vie privée, généralement assorties de directives relatives à leur mise en œuvre, même si celles-ci restent parfois générales et insuffisamment axées sur l’application dans le milieu scolaire.
Certains aspects de la gestion des données et du respect de la vie privée des élèves et du personnel scolaire sont protégés en vertu de la législation nationale. Une autre option à une loi générale serait de définir des règles spécifiques de protection des données et de la vie privée pour l’une ou ces deux catégories de personnes. La question a été posée dans le cadre de la collecte des données par l’OCDE (et lors des réunions de validation avec les pays). En ce qui concerne le partage des données avec des tiers à des fins de recherche ou statistiques, l’utilisation de celles des élèves et du personnel scolaire (principalement les enseignants) est régie par la même réglementation.
Cependant, certains élèves étant mineurs, leurs données sont également protégées par d’autres réglementations qui ne s’appliquent pas au personnel scolaire. De plus, certains pays disposent de législations spécifiques distinctes pour la gestion des données des personnes mineures/enfants (comme les États-Unis) s’appliquant aux enfants scolarisés. Environ 24 pays ou entités (sur un total de 29) ont signalé mettre en œuvre des règles (17) ou des directives (7) en matière de protection des données et de la vie privée concernant spécifiquement les données des élèves, qui renforcent le régime général de protection.
Seuls 12 pays ont indiqué disposer de réglementations spécifiques pour la protection des données des enseignants et du personnel scolaire, et 6 ont publié des directives. Même si la gestion des données des élèves et du personnel scolaire est généralement similaire, leur situation est fondamentalement différente, car l’utilisation des données des professionnels par leur employeur est régie par les termes de leur contrat de travail (et du droit du travail national) plutôt que par les régimes juridiques plus généraux de protection des données. Dans les pays nordiques où les enseignants sont recrutés par les municipalités, la protection des données est régie par les contrats de travail locaux et les conventions collectives. Aux États-Unis, cet aspect est couvert par la législation fédérale en matière d’emploi et de contrats de travail.
|
Protection des données |
||||||
---|---|---|---|---|---|---|---|
|
Règles de protection générale des données |
Règles de protection spécifique des données dans l’éducation |
Protection spécifique des données des élèves |
Protection spécifique des données des enseignants et du personnel |
|||
|
Règles et directives |
Directives uniquement |
Règles |
Règles et directives |
Directives uniquement |
Règles et directives |
Directives uniquement |
Autriche |
✓ |
✓ |
✓ |
✓ |
|||
Brésil |
✓ |
||||||
Canada |
✓ |
✓ |
✓ |
✓ |
|||
Chili |
✓ |
✓ |
|||||
Tchéquie |
✓ |
||||||
Danemark |
✓ |
✓ |
✓ |
✓ |
|||
Estonie |
✓ |
✓ |
|||||
Finlande |
✓ |
✓ |
✓ |
✓ |
|||
France |
✓ |
✓ |
✓ |
✓ |
|||
Hongrie |
✓ |
✓ |
✓ |
✓ |
|||
Islande |
✓ |
||||||
Irlande |
✓ |
✓ |
✓ |
||||
Italie |
✓ |
✓ |
|||||
Japon |
✓ |
✓ |
✓ |
✓ |
|||
Corée |
✓ |
✓ |
✓ |
||||
Lettonie |
✓ |
✓ |
|||||
Lituanie |
✓ |
✓ |
✓ |
||||
Luxembourg |
✓ |
✓ |
✓ |
||||
Mexique |
✓ |
✓ |
✓ |
||||
Pays-Bas |
✓ |
✓ |
|||||
Nouvelle-Zélande |
✓ |
✓ |
✓ |
||||
Slovénie |
✓ |
✓ |
✓ |
||||
Espagne |
✓ |
✓ |
✓ |
✓ |
|||
Suède |
✓ |
✓ |
|||||
Türkiye |
✓ |
✓ |
|||||
États-Unis |
✓ |
✓ |
|||||
Angleterre (Royaume-Uni) |
✓ |
✓ |
✓ |
||||
Comm. flamande (Belgique) |
✓ |
✓ |
✓ |
✓ |
|||
Comm. française (Belgique) |
✓ |
✓ |
✓ |
||||
Total (29) |
28 |
0 |
13 |
16 |
7 |
11 |
7 |
Remarque: N=29
Comme nous l’avons déjà évoqué pour les systèmes d’information scolaires, de nombreux pays ont recours à un modèle à plusieurs niveaux pour accéder aux données qu’ils collectent, qui permet de différencier clairement les droits d’accès entre les différents dépositaires des données et entre les acteurs externes en fonction de leur rôle, de leurs besoins et de leurs responsabilités. En précisant ainsi quel acteur peut avoir accès à quels types de données et pour quelles finalités, un modèle à plusieurs niveaux peut déterminer l’architecture d’un système d’information en y intégrant les principes de sécurité des données et de respect de la vie privée dès sa conception. Les modèles d’accès différencié en fonction du rôle sont conformes au principe de minimisation des données énoncé dans les cadres juridiques de protection de la vie privée comme le RGPD. L’article 25 du RGPD, par exemple, limite la détention et le traitement de données par les responsables des données qu’en cas de nécessité absolue aux fins de la réalisation de leurs missions et restreint l’accès aux données personnelles aux seules personnes chargées de leur traitement. Nombre de systèmes d’éducation ont choisi de rendre public le nom des personnes autorisées à accéder à l’ensemble des données.
Dans le contexte d’un organisme d’éducation, un modèle d’accès différencié implique que seules les personnes ayant besoin de consulter les registres du système d’information permettant d’identifier personnellement les élèves et les enseignants pour exercer leur fonction sont autorisées à le faire. Les fiches de poste devraient ainsi détailler les droits de chaque catégorie d’utilisateurs et préciser avec une granularité suffisante les tâches nécessitant l’accès aux dossiers personnels. Avant d’avoir accès à des données sensibles, les membres du personnel peuvent être soumis à des accords de confidentialité contraignants à des fins de protection des données.
Les modèles d’accès différencié peuvent servir à organiser les points d’entrée dans le système d’information des différents acteurs du secteur de l’éducation et à gérer des fonctionnalités de visualisation et de communication des données. Ainsi, il peut s’avérer utile à un enseignant du primaire de pouvoir accéder rapidement à des données récentes d’un élève concernant son assiduité, son niveau et les résultats obtenus à différentes évaluations, mais pas de pouvoir accéder aux antécédents médicaux ou aux transferts d’établissement de l’ensemble des élèves. Par ailleurs, le gestionnaire d’un programme ciblant certains groupes d’élèves, comme les locuteurs non natifs, peut avoir intérêt à consulter le dossier scolaire et à connaître le contexte familial d’un élève pour organiser au mieux son intégration dans un tel programme. De même, un analyste dans un institut public de recherche ou un service d’évaluation chargé de produire des rapports agrégés sur les résultats des élèves à l’intention de la haute administration devrait pouvoir avoir accès à des données relatives aux performances sans qu’elles puissent être reliées aux identifiants directs des élèves. Par conséquent, plutôt que d’autoriser l’accès à tous les employés ou utilisateurs externes à l’ensemble des dossiers informatiques des élèves ou de restreindre cet accès aux seuls éléments nécessaires à un utilisateur à un moment donné, les gestionnaires des systèmes d’information de l’éducation peuvent accorder un accès à un ensemble d’éléments de données spécifique selon la fonction exercée (NCES, 2011[7]).
La plupart des pays ont déjà recours à cette approche pour gérer l’accès aux systèmes d’information administratifs, comme les systèmes d’information scolaire ou les systèmes de gestion des admissions. Il est important de noter que l’ensemble des législations en matière de protection des données et de la vie privée présentées ci-dessus interdisent aux établissements et aux organismes d’éducation de communiquer les données ou résultats personnels à d’autres fins que celle du fonctionnement de l’établissement ou des activités pédagogiques, à l’exception notable de l’accès à des fins de recherche, qui sont présentées ci-après.
La numérisation croissante des environnements d’apprentissage exige la mise en place de nouvelles solutions pour garantir le respect de la vie privée et des usages licites des données personnelles des élèves et des enseignants. Pour ce faire, la technologie est de plus en plus utilisée pour mettre en place des couches d’« interopérabilité » technique qui limitent la transmission des informations personnelles aux parties tierces (notamment commerciales).
Depuis 2020, les Pays-Bas ont par exemple mis en place un nouveau numéro d’identification des élèves (distinct de l’identifiant national) et une couche d’échange de données que les établissements scolaires utilisent pour empêcher que les fournisseurs commerciaux puissent prendre connaissance de leur identité personnelle, le ECK-iD. La Communauté flamande de Belgique a adopté la même approche. Le gestionnaire d’accès aux ressources (GAR) développé par le ministère français de l’Éducation fonctionne différemment : il sert de filtre de sécurité pour garantir que les échanges de données entre les établissements scolaires et les fournisseurs de ressources numériques pédagogiques respectent les principes de proportionnalité et de pertinence énoncés par les réglementations européennes et nationales (Encadré 8.2). Ce dispositif instaure également des accords contractuels et des normes techniques et juridiques interdisant par exemple aux fournisseurs de ressources de réutiliser les données personnelles à des fins commerciales et leur imposant de faciliter la récupération des données par les personnes concernées.
Dans le cadre du plan numérique à l’école de 2015, le ministère français de l’Éducation a développé le gestionnaire d’accès aux ressources (GAR), une solution technique visant à garantir la protection des données personnelles des élèves et des enseignants dans le contexte des espaces numériques de travail (ENT) utilisés dans les établissements scolaires. Le GAR agit comme un filtre de sécurité garantissant que les échanges de données entre les établissements scolaires et les fournisseurs de ressources numériques pédagogiques, indispensables pour permettre aux élèves et aux enseignants d’avoir accès à ces ressources, respectent les principes de proportionnalité et de pertinence énoncés dans la loi française Informatique et Libertés et le règlement général européen pour la protection des données (RGPD).
En France, ce sont les chefs d’établissement qui sont chargés de sélectionner les ressources numériques auxquelles leur établissement s’abonne. Les élèves et les enseignants consultent ces ressources sur leur ENT, qui requiert souvent la transmission des données d’utilisateurs entre les établissements et les éditeurs ou d’autres fournisseurs commerciaux de ressources. Le système GAR centralise et simplifie plusieurs opérations de cette procédure. En premier lieu, le GAR fournit une interface unique qui regroupe et donne accès à tous les abonnements des élèves et des enseignants. Ensuite, il assure un canal de liaison sécurisé pour les données en anonymisant les identifiants et en minimisant la quantité de données transmises. Le contrôle est effectué par des agents du ministère de l’Éducation chargés d’évaluer en amont la proportionnalité et la pertinence des données personnelles demandées par un fournisseur aux fins d’utilisation de cette ressource. Ainsi, le GAR fonctionne comme un filtre invisible pour les utilisateurs des ENT, mais les professionnels de l’éducation peuvent également savoir si une ressource est sécurisée à l’aide d’une marque « Compatible GAR » indiquée dans sa description, délivrée par le ministère aux fournisseurs qui adhèrent au dispositif. Le GAR offre également aux fournisseurs un point de distribution unique qui donne de la visibilité à leur outil.
Ce gestionnaire est compatible avec une grande variété de ressources d’apprentissage, notamment des documents de référence, des contenus multimédias, des manuels numériques et des outils de conception de nouveaux supports. Le ministère français fournit à tous les établissements du pays un accès gratuit à deux banques de ressources numériques qui sont intégrées progressivement dans le GAR, en plus des abonnements souscrits par les établissements : Éduthèque, qui permet de consulter les ressources des grands établissements publics scientifiques et culturels et la BRNE, une bibliothèque de ressources d’éditeurs privés portant sur les matières scolaires obligatoires de l’enseignement primaire et secondaire. Ce système fournit globalement un cadre fiable favorisant des échanges de données respectueux de la vie privée et qui permet des usages multiples de technologies numériques dans l’environnement scolaire.
Une version pilote du GAR a été déployée pour la première fois en septembre 2017 dans 82 établissements et 10 ENT. En juin 2018, ce système a été étendu à plus 300 établissements en France et a autorisé près de 4 000 demandes d’accès à des ressources par jour. En 2023, le GAR a été généralisé à l’échelle nationale.
Source : (Commission Nationale de l’Informatique et des Libertés, 2017[37]) site Internet du ministère de l’Éducation nationale (https://gar.education.fr/).
Si les politiques d’accès différencié et les solutions technologiques allègent le fardeau de la mise en œuvre des dispositifs de protection des données pour le personnel scolaire, il est également important de fournir des recommandations adéquates aux enseignants, chefs d’établissement et parents en la matière. La plupart des pays disposent déjà de telles stratégies et offrent un niveau minimal de recommandations. Fournir des recommandations et communiquer auprès du personnel scolaire et des enseignants sont deux choses différentes. Les réglementations et politiques ne sont pas toujours bien connues ou comprises. La jurisprudence bien souvent finit par clarifier la législation qui autrement peut demeurer ambiguë. En conséquence, les parties prenantes de l’éducation risquent d’adopter une approche à l’égard des données et de la vie privée qui soit trop protectrice ou pas assez. Le renforcement du soutien institutionnel à l’utilisation des données et des technologies numériques permet de nourrir une culture de la confiance à cet égard. Ce soutien à l’utilisation des outils numériques provient généralement de l’État, de l’administration centrale ou, plus rarement, des établissements. Certains pays ont intégré cette dimension dans les objectifs des missions d’inspection.
Quelques pays ont mis en place des groupes de travail spécialisés pour aider les établissements et vérifier l’application des stratégies en matière de données (et de technologies numériques). L’Autriche a formé du personnel spécialisé dans les TIC et les problématiques de protection des données au sein du service des inspections. L’Italie impose aux établissements de faire appel à un agent externe chargé de la protection des données. Les organismes nationaux de protection des données et d’autres services du ministère en France ont adopté une approche proactive de vérification des modalités d’utilisation des outils numériques et des données dans les établissements. En outre, bien que les inspecteurs ne reçoivent pas forcément une formation consacrée à ces questions et se concentrent sur de nombreux autres aspects, les inspections régulières dans les établissements s’étendent à la protection des données dans quelques pays (la Communauté flamande de Belgique, le Chili, l’Irlande, et la Nouvelle-Zélande) (Graphique 8.2).
Si l’amélioration de l’utilisation en temps réel des données générées par les écosystèmes numériques de l’éducation peut aider à la prise de décision, un autre objectif serait de consolider ces écosystèmes nationaux pour rendre possible l’utilisation de ces données à des fins de recherche d’évaluation et d’apprentissage. Pour ce faire, les chercheurs doivent avoir un accès à ces données dans le cadre de règles strictes de protection de la vie privée.
Les données du secteur de l’éducation sont collectées depuis longtemps à des fins statistiques. La numérisation des données collectées par différentes institutions dans le cadre de leur mission a permis d’accroître la quantité et la qualité de ces données utiles à la recherche et à l’amélioration du système. L’émergence d’une nouvelle génération de systèmes d’information scolaire longitudinaux qui collectent des informations sur les personnes sur plusieurs années, et même parfois depuis l’école maternelle jusqu’à l’entrée sur le marché du travail, ouvre des perspectives de recherche inédites (Figlio, Karbownik et Salvanes, 2016[38] ; Dynarski et Berends, 2015[39]). Les différentes sources de données sont de plus en plus interconnectées et permettent de mieux comprendre les déterminants et les effets des facteurs contextuels sur la réussite scolaire ou, à l’inverse, du parcours scolaire sur d’autres aspects (revenu, santé, emploi, etc.).
Les données administratives sont celles collectées par les organismes et l’administration publics dans le cadre de leurs missions (fourniture de services ou application du droit). Elles se classent généralement en deux catégories (Office of Management and Budget (United States), 2016[40]) :
Les données administratives à grande échelle qui concernent généralement une part très importante de la population (voire son intégralité) bénéficiaire d’un programme. Elles peuvent être de nature transversale ou longitudinale. Dans l’éducation, un système d'information longitudinal qui collecte des données sur un élève en particulier au niveau de l’établissement en est un bon exemple. Les données administratives à grande échelle peuvent également être collectées auprès des enseignants ou d’autres catégories de personnel.
Les données administratives spécifiques à certains programmes concernent habituellement les bénéficiaires du programme dans le cadre de son application. Il peut s’agir de programmes de bourses ou d’autres ciblant un groupe particulier d’élèves, ceux par exemple participant à un programme public.
Les données administratives se distinguent des données d’enquête en ce qu’elles ne sont pas initialement collectées à des fins de recherche et, souvent, par une couverture plus large que celle d’une enquête. Si certaines données administratives sont collectées à des fins statistiques, la plupart le sont pour d’autres raisons. La numérisation permet d’exploiter le potentiel de ces données pour la recherche, dans la mesure où les chercheurs ont les moyens de les analyser. Les données administratives se différencient des données d’enquête sur plusieurs aspects, dont le plus important est le principe d’obligation d’information et de consentement propre aux enquêtes de recherche, qui ne peut s’appliquer aux données administratives.
Les pays ont recours à des mécanismes de contrôle centrés sur les données et sur la gouvernance pour rendre les données administratives accessibles aux chercheurs. Ces solutions sont complémentaires dans le cadre d’une stratégie plus globale de protection de la vie privée.
Les contrôles centrés sur les données consistent à traiter les données préalablement à leur publication ou à leur partage. Ils diminuent les risques pour la vie privée en transformant les données, par exemple en supprimant ou en masquant le lien entre les personnes concernées et les éléments de données. Pour ce faire, il existe plusieurs techniques de désidentification des données, comme la dissimulation, le floutage, la perturbation, la randomisation ou le sous-échantillonnage. Ces techniques ciblent les identifiants formels, mais incluent également des moyens de déformer les informations et d'empêcher les croisements statistiques. En dépit de ses limitations, la désidentification des données sensibles avant leur publication reste un composant essentiel de la boîte à outils de protection de la vie privée (Cavoukian et El Emam, 2011[41]). En effet, les ensembles de données administratives désidentifiées sont utilisés de façon sûre dans de nombreux pays à des fins de recherche et d'évaluation dans l'éducation, la santé et d'autres domaines. Même en cas de désidentification5 des dossiers préalable au partage ou à la publication des ensembles de données, le risque de ré-identification6 des personnes ou de divulgation de données sensibles les concernant demeure, en raison de la multiplication des données collectées dans et hors des systèmes d’éducation et de l’amélioration des techniques d’analyse permettant d’extraire, de recouper et de tirer des déductions à partir de données.
En revanche, les solutions ciblées sur la gouvernance visent à limiter les interactions des dépositaires et des utilisateurs avec les données, à la fois en réglementant les conditions d'accès aux données et de leur utilisation et en améliorant les connaissances et les capacités à gérer les risques pour la vie privée. La gouvernance des données peut aider à protéger la vie privée en établissant des contrôles et procédures efficaces dans au moins quatre domaines : la protection des données informatique et physique ; les modèles d'accès différencié ; les solutions de licence et d'accès supervisées ; l'information, la formation et la communication sur le sujet de la vie privée. Un bon modèle de gouvernance met en œuvre des actions dans ces quatre domaines et y associe des solutions centrées sur les données.
La plupart des pays communiquent au moins une partie de leurs données administratives en vertu de leurs législations relatives au partage des données statistiques et ont souvent recours à diverses techniques de gouvernance des données qui rendent très difficile la ré-identification des personnes. Comme nous l’avons déjà remarqué, la plupart des législations sur la protection des données et de la vie privée comportent une « exception pour la recherche » autorisant la transmission aux chercheurs de données désidentifiées collectées par les organismes publics, sous certaines conditions.
Les modes d’accès utilisés par les chercheurs varient cependant entre les pays.
En effet, 21 (sur 29) accordent un accès à (au moins une partie de) leurs données administratives selon les mêmes conditions à tous les chercheurs et n’appliquent pas de procédures de demande ad hoc. Certains pays imposent des restrictions supplémentaires, comme dans l’État de Washington (États-Unis) où les chercheurs ne peuvent accéder qu’aux données qui n’ont pas déjà été communiquées à d’autres chercheurs étudiant des questions similaires. Les difficultés liées à la communication des données sont souvent dues au manque de ressources humaines (et budgétaires). Si la plupart des pays n’imposent pas de conditions d’accès distinctes pour les chercheurs des secteurs public et privé, certains pays limitent cet accès aux chercheurs du secteur public (le Chili, la Communauté française de Belgique et la Türkiye).
Pour que les chercheurs en matière d’éducation puissent bénéficier d’une égalité d’accès à des ensembles de données administratives diversifiés, il est indispensable que ces ensembles de données soient répertoriés, ce qui consiste principalement à élaborer un répertoire public qui décrit les données qui y sont consignées. Si ce n’est pas le cas, en raison du caractère généralement confidentiel des systèmes administratifs, les chercheurs ne savent pas, au moment où ils font une demande d’accès à des données, à quelles questions un ensemble de données pourra répondre, à moins de connaître quelqu’un parmi le personnel chargé de l’administration ou de l’exploitation de ces systèmes. Le recensement des ensembles de données, même s’il représente un exercice fastidieux mobilisant des ressources humaines et budgétaires, est indispensable pour que les chercheurs puissent exploiter les données administratives. Un peu moins de la moitié des pays pour lesquels nous disposons de cette information (soit 13 sur 29) répertorient la totalité, ou presque, de leurs ensembles de données administratives sur l’éducation. Dans les pays qui ne le font pas, l’accès aux données administratives pour la recherche ne peut être qualifié d’équitable et juste.
Par le passé, seuls les établissements scolaires et les organismes publics avaient accès à la plupart des données collectées par les établissements. Certaines sociétés privées ont aujourd’hui accès à des données relatives aux élèves en raison de la généralisation de l’usage de ressources et d’outils numériques qui leur appartiennent. L’accès et l’utilisation de ces données sont réglementés par les législations de protection des données et de la vie privée, qui sont souvent assorties de restrictions pour les données des personnes mineures. Ainsi, l’utilisation de ces données à des fins commerciales par les fournisseurs privés est généralement interdite.
Cependant, certains outils et ressources numériques utilisés dans les établissements (ou pour l’enseignement scolaire), comme les outils d’apprentissage adaptatif, génèrent des données que les fournisseurs privés peuvent utiliser. De plus en plus de solutions techniques sont mises en place pour empêcher que les sociétés privées prennent connaissance de l’identité des utilisateurs ou pour limiter ce risque. Cependant, ces données peuvent être utiles aux sociétés pour améliorer leurs algorithmes et leurs services, d’autant plus qu’elles leur appartiennent généralement.
La question qui se pose aux pays est de savoir si certaines des données collectées par les fournisseurs privés au sein des établissements scolaires (publics) devraient être accessibles à des fins de recherche ou de développement de nouveaux produits éducatifs. En effet, l’utilisation de systèmes d’apprentissage adaptatif dans les établissements publics pourrait-elle rendre possible une avancée majeure de la recherche en matière de soutien à l’apprentissage des élèves, par exemple, en leur proposant de suivre certaines séquences d’apprentissage ? Dans une telle hypothèse, il serait très utile que les systèmes d’éducation puissent mettre à disposition des chercheurs, voire de certaines sociétés, les données collectées à cet égard par les fournisseurs privés. De nombreux secteurs souhaitent en effet que les données collectées par les sociétés et réutilisées par d’autres organisations soient accessibles, notamment en créant des « espaces de données ». Il s’agit de l’un des objectifs de la loi européenne sur la gouvernance des données adoptée en 2022 et entrée en vigueur en 2023, notamment au moyen de mesures visant à renforcer la confiance dans le partage des données, en autorisant par exemple l’intervention d’intermédiaires des données et en facilitant la réutilisation des données publiques7.
En Autriche, aucune donnée ne peut en principe sortir des établissements, personne n’ayant le droit d’accéder ou de réutiliser les données qui y sont collectées et traitées, pas même les fournisseurs commerciaux d’outils ou de ressources numériques. En effet, ce pays est le seul ayant indiqué avoir imposé des règles en matière d’accès ou de partage des données collectées par les fournisseurs commerciaux.
Les entretiens menés auprès d’agents de la fonction publique ont mis au jour les lacunes en matière de mécanismes et de connaissances sur les avantages potentiels de la réutilisation de certaines données collectées par les fournisseurs privés, et le besoin de mettre en place des mesures susceptibles d’équilibrer les incitations destinées aux développeurs privés et les avantages pour la société.
En conclusion, l’un des aspects essentiels de la gouvernance des données au niveau national devrait être d’élargir davantage l’accès des chercheurs aux données administratives tout en respectant les réglementations de protection des données et dans des conditions équitables. Pour garantir une égalité d’accès à tous les chercheurs, l’administration publique doit procéder à la documentation de ses ensembles de données. Les pouvoirs publics devraient également envisager de mettre en place des mesures destinées aux fournisseurs privés pour les inciter à partager certaines des données qu’ils collectent dans le contexte de l’éducation, non pas tant les données sur les élèves eux-mêmes, mais surtout les données d’utilisation et de processus qui peuvent être très utiles aux chercheurs ou aux acteurs privés cherchant à développer de nouvelles solutions pour un meilleur enseignement et apprentissage.
Le Graphique 8.2 et le Graphique 8.3 présentent un aperçu des principales politiques d’accès nationales en place début 2024.
|
Répertoire de tous (ou quasi tous) les ensembles de données publics |
Mêmes règles d’accès et d’utilisation des données éducatives pour les chercheurs publics |
Accès et utilisation des données administratives éducatives pour la recherche et le développement publics et privés |
Accès et utilisation des données éducatives collectées via des solutions privées dans les établissements publics ou sous contrat public |
||
---|---|---|---|---|---|---|
|
|
Règles |
Directives |
Règles |
Directives |
|
Autriche |
✓ |
✓ |
✓ |
|||
Brésil |
✓ |
✓ |
✓ |
|||
Canada |
||||||
Chili |
✓ |
✓ |
||||
Tchéquie |
||||||
Danemark |
✓ |
✓ |
✓ |
✓ |
||
Estonie |
✓ |
✓ |
✓ |
|||
Finlande |
✓ |
✓ |
✓ |
✓ |
||
France |
✓ |
✓ |
||||
Hongrie |
✓ |
✓ |
||||
Islande |
||||||
Irlande |
✓ |
|||||
Italie |
✓ |
✓ |
✓ |
|||
Japon |
||||||
Corée |
✓ |
✓ |
✓ |
✓ |
||
Lettonie |
✓ |
✓ |
✓ |
✓ |
||
Lituanie |
✓ |
✓ |
✓ |
✓ |
||
Luxembourg |
||||||
Mexique |
✓ |
✓ |
✓ |
|||
Pays-Bas |
✓ |
✓ |
✓ |
|||
Nouvelle-Zélande |
✓ |
✓ |
✓ |
|||
Slovénie |
||||||
Espagne |
||||||
Suède |
✓ |
✓ |
✓ |
|||
Türkiye |
✓ |
✓ |
||||
États-Unis |
✓ |
✓ |
✓ |
✓ |
||
Angleterre (Royaume-Uni) |
✓ |
✓ |
✓ |
✓ |
||
Comm. flamande (Belgique) |
✓ |
✓ |
✓ |
✓ |
||
Comm. française (Belgique) |
✓ |
✓ |
||||
Total |
13 |
21 |
17 |
11 |
1 |
4 |
Remarque: N=29
Au-delà de la gouvernance des données, qui concerne surtout le traitement et le partage, de nouvelles préoccupations émergent concernant la gouvernance des technologies elles-mêmes et notamment les algorithmes qui facilitent la prise de décision automatisée (et les algorithmes d’IA). Les systèmes d’éducation des pays de l’OCDE et du Brésil ne disposent que de peu, voire d’aucun, mécanismes de prise de décision automatisée en tant qu’outil de gestion. Les pays indiquent avoir recours à certains algorithmes basés sur des règles pour la prise de certaines décisions ou affectations, mais précisent généralement que leur rôle consiste seulement à informer et non à prendre la décision elle-même. Le Graphique 8.4 illustre le degré d’utilisation d’algorithmes basés sur des règles dans les différentes catégories de systèmes fournis par les pouvoirs publics (en partant du principe qu’aucun système n’est actuellement basé sur l’IA). En ce qui concerne les algorithmes basés sur l’IA, il était clair qu’il s’agissait de l’utilisation d’algorithmes permettant de détecter, de diagnostiquer ou d’intervenir sur divers aspects liés à l’éducation. L’utilisation de certains algorithmes avancés basés sur des règles sert parfois seulement à éclairer certains aspects des données (comme détecter des problèmes via les tableaux de bord) ou à s’assurer que les certificats peuvent être vérifiés.
Les établissements et les classes peuvent être équipés de systèmes plus sophistiqués, comme ceux d’apprentissage adaptatif (y compris des systèmes de tutorat intelligent) et il peut exister, ici ou là, des usages plus avancés d’IA dans les salles de classe, tels que présentés dans les Perspectives sur l’éducation numérique 2021, (Baker, 2021[42] ; OECD, 2021[35] ; D’Mello, 2021[43] ; Dillenbourg, 2021[44]) qui anticipent la diffusion et l’usage de l’IA générative dans le grand public (OECD, 2023[45]).
Si l’IA ouvre de nombreuses perspectives dans l’éducation, elle présente également des risques.
L’une des difficultés réside dans le fait que la technologie n’est peut-être pas toujours aussi efficace qu’escomptée : les modèles n’accomplissent pas toujours les fonctions pour lesquelles ils ont été conçus. Souvent, cela ne pose pas de problème, car ces outils restent utiles sans être préjudiciables, et présentent quand même des résultats supérieurs à ceux de l’intelligence humaine. Cependant, pour certaines décisions à fort enjeu pour les personnes concernées, aucune erreur ne peut être tolérée (les résultats doivent cependant être jugés à l’aune du niveau d’erreur humaine possible pour une tâche similaire). L’efficacité des solutions technologiques doit donc être un critère à prendre en compte dans la définition des directives ou des réglementations. Les pays peuvent envisager de demander aux développeurs de technologies éducatives de communiquer le niveau d’efficacité de leurs outils, que cette vérification soit menée en interne ou par des tiers accrédités. L’intérêt de cette démarche dépend du risque d’erreur.
Une autre difficulté concerne le risque que les technologies accroissent les inégalités ou la partialité d’une procédure, ce qui serait contraire aux objectifs éducatifs. L’accroissement des inégalités pourrait découler du fait que certains algorithmes, comme ceux de l’apprentissage adaptatif, fonctionnent mieux pour certains élèves que d’autres, et contribueraient ainsi à creuser le fossé entre certaines catégories plutôt que de le combler. Ce risque peut provenir parfois d’un biais algorithmique, qui intervient lorsqu’un algorithme encode (le plus souvent de manière involontaire) les biais présents dans la société, avec à la clé des prédictions ou des inférences qui ne fonctionnent pas de la même façon pour tous les groupes, ou sont clairement discriminatoires à l’égard de groupes précis (Baker, Hawn et Lee, 2023[36]). Les pays doivent donc envisager de prendre des mesures pour détecter ce type de biais dans l’utilisation des technologies numériques et y répondre.
L’utilisation de l’IA dans l’éducation soulève également des questions éthiques en lien avec la dignité, les droits humains et les valeurs démocratiques. En 2019, l’OCDE a adopté une Recommandation sur l’intelligence artificielle à l’intention des pouvoirs publics et d’autres acteurs qui « encourage une utilisation de l'IA qui soit innovante et digne de confiance et qui respecte les droits de l'homme et les valeurs démocratiques » et définit des principes en faveur d’une « IA digne de confiance centrée sur l’humain » (OECD, 2019[46])8. L’UNESCO a également adopté une Recommandation sur l’éthique de l’intelligence artificielle en 2021 (UNESCO, 2021[47]).
Cette section présente les premiers cas de directives ou de règles adoptées dans certains pays. Les réglementations présentent l’avantage d’être contraignantes, mais leur application risque d’entraver, voire d’empêcher l’innovation technologique. Les directives ont pour intérêt de donner des directions et de définir les comportements souhaités : elles ouvrent la voie à un dialogue sociétal et explorent les différents usages des technologies, mais ont le défaut de ne pas être contraignantes et renvoient certaines questions graves au domaine de l’éthique.
En 2024, la France est le seul pays qui applique déjà des règles contraignantes dans ce domaine. Ces règles s’appliquent aux algorithmes utilisés par les organismes publics et les établissements scolaires. La loi française sur le numérique exige que les algorithmes (utilisés par les pouvoirs publics) puissent être expliqués aux profanes et que leur source soit ouverte. Une partie des restrictions imposées aux établissements émanent du ministère de l’Éducation. L’IA ne doit pas, par exemple, être utilisée à des fins d’études du comportement, mais uniquement à des fins pédagogiques. Les systèmes d’IA concernant l’implication et basés sur la gamification sont autorisés, tandis que les fonctionnalités d’oculométrie ne peuvent servir qu’à des fins de recherche (voir (D’Mello, 2021[43]) pour un examen de ces systèmes d’IA). Les systèmes hautement automatisés pour les décisions à fort enjeu sont de façon générale interdits.
L’Union européenne prévoit, dans le cadre de sa stratégie pour le numérique, de réglementer l’intelligence artificielle (IA) afin d’accompagner son développement et son usage – le règlement européen sur l'intelligence artificielle devrait ainsi être adopté début 2024. Ce projet de législation s’inspire d’une approche fondée sur le risque et impose des obligations de transparence et d’évaluation aux développeurs d’IA. Comme pour les dispositifs médicaux, il prévoit la délivrance d’une autorisation à la mise sur le marché de logiciels d’IA. Pour promouvoir l’innovation en matière d’IA, cette loi définit des exceptions temporaires pour les essais (Encadré 8.3), appelés « bacs à sable réglementaires », qui offrent une solution d’avenir au développement des systèmes d’IA (OECD, 2023[48]). Pour que cette loi puisse être adoptée en temps voulu, il faudra définir soigneusement les systèmes interdits. L’approche en matière de la gestion du risque proposée dans la position de négociation du Parlement européen s’appliquerait de façon sectorielle, l’éducation étant classée secteur à « haut risque ».
En juin 2023, après que la Commission européenne a présenté sa proposition de cadre réglementaire, le Parlement européen a publié une « position de négociation » concernant la législation sur l’intelligence artificielle, première étape en vue de l’adoption de cette loi. Ce document prévoit que les systèmes d’IA soient utilisés dans l’Union européenne de façon « sûre, transparente, traçable, non discriminatoire et respectueuse de l’environnement » et fassent l’objet d’une « supervision humaine, plutôt qu’automatisée, pour éviter toute conséquence préjudiciable ».
Cette législation intersectorielle classe les systèmes d’IA en fonction de leurs risques perçus et prévoit différents degrés de réglementation selon le niveau de risque, pouvant aller jusqu’à l’interdiction.
Les catégories suivantes sont interdites et classées parmi les systèmes présentant des « risques inacceptables » :
La manipulation cognitive des comportements de personnes ou de groupes vulnérables spécifiques ;
La notation sociale, qui consiste à classer les personnes en fonction de leur comportement, leur situation socio-économique ou leurs caractéristiques personnelles ;
Les systèmes d’identification biométrique en temps réel et à distance, comme la reconnaissance faciale ;
Une deuxième catégorie de systèmes « à haut risque » devra être soumise à une évaluation préalable à une autorisation de mise sur le marché et tout au long du cycle de vie. Les systèmes d’IA dans le secteur de « l’éducation et de la formation professionnelle continue » relèvent de cette catégorie, avec sept autres domaines, ainsi que tous les produits déjà couverts par la législation européenne relative à la sécurité des produits.
L’IA à usage général, comme l’IA générative, sera soumise à l’obligation de mentionner que le contenu a été généré par l’IA et de publier des informations sur l’utilisation des données d’entraînement protégées par la législation sur le droit d’auteur. Leur modèle doit interdire la génération de contenus illégaux.
Les systèmes à risque limité incluent notamment les systèmes générant ou manipulant des images et des contenus audio ou vidéo. Ils seront également soumis à certaines obligations de transparence (p. ex. un devoir d’information sur les contenus générés par l’IA), et les entreprises qui développent des systèmes seront encouragées à respecter les mêmes règles que celles applicables aux systèmes à « haut risque ».
L’Office européen de l’IA sera chargé de superviser l’application du corpus réglementaire européen en matière d’IA.
Pour soutenir l’innovation, les activités de recherche et le développement de composants d’IA libres et ouverts devraient faire l’objet d’exemptions. Les bacs à sable réglementaires (autorisant des exemptions au RGPD pour une période d’essai) et les essais en environnements réels opérés par des pouvoirs publics pour tester l’IA avant son déploiement seront autorisés, voire encouragés.
Source : Voir le document du (European Parliament, 2021[49]) (https://www.europarl.europa.eu/doceo/document/TA-9-2023-0236_FR.html) et les communiqués de presse (https://www.europarl.europa.eu/news/fr/press-room/20230609IPR96212/meps-ready-to-negotiate-first-ever-rules-for-safe-and-transparent-ai).
Les États-Unis ont également annoncé un projet de législation sur les systèmes d’IA en vue de l’adoption d’une réglementation fédérale et de pratiques organisationnelles. Ce projet, centré sur l’efficacité des algorithmes, vise à garantir un fonctionnement conforme à leurs objectifs de conception, sur la prévention des biais à l’encontre de certains groupes, sur le droit des personnes à agir sur le traitement de leurs données, sur la divulgation de l’utilisation d’un algorithme, et sur la possibilité de recourir à une intervention humaine en cas de problèmes (Encadré 8.4).
Le projet américain de charte des droits en matière d’IA comporte cinq grands principes et des pratiques connexes élaborés par le Bureau de politique scientifique et technologique de la Maison-Blanche après une grande consultation publique. Cette charte a pour objectif d’orienter la conception, l’utilisation et le déploiement des systèmes automatisés à l’ère de l’intelligence artificielle. Elle complète d’autres législations en précisant les directives destinées aux organisations concernées, qu’elles soient publiques ou privées, peu importe leur taille. Ce cadre réglementaire énonce un ensemble de valeurs et propose une boîte à outils pour protéger les droits civiques, les libertés fondamentales et la vie privée dans tous les secteurs, dans le respect des valeurs démocratiques afin d’éclairer toutes les politiques, pratiques ou processus technologiques.
Ces cinq principes sont les suivants :
1. Tout citoyen devrait être protégé contre les systèmes dangereux ou inefficaces
2. Tout citoyen ne devrait pas subir de discrimination causée par les algorithmes, et la conception et l’utilisation des systèmes devrait être équitable.
3. Tout citoyen devrait être protégé de pratiques abusives en matière de données par des protections intégrées et devrait avoir la possibilité d’agir sur l’utilisation des données le concernant.
4. Tout citoyen devrait être informé lorsqu’un système automatisé est utilisé et comprendre comment et pourquoi il influe sur des décisions qui l’affectent.
5. Tout citoyen devrait bénéficier d’un droit de refus et, si nécessaire, être mis en contact avec une personne capable d’examiner et d’apporter rapidement une réponse au problème qu’il rencontre.
Le Bureau de la technologie du ministère américain de l’Éducation a publié un rapport en mai 2023 sur l’IA et l’avenir de l’enseignement et de l’apprentissage, qui énonce sept recommandations : 1) mettre l’accent sur le rôle de l’humain dans le processus ; 2) aligner les modèles d’IA sur les valeurs communes de l’éducation ; 3) concevoir les modèles selon les principes modernes d’apprentissage ; 4) renforcer la confiance en tant que priorité ; 5) informer et mobiliser les professionnels de l’éducation ; 6) axer la R&D sur la prise en compte du contexte et le renforcement de la confiance et de la sécurité ; 7) élaborer des lignes directrices et des garde-fous spécifiques à l’éducation.
La Corée a défini des « principes éthiques » pour l’utilisation de l’IA ayant les mêmes objectifs (Encadré 8.5). La Nouvelle-Zélande a pour sa part élaboré une charte volontaire à l’intention des organismes publics du pays selon les mêmes principes : explicabilité des algorithmes, transparence sur la sécurité des données, mobilisation des parties prenantes, détection et gestion des biais potentiels en maintenant l’humain « dans la boucle » (Encadré 8.6).
Dans le cadre de sa stratégie « L’intelligence artificielle au service du développement humain », le gouvernement coréen a fixé dix objectifs et lignes directrices pour promouvoir une utilisation éthique de l’intelligence artificielle dans l’éducation :
1. Soutenir le potentiel de développement humain.
Dans le champ de l’éducation, le recours à l’intelligence artificielle doit respecter la dignité humaine et favoriser le développement humain.
2. Garantir l’initiative et la diversité des apprenants.
Le recours à l’IA doit respecter l’individualité et la diversité des apprenants tout en favorisant l’autonomie personnelle.
3. Respecter l’expertise des professionnels de l’éducation.
Le recours à l’IA doit respecter l’expertise des professionnels de l’éducation et permettre de développer et d’utiliser cette expertise.
4. Maintenir des liens forts entre les acteurs de l’éducation.
Soutenir l’établissement de liens positifs entre toutes les parties engagées dans le processus éducatif au moyen d’un ensemble d’activités pédagogiques et didactiques.
5. Garantir l’égalité des chances et l’équité dans l’éducation.
Garantir un accès équitable à l’éducation à tous les membres de la société, quelle que soit leur région d’origine ou situation économique.
6. Encourager la solidarité et la coopération au sein de la communauté éducative.
Promouvoir la collaboration entre l’État, le secteur privé, le milieu universitaire et les instituts de recherche pour l’utilisation de l’IA dans l’éducation et œuvrer en faveur d’un écosystème numérique d’éducation durable.
7. Contribuer à renforcer les valeurs sociales.
Transmettre aux apprenants des valeurs de responsabilité citoyenne, au service du bonheur personnel et du bien commun de la société.
8. Garantir la sécurité des acteurs de l’éducation.
Mettre en place des outils d’IA qui préviennent les risques pouvant résulter des différents procédés d’apprentissage et d’enseignement, qui garantissent la sécurité et définissent clairement les responsabilités des parties dans l’usage de l’IA.
9. Garantir la transparence et l’explicabilité du traitement des données.
Garantir la transparence de la collecte, du nettoyage et de la sélection des données, ainsi que l’explicabilité des algorithmes et des opérations de traitement des données de façon compréhensible pour les acteurs de l’éducation.
10. Utiliser les données à des fins légitimes et protéger la vie privée.
Collecter des données pour développer et utiliser l’IA dans l’éducation de façon appropriée aux finalités recherchées et dans le respect des objectifs éducatifs, et protéger les informations personnelles et domaines relevant de la vie privée des personnes dans le cadre du traitement des données.
Source : SAFE USE OF AI IN EDUCATION (moe.go.kr).
La Nouvelle-Zélande s’est dotée en 2020 d’une charte en matière d’algorithmes dans le cadre d’un écosystème plus large de protection des données. Ces directives définissent un cadre pour une gestion prudente de l’utilisation des algorithmes par l’administration publique, afin de trouver un équilibre entre les principes de transparence et de protection de la vie privée et éviter les biais non intentionnels. En novembre 2023, cette charte a été adoptée par 25 organismes et institutions publics, notamment le ministère de l’Éducation, le Bureau d’évaluation de l’éducation, la Commission de l’enseignement supérieur et le ministère pour la Protection de l’enfance Oranga Tamariki. Les signataires de cette charte ont pris les engagements suivants :
1. Transparence. Maintenir la transparence en expliquant clairement le rôle des algorithmes dans les prises de décision, grâce à :
une documentation claire en anglais sur les algorithmes ;
la mise à disposition des informations sur les données et leur traitement (sauf en cas d’application de restrictions légales) ;
la publication des informations sur les modalités de collecte, de sécurisation et de stockage des données.
2. Partenariat. Procurer des avantages publics clairs au titre des engagements découlant du Traité [de Waitangi] en :
intégrant la perspective Te Ao Māori dans le développement et l’utilisation des algorithmes conformément aux principes énoncés par le Traité de Waitangi.
3. Humain. Axer les pratiques sur l’humain en :
identifiant et mobilisant activement les personnes, les communautés et les groupes ayant un intérêt dans les algorithmes, et consulter les personnes affectées par leur utilisation.
4. Données. S’assurer que les données sont adaptées à l’objectif visé en :
comprenant leurs limitations
détectant et gérant les biais.
5. Vie privée, éthique et droits humains. Garantir la protection de la vie privée, l’éthique et les droits humains grâce à :
un examen régulier par les pairs des algorithmes pour évaluer les conséquences non voulues et intervenir en fonction de ces informations.
6. Supervision humaine. Conserver une supervision humaine en :
désignant un point de contact pour les requêtes publiques concernant les algorithmes
fournissant un moyen de remettre en cause ou de faire appel des décisions fondées sur des algorithmes
expliquant clairement le rôle des humains dans les décisions fondées sur des algorithmes.
Ce chapitre montre que les pays ont tendance à avoir des politiques solides en matière de protection de la vie privée et des données. Tous se sont dotés de réglementations générales de protection de la vie privée et des données et, souvent, dans le domaine de l’éducation en particulier. Si certains pays ont délégué aux établissements la responsabilité de protéger les données, la plupart ont limité les risques d’atteinte à la vie privée par différents moyens, même s’il est rare que l’application de la loi fasse l’objet de contrôles actifs. La plupart ont adopté des politiques d’accès différencié applicables à leurs outils numériques, ce qui limite l’accès aux données personnelles. Certains imposent aux établissements de recruter un responsable de la protection des données (Italie) ou de faire de la protection des données un critère d’inspection des établissements (Irlande). Les technologies elles-mêmes offrent de plus en plus de solutions pour protéger la vie privée, notamment au moyen de couches technologiques permettant de gérer les identités des élèves et des enseignants et d’empêcher l’identification des personnes par des tiers via leurs plateformes numériques.
La plupart des pays procèdent à la désidentification de leurs ensembles de données administratives et en mettent (une partie) à la disposition de la recherche. Même si le risque de ré-identification persiste, l’analyse de ces données offre une valeur incomparable pour améliorer le système et innover. La plupart des pays autorisent un accès partiel à leurs ensembles de données, mais devraient également les répertorier pour rendre possible un usage plus large par la communauté des chercheurs.
Les systèmes d’éducation doivent développer des modèles d’utilisation des données éducatives qui respectent la vie privée et qui peuvent soutenir la recherche et l’amélioration des pratiques d’enseignement et d’apprentissage, dans le but de rehausser le niveau de réussite scolaire et de réduire les écarts de performance. Dans l’état actuel des choses, l’utilisation de données administratives à des fins de suivi et d’évaluation au niveau du système ne pose pas de véritable problème pour la vie privée ou la sécurité des données. Les innovations récentes exigent des informations très granulaires et opportunes pour éclairer la politique et la pratique en éducation, ce qui entraîne souvent une plus grande dépendance à l’égard des données personnelles au niveau individuel, et des risques supplémentaires en matière de protection de la vie privée.
Le défi que doivent relever les institutions de l’éducation est de trouver un équilibre entre la nécessité de protéger les données et celle de donner les moyens à la recherche de progresser et d’imaginer de nouvelles pratiques d’enseignement et d’apprentissage. Il faut mettre en place des garanties suffisantes pour que les acteurs de l’éducation puissent accéder aux données administratives et les utiliser à des fins légitimes et en temps voulu. Cela permettrait de tirer pleinement parti des avantages que peut générer l’utilisation de ces données, aujourd’hui éclipsés par les risques qui pèsent sur la vie privée.
Les systèmes d’éducation peuvent adopter une approche fondée sur la gestion du risque pour répondre aux enjeux politiques de protection des données et de promotion de l’innovation. Une telle approche prend en compte la diversité des utilisations des registres de données personnelles dans le domaine de l’éducation, leurs avantages potentiels, et les risques qui les accompagnent sur le plan de la vie privée, tout en permettant de concilier les préoccupations légitimes concernant le respect de la vie privée et les avantages d’une utilisation des données sur l’éducation pour améliorer les résultats dans le domaine. Les pouvoirs publics dans les pays de l’OCDE sont de plus en plus nombreux à adopter cette approche en matière de sécurité numérique (OECD, 2016[17]), conformément aux préconisations des Lignes directrices de l'OCDE sur la protection de la vie privée et les flux transfrontières de données de caractère personnel (OECD, 2013[2]) et de la Recommandation de l’OCDE sur la gestion du risque de sécurité numérique pour la prospérité économique et sociale (OECD, 2015[52]).
Une première étape dans ce sens consiste à renoncer à éliminer totalement le risque lié à l'utilisation des données sur l’éducation. Sauf à faire totalement abstraction de la valeur analytique des données collectées, les scénarios ne prévoyant aucun risque pour le respect de la vie privée ne sont pas réalistes. Réduire la granularité des données pour protéger la vie privée risque de nuire à leur précision et de limiter leur utilité. La gestion du risque implique d’accepter la présence d'un risque résiduel pour la vie privée dans toute publication de données utiles, et d’évaluer et d’adopter les mesures de protection de la vie privée les mieux adaptées à la lumière des utilisations de données prévues et des menaces potentielles. L’un des objectifs de la gestion du risque doit porter sur les contrôles en matière d’accès, de partage et d’utilisation des données, plutôt que sur les étapes de collecte et de transformation (Elliot et al., 2016[53] ; Altman et al., 2015[54]).
Un large éventail d'outils et de stratégies existants permettent la mise en œuvre d’une approche de gestion des risques en matière de respect de la vie privée. Nombre de ces stratégies sont déjà appliquées dans d’autres secteurs où les organismes des pouvoirs publics procèdent à des partages massifs de données à des fins de recherche et d'évaluation, plus particulièrement dans la santé (OECD, 2013[55] ; OECD, 2015[56]), notamment les solutions centrées sur les données (qui consistent à traiter les données avant leur partage ou publication) et les solutions basées sur la gouvernance (qui consistent à appliquer des contrôles sur l’accès et l’utilisation des données). Pour être efficace, la protection des données doit combiner ces deux types de stratégies.
La gouvernance des algorithmes qui sous-tendent les outils et ressources numériques en éducation, plus récente, gagne en pertinence avec l’avancée de la numérisation des systèmes d’éducation. À cet égard également, l’approche de gestion du risque doit être préconisée. Le risque principal lié aux algorithmes concerne les biais qu’ils peuvent véhiculer et qui sont susceptibles de fonctionner différemment ou de produire des résultats différents en fonction des groupes de populations. Baker (2023[36]) expose les travaux de recherche actuels sur les biais algorithmiques et enjoint les pays à trouver une juste mesure entre la protection de la vie privée et des données et les éventuels biais algorithmiques, puisque ceux-ci nécessitent la collecte de données personnelles (parfois sensibles) pour être détectés et traités.
Le deuxième risque porte sur l’efficacité des technologies intelligentes en matière de prise de décisions automatisées ou de recommandations sur des sujets à fort enjeu. Si les algorithmes présentent l’avantage d’appliquer des règles avec une rigueur systématique, ils nécessitent une supervision humaine, et il faut prouver leur efficacité lorsqu’ils servent à prendre des décisions à fort enjeu pour les individus.
Enfin, le troisième risque porte sur l’acceptation sociale et la confiance publique. Pour répondre à ces problématiques, les approches possibles consistent à expliquer et rendre public le fonctionnement des technologies intelligentes et les modalités de traitement des données, notamment auprès des acteurs de l’éducation. Ainsi, il est plus que jamais nécessaire d’être transparent sur le fonctionnement des algorithmes (question de l’explicabilité), ainsi que sur leur valeur et les critères sur lesquels ils se fondent.
Ces objectifs forment le fondement de la plupart des lignes directrices et principes existants en la matière, notamment le chapitre 16 « Perspectives, lignes directrices et garde-fous pour une utilisation efficace et équitable de l'IA dans l’éducation » (voir (OECD, 2023[1]).
Les décisions concernant les cas dans lesquels la technologie doit être réglementée en tant que telle et les grands principes qui doivent s’appliquer pourraient faire l’objet de débats dans les forums de discussions internationaux. Les pays peuvent recourir à d’autres types de politiques pour répondre à ces problématiques et garantir la disponibilité des outils numériques utiles aux acteurs de l’éducation. Ils peuvent en effet intégrer des critères de fonctionnement ou d’équité des outils numériques à leurs procédures de passation de marchés publics.
Les politiques de protection des données et de la vie privée applicables à l’utilisation des outils et ressources numériques pèsent de plus en plus sur les responsabilités de chefs d’établissement et personnels scolaires. La plupart des pays devraient également fournir aux établissements scolaires des directives pour expliquer la législation, avec des exemples et des études de cas. Le plus souvent, les pays adoptent une approche réactive en cas de plaintes ou d’atteinte à la vie privée. Il est possible d’apaiser les craintes que soulève l’utilisation des outils et ressources numériques et de susciter davantage de confiance dans la façon dont les établissements traitent les données, en imposant différents types de contrôles, non seulement pour sanctionner les manquements, mais également pour développer les capacités des parties prenantes.
Si la protection des données et de la vie privée est un impératif, elle devrait également être la condition et le catalyseur d’une transformation numérique de l’éducation digne de confiance.
[4] Abrams, M. (2014), The Origins of Personal Data and its Implications for Governance, The Information Accountability Foundation, http://informationaccountability.org/wp-content/uploads/Data-Origins-Abrams.pdf (consulté le 12 avril 2018).
[54] Altman, M., A. Wood, D. O'Brien, S. Vadhan et U. Gasser (2015), « Towards a Modern Approach to Privacy-Aware Government Data Releases », Berkeley Technology Law Journal, vol. 30/3, pp. 1967-2072, https://doi.org/10.15779/Z38FG17.
[42] Baker, R. (2021), « Artificial intelligence in education: Bringing it all together », dans OECD Digital Education Outlook 2021 : Pushing the Frontiers with Artificial Intelligence, Blockchain and Robots, OECD Publishing, Paris, https://doi.org/10.1787/f54ea644-en.
[36] Baker, R., A. Hawn et S. Lee (2023), « The state of the situation and policy recommendations for algorithmic bias », dans Digital Education Outlook 2023, OECD Publishing.
[25] Boninger, F. et A. Molnar (2016), Learning to be Watched: Surveillance Culture at School, National Education Policy Center, Boulder, CO, http://nepc.colorado.edu/publication/schoolhouse-commercialism-2015.
[5] Buckley, J., L. Colosimo, R. Kantar, M. McCall et E. Snow (2021), « Game-based assessment for education », dans OECD Digital Education Outlook 2021 : Pushing the Frontiers with Artificial Intelligence, Blockchain and Robots, OECD Publishing, Paris, https://doi.org/10.1787/9289cbfd-en.
[30] Burns, T. et F. Gottschalk (dir. pub.) (2019), Child protection online, Educating 21st Century Children : Emotional Well-being in the Digital Age, OECD Publishing, Paris, https://doi.org/10.1787/b7f33425-en.
[57] Calo, R. (2011), « The Boundaries of Privacy Harm », Indiana Law Journal, vol. 86/3, https://www.repository.law.indiana.edu/ilj/vol86/iss3/8/.
[41] Cavoukian, A. et K. El Emam (2011), Dispelling the Myths Surrounding De-identification: Anonymization Remains a Strong Tool for Protecting Privacy, http://www.ipc.on.ca/images/Resources/anonymization.pdf.
[37] Commission Nationale de l’Informatique et des Libertés (2017), Rapport d’activité 2017, https://www.cnil.fr/sites/default/files/atoms/files/cnil-38e_rapport_annuel_2017.pdf (consulté le 7 novembre 2019).
[43] D’Mello, S. (2021), « Improving student engagement in and with digital learning technologies », dans OECD Digital Education Outlook 2021 : Pushing the Frontiers with Artificial Intelligence, Blockchain and Robots, OECD Publishing, Paris, https://doi.org/10.1787/8a451974-en.
[29] Data Quality Campaign (2017), Education Data Legislation Review The Role of State Legislation, Data Quality Campaign, Washington, DC, https://2pido73em67o3eytaq1cp8au-wpengine.netdna-ssl.com/wp-content/uploads/2017/09/DQC-Legislative-summary-0926017.pdf (consulté le 9 janvier 2018).
[13] de Montjoye, Y., C.A. Hidalgo, M. Verleysen et V. Blondel. (2013), « Unique in the Crowd: The privacy bounds of human mobility », Scientific Reports, vol. 3/1, p. 1376, https://doi.org/10.1038/srep01376.
[12] de Montjoye, Y., L. Radaelli, V.K. Singh et A.S. Pentland (2015), « Unique in the shopping mall: on the reidentifiability of credit card metadata. », Science, vol. 347/6221, pp. 536-9, https://doi.org/10.1126/science.1256297.
[44] Dillenbourg, P. (2021), « Classroom analytics: Zooming out from a pupil to a classroom », dans OECD Digital Education Outlook 2021 : Pushing the Frontiers with Artificial Intelligence, Blockchain and Robots, OECD Publishing, Paris, https://doi.org/10.1787/336f4ebf-en.
[11] Duhigg, C. (2012), « How Companies Learn Your Secrets - The New York Times », The New York Times, http://www.nytimes.com/2012/02/19/magazine/shopping-habits.html (consulté le 5 février 2018).
[15] Dwork, C., A. Smith, T. Steinke et J. Ullman (2017), « Exposed! A Survey of Attacks on Private Data », Annual Review of Statistics and Its Application, vol. 4/1, pp. 61-84, https://doi.org/10.1146/annurev-statistics-060116-054123.
[39] Dynarski, S. et M. Berends (2015), « Introduction to Special Issue: Research Using Longitudinal Student Data Systems: Findings, Lessons, and Prospects », Educational Evaluation and Policy Analysis, vol. 37/1, https://doi.org/10.3102/0162373715575722.
[53] Elliot, M., E. Mackey, K. O'Hara et C. Tudor (2016), The anonymisation decision-making framework, UK Anonymisation Network, Manchester, http://ukanon.net/wp-content/uploads/2015/05/The-Anonymisation-Decision-making-Framework.pdf (consulté le 4 janvier 2018).
[32] EU Data Protection Working Party (2017), Guidelines on Automated individual decision-making and Profiling for the purposes of Regulation 2016/679, European Commission, http://ec.europa.eu/justice/data-protection/index_en.htm.
[21] European Commission (2019), Europeans’ attitudes towards cyber security; Special Eurobarometer 499, European Union, October.
[49] European Parliament (2021), Artificial Intelligence Act, https://www.europarl.europa.eu/doceo/document/TA-9-2023-0236_EN.html (consulté le 26 août 2023).
[16] Executive Office of the President (2014), Big Data and Privacy: A Technological Perspective, President’s Council of Advisors on Science and Technology, https://obamawhitehouse.archives.gov/sites/default/files/microsites/ostp/PCAST/pcast_big_data_and_privacy_-_may_2014.pdf (consulté le 25 juin 2018).
[38] Figlio, D., K. Karbownik et K. Salvanes (2016), « Education Research and Administrative Data », dans Handbook of the Economics of Education, Elsevier, https://doi.org/10.1016/B978-0-444-63459-7.00002-6.
[33] Future of Privacy Forum (2017), Unfairness by Algorithm: Distilling the Harms of Automated Decision-Making, Future of Privacy Forum, Washington. DC.
[6] García, D., M. Goel, A. Agrawal et P. Kumaraguru (2018), « Collective aspects of privacy in the Twitter social network », EPJ Data Science, vol. 7/1, p. 3, https://doi.org/10.1140/epjds/s13688-018-0130-3.
[58] Golle, P. (2006), Revisiting the Uniqueness of Simple Demographics, https://crypto.stanford.edu/~pgolle/papers/census.pdf.
[8] Groves, R. et B. Harris-Kojetin (dir. pub.) (2017), Federal Statistics, Multiple Data Sources, and Privacy Protection, National Academies Press, Washington, D.C., https://doi.org/10.17226/24893.
[34] Information Commissioner’s Office (2017), Feedback request – profiling and automated decision-making.
[19] Information is Beautiful (2019), World’s Biggest Data Breaches and Hacks, https://informationisbeautiful.net/visualizations/worlds-biggest-data-breaches-hacks/ (consulté le 23 octobre 2019).
[20] Jardine, E. (2015), Global Cyberspace Is Safer than You Think: Real Trends in Cybercrime, Global Commission on Internet Governance, https://www.cigionline.org/sites/default/files/no16_web_0.pdf (consulté le 5 février 2018).
[10] Narayanan, A. et V. Shmatikov (2008), Robust De-anonymization of Large Sparse Datasets, IEEE Computer Society, Washington, DC, https://doi.org/10.1109/SP.2008.33.
[7] NCES (2011), Data Stewardship: Managing Personally Identifiable Information in Electronic Student Education Records, National Centre for Education Statistics (NCES).
[1] OECD (2023), OECD Digital Education Outlook 2023: Towards an Effective Digital Education Ecosystem, OECD Publishing, Paris, https://doi.org/10.1787/c74f03de-en.
[45] OECD (2023), OECD Digital Education Outlook 2023: Towards an Effective Digital Education Ecosystem, OECD Publishing, Paris, https://doi.org/10.1787/c74f03de-en.
[48] OECD (2023), « Regulatory sandboxes in artificial intelligence », OECD Digital Economy Papers, n° 356, OECD Publishing, Paris, https://doi.org/10.1787/8f80a0e6-en.
[35] OECD (2021), OECD Digital Education Outlook 2021: Pushing the Frontiers with Artificial Intelligence, Blockchain and Robots, OECD Publishing, Paris, https://doi.org/10.1787/589b283f-en.
[46] OECD (2019), « OECD AI Principles overview », OECD.AI Policy Observatory, https://oecd.ai/en/ai-principles.
[17] OECD (2016), « Managing Digital Security and Privacy Risk », OECD Digital Economy Papers, n° 254, OECD Publishing, Paris, https://doi.org/10.1787/5jlwt49ccklt-en.
[52] OECD (2015), Digital Security Risk Management for Economic and Social Prosperity: OECD Recommendation and Companion Document, OECD Publishing, Paris, https://doi.org/10.1787/9789264245471-en.
[56] OECD (2015), Health Data Governance: Privacy, Monitoring and Research, OECD Health Policy Studies, OECD Publishing, Paris, https://doi.org/10.1787/9789264244566-en.
[2] OECD (2013), OECD Revised Guidelines on the Protection of Privacy and Transborder Flows of Personal Data, http://www.oecd.org/sti/ieconomy/oecd_privacy_framework.pdf (consulté le 12 janvier 2018).
[55] OECD (2013), Strengthening Health Information Infrastructure for Health Care Quality Governance: Good Practices, New Opportunities and Data Privacy Protection Challenges, OECD Publishing, Paris, https://doi.org/10.1787/9789264193505-en.
[3] OECD (2013), The OECD Privacy Framework, https://www.oecd.org/sti/ieconomy/oecd_privacy_framework.pdf.
[50] Office of Education Technology (OET) (2023), AI and the Future of Teaching and Learning, https://tech.ed.gov/files/2023/05/ai-future-of-teaching-and-learning-report.pdf.
[40] Office of Management and Budget (United States) (2016), Commission on Evidence based Policymaking, https://obamawhitehouse.archives.gov/omb/management/commission_evidence (consulté le 24 novembre 2023).
[18] Office of the Privacy Commissioner of Canada (2015), Privacy Act Annual Report to Parliament 2014-15, Office of the Privacy Commissioner of Canada, https://www.priv.gc.ca/en/opc-actions-and-decisions/ar_index/201415/201415_pa/#heading-0-0-2 (consulté le 13 avril 2018).
[22] Pew Research Center (2023), Growing public concern about the role of artificial intelligence in daily life, https://www.pewresearch.org/short-reads/2023/08/28/growing-public-concern-about-the-role-of-artificial-intelligence-in-daily-life/ (consulté le 29 août 2023).
[23] Pew Research Center (2019), Americans and Privacy: Concerned, Confused and Feeling Lack of Control Over Their Personal Information, https://www.pewresearch.org/internet/2019/11/15/americans-and-privacy-concerned-confused-and-feeling-lack-of-control-over-their-personal-information/ (consulté le 29 août 2023).
[24] Polonetski, J. et J. Jerome (2014), Student Data: Trust, Transparency, and the Role of Consent, Future or Privacy Forum.
[14] Rocher, L., J. Hendrickx et Y. de Montjoye (2019), « Estimating the success of re-identifications in incomplete datasets using generative models », Nature Communications, vol. 10/1, https://doi.org/10.1038/s41467-019-10933-3.
[26] Singer, N. (2017), « How Google Took Over the Classroom », New York Times, https://www.nytimes.com/2017/05/13/technology/google-education-chromebooks-schools.html.
[28] Singer, N. (2014), « With Tech Taking Over in Schools, Worries Rise », The New York Times, https://www.nytimes.com/2014/09/15/technology/with-tech-taking-over-in-schools-worries-rise.html (consulté le 25 janvier 2018).
[31] Solove, D. (2006), « A Taxonomy of Privacy », University of Pennsylvania Law Review, vol. 154/3, pp. 477-560, https://www.law.upenn.edu/journals/lawreview/articles/volume154/issue3/Solove154U.Pa.L.Rev.477(2006).pdf (consulté le 15 mars 2018).
[9] Sweeney, L. (1997), « Weaving Technology and Policy Together to Maintain Confidentiality », The Journal of Law, Medicine & Ethics, vol. 25/2-3, pp. 98-110, https://doi.org/10.1111/j.1748-720X.1997.tb01885.x.
[47] UNESCO (2021), Recommendation on the Ethics of Artificial Intelligence, https://unesdoc.unesco.org/ark:/48223/pf0000380455.
[51] White House Office of Science and Technology Policy (WHOSTP) (2022), Blueprint for an AI Bill of Rights: Making Automated Systems Work for the American People, White House, https://www.whitehouse.gov/wp-content/uploads/2022/10/Blueprint-for-an-AI-Bill-of-Rights.pdf.
[27] Zeide, E. et H. Nissenbaum (2018), « Learner Privacy in MOOCs and Virtual Education », Theory and Research in Education, vol. 16/3, pp. 280-307, https://doi.org/10.1177/1477878518815340.
← 1. Une étude de suivi a montré que plus de 50 % de la population aux États-Unis peuvent être personnellement identifiés à partir de ces trois types d’information (Golle, 2006[58]).
← 2. Voir l’article sur le blog de Melanie Lazare (février 2021) : https://blog.google/outreach-initiatives/education/classroom-roadmap/#:~:text=Over%20the%20last%20year%2C%20the,from%2040%20million%20last%20year Et https://www.digitaltrends.com/web/google-g-suite-70-million/.
← 3. https://edu.google.com/k-12-solutions/privacy-security [consulté le 23/08/2018]
← 4. Il faut faire la distinction entre les atteintes (ou violations) à la vie privée et les préjudices potentiels. Les atteintes à la vie privée n’entraînent pas toutes un préjudice, et l’on peut être victime d’un préjudice sans qu’il y ait eu une violation de la vie privée. Calo (2011[57]) opère une distinction entre les préjudices de nature objective et subjective. Les préjudices subjectifs désignent des états émotionnels indésirables, comme l’embarras ou la crainte née d’une remarque inopportune. Les préjudices objectifs découlent d’un usage imprévu ou forcé d’informations sur une personne dans le but de lui nuire, comme l’usurpation d’identité.
← 5. Différentes stratégies sont utilisées pour rendre non identifiables des données qui permettent initialement d’identifier la personne concernée. La « désidentification » désigne le processus qui consiste à supprimer ou masquer les identifiants personnels, qu’ils soient directs ou indirects. L’« anonymisation » est un concept plus général qui englobe diverses autres techniques statistiques limitant la divulgation ainsi que des réglementations en matière d’accès et d’utilisation des données. Voir le glossaire pour plus de détail.
← 6. La ré-identification désigne le processus qui consiste à retrouver l’identité d’une personne à partir d’un ensemble de données où cette information ne figurait pas initialement. Ce processus est mené sans le consentement de la personne concernée et constitue donc une atteinte à sa vie privée.