La base de données PISA contient l'ensemble des réponses des élèves, des directeurs d'école et des parents. Un bref résumé expliquant comment préparer les fichiers de données PISA dans un format prêt à être utilisé pour l'analyse est présenté ici.
PISA Research Documentation: Comment préparer et analyser la base de données PISA
This page summarises the main steps of using the PISA database. It describes the PISA data files and explains the specific features of the PISA survey together with its analytical implications. This document also offers links to existing documentations and resources (including software packages and pre-defined macros) for accurately using the PISA data files.
Préparation de la base de données PISA
Les fichiers disponibles sur le site web PISA comprennent les questionnaires de base, les fichiers de données au format ASCII (de 2000 à 2012), les dictionnaires de variables, les compendiums et les fichiers de données SAS et SPSS afin de traiter les données.
Pour les bases de données générées de 2000 à 2012, tous les fichiers de données (en format texte) et les fichiers de contrôle SAS ou SPSS correspondants peuvent être téléchargés à partir du site web PISA. Les utilisateurs de SAS ou de SPSS doivent exécuter les fichiers de contrôle SAS ou SPSS afin de générer les fichiers de données PISA au format SAS ou SPSS respectivement. Avant de commencer l'analyse, il est généralement recommandé de sauvegarder et d'exécuter les fichiers de données PISA et les fichiers de contrôle SAS ou SPSS dans des dossiers spécifiques à l'année, par exemple les fichiers de données PISA 2003 dans « c:\pisa2003\data\ ».
Pour générer des bases de données à partir de 2015, les fichiers de données PISA sont disponibles au format SAS et SPSS (en .sas7bdat ou .sav) et peuvent être directement téléchargés à partir du site web PISA.
Les principaux fichiers de données sont les ensembles de données relatives à l'élève, à l'école et à la cognition. Ces fichiers de données sont disponibles pour chaque cycle PISA (PISA 2000 - PISA 2022). Depuis 2006, des fichiers de données sur les parents et les processus, depuis 2012, des fichiers de données sur la littératie financière et, depuis 2015, un fichier de données sur les enseignants sont proposés aux utilisateurs des données PISA.
Les fichiers de données sur les élèves sont les principaux fichiers de données. Outre les réponses des élèves au(x) questionnaire(s), telles que les réponses au questionnaire principal de l'élève, aux questionnaires sur le parcours scolaire, les TIC (technologies de l'information et de la communication), ils comprennent, pour chaque élève, des valeurs plausibles pour les domaines cognitifs, les scores aux indices des questionnaires, les pondérations et les pondérations de rééchantillonnage.
Les fichiers de données sur les écoles contiennent des informations fournies par les directeurs des écoles participantes, tandis que le fichier de données sur les enseignants contient des instruments collectés par le biais du questionnaire destiné aux enseignants. Les réponses au questionnaire parental sont stockées dans les fichiers de données parentales.
Les fichiers de données cognitives comprennent les réponses codées (crédit complet, crédit partiel, sans crédit) pour chaque item du test PISA. En 2012, deux fichiers de données cognitives sont disponibles pour les utilisateurs de données PISA.
Le fichier de données de réponse aux items cognitifs inclut les réponses codées (crédit complet, crédit partiel, sans crédit), tandis que le fichier de données de réponse aux items cognitifs notés contient des scores au lieu de catégories pour les réponses codées (où le non-crédit est le score 0, et le crédit complet est typiquement le score 1). Le test cognitif est devenu informatisé dans la plupart des pays et économies participant à l'enquête PISA en 2015 ; ainsi, à partir de 2015, le fichier de données cognitives contient des informations supplémentaires sur le comportement des élèves lors de la passation du test, telles que les réponses brutes, le temps passé sur la tâche et le nombre d'étapes franchies par les élèves avant de donner leurs réponses finales.
Les fichiers de données sur la culture financière contiennent des informations provenant du questionnaire sur la culture financière et du test cognitif sur la culture financière.
En 2015, une base de données pour le domaine innovant, la résolution collaborative de problèmes, est disponible et contient des informations sur les items cognitifs du test.
Dans les tests informatisés, les machines gardent une trace (dans des fichiers journaux) - et, si on le leur demande, peuvent analyser - toutes les étapes et les actions que les élèves entreprennent pour trouver une solution à un problème donné. Depuis 2012, les fichiers de données de processus (ou fichiers journaux) sont disponibles pour les utilisateurs de données et contiennent des informations détaillées sur les items cognitifs informatisés en mathématiques, compréhension de l’écrit et résolution de problèmes. L'étude de Greiff, Wüstenberg et Avvisati (2015) et les chapitres 4 et 7 du rapport Students, Computers and Learning: Making the Connection fournissent des exemples illustratifs sur la façon d'utiliser ces fichiers de données de traitement à des fins analytiques. Toutes les autres données des fichiers journaux sont considérées comme confidentielles et ne peuvent être consultées que sous certaines conditions. Les chercheurs qui souhaitent accéder à ces fichiers devront obtenir l'aval d'un représentant du CDP pour le faire. Pour plus d'informations, veuillez contacter edu.pisa@oecd.org.
Pour effectuer des analyses spécifiques, telles que des estimations au niveau de l'école, il peut être nécessaire de fusionner les fichiers de données PISA. (Veuillez noter que les noms des variables peuvent légèrement différer d'un cycle PISA à l'autre. Les exemples ci-dessous proviennent de la base de données PISA 2015).
- Pour fusionner le fichier de données de l'élève avec le(s) fichier(s) de données de l'école et/ou de l'enseignant, utilisez le code pays à 3 caractères (nom de variable : CNT dans le fichier de données PISA 2015) et l'identifiant international de l'école (nom de variable : CNTSCHID dans le fichier de données PISA 2015) pour effectuer le processus de fusion.
- Pour fusionner le fichier de données de l'élève avec le fichier de données des parents, utilisez le code de pays à 3 caractères (nom de variable : CNT dans le fichier de données de l'enquête PISA 2015) et l'identifiant international de l'élève (nom de variable : CNTSTUID dans le fichier de données de l'enquête PISA 2015) pour effectuer le processus de fusion.
- Pour fusionner le fichier de données sur les élèves avec le(s) fichier(s) de données cognitives ou sur la littératie financière, utilisez le code de pays à 3 caractères (nom de variable : CNT dans le fichier de données PISA 2015), l'identifiant international de l'école (nom de variable : CNTSCHID dans le fichier de données PISA 2015) et l'identifiant international de l'élève (nom de variable : CNTSTUID dans le fichier de données PISA 2015) pour effectuer le processus de fusion.
Méthodologie d'analyse de la base de données PISA
L'enquête PISA collecte des données à partir d'un échantillon et non sur l'ensemble de la population des élèves de 15 ans. L'échantillon a été constitué afin d'éviter tout biais dans la procédure de sélection et d'obtenir une précision maximale compte tenu des ressources disponibles (pour plus d'informations, voir le chapitre 3 du PISA Data Analysis Manual: SPSS and SAS, deuxième édition - en anglais seulement).
En pratique, cela signifie que l'estimation d'un paramètre de population nécessite (1) l'utilisation de poids associés à l'échantillonnage et (2) le calcul de l'incertitude due à l'échantillonnage (l'erreur-type du paramètre).
Utiliser les poids finaux des élèves pour obtenir des estimations non biaisées des paramètres
Toutes les analyses utilisant des données PISA doivent être pondérées, car les analyses non pondérées fourniront des estimations biaisées des paramètres de population. Dans les fichiers PISA 2015, la variable w_schgrnrabwt correspond aux poids finaux des élèves qui doivent être utilisés pour calculer des statistiques non biaisées au niveau du pays.
La somme des poids finaux des élèves correspond à la taille de la population d'intérêt. Lorsque l'analyse porte sur plusieurs pays, cela signifie que les pays où le nombre d'étudiants de 15 ans est plus élevé contribueront davantage à l'analyse. C'est pourquoi, dans certains cas, l'analyste peut préférer utiliser des poids sénatoriaux, c'est-à-dire des poids qui ont été remis à l'échelle afin d'obtenir la même valeur constante dans chaque pays. Chaque pays contribuera ainsi de manière égale à l'analyse.
Utiliser des poids répétés pour obtenir des erreurs types non biaisées
Une statistique calculée à partir d'un échantillon fournit une estimation du paramètre réel de la population. Il convient donc de calculer son erreur type, qui donne une indication de la fiabilité de ces estimations - l'erreur type nous indique dans quelle mesure les statistiques obtenues à partir de cet échantillon sont proches des statistiques réelles pour l'ensemble de la population. Ces estimations de l'erreur type pourraient être utilisées, par exemple, pour signaler des différences statistiquement significatives entre pays ou à l'intérieur d'un même pays.
Le plan d'échantillonnage de l'enquête PISA étant complexe, les estimations de l'erreur type fournies par les procédures statistiques courantes sont généralement biaisées. En outre, le calcul mathématique des variances d'échantillonnage n'est pas toujours possible pour certains indices multivariés. Pour ces raisons, l'estimation des variances d'échantillonnage dans l'enquête PISA repose sur des méthodologies de réplication, plus précisément une réplication Bootstrap avec la modification de Fay (pour plus de détails, voir le chapitre 4 du PISA Data Analysis Manual: SAS or SPSS, deuxième édition (seulement en anglais) ou le guide associé « Computation of standard-errors for multistage samples » - disponible seulement en anglais). Le principe général de ces méthodes consiste à utiliser plusieurs répliques de l'échantillon original (obtenu par échantillonnage avec remplacement) afin d'estimer l'erreur d'échantillonnage. La statistique d'intérêt est d'abord calculée sur l'ensemble de l'échantillon, puis à nouveau pour chaque réplicat. Les estimations des réplicats sont ensuite comparées à l'estimation de l'échantillon entier afin d'estimer la variance d'échantillonnage.
Dans PISA, 80 échantillons répétés sont calculés - et pour chacun d'entre eux, un ensemble de poids est également calculé.
En pratique, cela signifie qu'il faut estimer la statistique d'intérêt en utilisant le poids final comme décrit ci-dessus, puis à nouveau en utilisant les poids répliqués (dénotés par w_fsturwt1- w_fsturwt80 dans PISA 2015, w_fstr1- w_fstr80 dans les cycles précédents). L'erreur type est alors proportionnelle à la moyenne des différences au carré entre l'estimation principale obtenue dans les échantillons originaux et celles obtenues dans les échantillons répliqués (pour plus de détails sur le calcul de la moyenne sur plusieurs pays, voir le chapitre 12 du PISA Data Analysis Manual: SAS or SPSS, deuxième édition - seulement en anglais).
Des procédures et des macros sont développées afin de calculer ces erreurs types dans le cadre spécifique de PISA (voir ci-dessous pour une description détaillée).
L'enquête PISA rend compte de la performance des élèves par le biais de valeurs plausibles (PV), obtenues à partir de modèles de la théorie des réponses aux items (pour plus de détails, voir le chapitre 5 du PISA Data Analysis Manual: SAS or SPSS, deuxième édition (en anglais) ou le guide associé (en anglais) « Scaling of Cognitive Data and Use of Students Performance Estimates »). Le principe général de ces modèles est d'inférer la capacité d'un élève à partir de sa performance aux tests. Dans la pratique, des valeurs plausibles sont générées par le biais d'imputations multiples basées sur les réponses des élèves au sous-ensemble de questions du test qui leur ont été attribuées de manière aléatoire et sur leurs réponses aux questionnaires de base.
L'enquête PISA est conçue pour fournir des statistiques sommaires sur la population concernée dans chaque pays et sur les corrélations simples entre les variables clés (par exemple, entre le statut socio-économique et la performance des élèves). L'enquête PISA n'est pas conçue pour fournir des statistiques optimales sur les élèves au niveau individuel.
L'utilisation de valeurs plausibles a des implications importantes pour l'analyse des données de l'enquête PISA :
Pour chaque élève, un ensemble de valeurs plausibles est fourni, qui correspond à des tirages distincts dans la distribution plausible des capacités de ces élèves. Dans les premiers cycles de PISA, cinq valeurs plausibles sont attribuées à chaque élève sur chaque échelle de performance - et depuis PISA 2015, dix valeurs plausibles sont fournies par élève. Une analyse précise exige de faire la moyenne de toutes les statistiques sur cet ensemble de valeurs plausibles.
Les valeurs plausibles ne doivent pas être moyennées au niveau de l'élève, c'est-à-dire en calculant dans l'ensemble de données la moyenne des cinq ou dix valeurs plausibles au niveau de l'élève, puis en calculant la statistique d'intérêt une seule fois à l'aide de cette valeur plausible moyenne. En outre, même si un ensemble de valeurs plausibles est fourni pour chaque domaine, l'utilisation de modèles à effets fixes pour les élèves n'est pas conseillée, car le niveau d'erreur de mesure au niveau individuel peut être important.
En pratique, une méthode précise et efficace de mesure des estimations de compétences dans PISA nécessite cinq étapes :
- Calculer les estimations pour chaque valeur plausible (VP)
- Calculer l'estimation finale en faisant la moyenne de toutes les estimations obtenues à partir de (1)
- Calcul de la variance d'échantillonnage (une estimation non biaisée est fournie en utilisant une seule valeur plausible)
- Calcul de la variance d'imputation (variance de l'erreur de mesure, estimée pour chaque VP et ensuite moyenne sur l'ensemble des VP)
- Calculer l'erreur type finale en combinant (3) et (4).
Les utilisateurs trouveront des informations supplémentaires, notamment en ce qui concerne le calcul des niveaux de compétence ou des tendances entre plusieurs cycles de l'enquête PISA, dans le PISA Data Analysis Manual: SAS or SPSS, deuxième édition (en anglais).
Logiciels et macros pour l'analyse de la base de données PISA
Plusieurs outils et logiciels permettent d'analyser la base de données PISA. Ces progiciels permettent notamment aux utilisateurs des données PISA de calculer les erreurs types et les statistiques en tenant compte des caractéristiques complexes du plan d'échantillonnage PISA (utilisation de poids de rééchantillonnage, valeurs plausibles pour les scores de performance).
Des macros SPSS prédéfinies sont développées pour exécuter divers types d'analyses et pour configurer correctement les paramètres requis, tels que le nom des poids. Ces macros sont disponibles sur le site web de l'enquête PISA pour reproduire en toute confiance les procédures utilisées pour la production des résultats de l'enquête PISA ou pour entreprendre avec précision de nouvelles analyses dans des domaines d'intérêt particulier. Chapitre 17 (SAS) / Chapitre 17 (SPSS) du PISA Data Analysis Manual: SAS or SPSS, deuxième édition (en anglais) offre une description détaillée de chaque macro.
The PISA Data Analysis Manual: SAS or SPSS, deuxième édition (en anglais) fournit également une description détaillée sur la manière de calculer les scores de compétences PISA, les erreurs types, l'écart type, les niveaux de compétence, les percentiles, les coefficients de corrélation, les tailles d'effet, ainsi que la manière d'effectuer une analyse de régression à l'aide des données PISA via SAS ou SPSS.
- Télécharger la macro SAS avec 5 valeurs plausibles (Veuillez noter que la macro pour le calcul des scores PISA de PISA 2000 à 2012 est disponible avec 5 valeurs plausibles parmi les macros liées. À partir de 2015, 10 valeurs plausibles doivent être utilisées pour générer les scores de performance PISA. Téléchargez la macro SAS avec 10 valeurs plausibles.
- PISA Data Analysis Manual: SAS, Second Edition (en anglais)
- Télécharger la SPSS Macros (Veuillez noter que la macro pour le calcul des scores PISA est disponible avec 5 valeurs plausibles, et elle n'a pas encore été mise à jour pour calculer les données PISA 2015 avec 10 valeurs plausibles)
- PISA Data Analysis Manual: SPSS, Second Edition (en anglais)
L'IEA International Database Analyzer (IDB Analyzer) est une application développée par le Centre de recherche et de traitement des données de l'AIE (IEA-DPC) qui peut être utilisée pour analyser les données PISA parmi d'autres évaluations internationales à grande échelle.
L'IDB Analyzer est un outil basé sur Windows qui crée un code SAS ou une syntaxe SPSS pour effectuer des analyses avec les données PISA. Le code SAS ou la syntaxe SPSS générés prennent en compte les informations du plan d'échantillonnage dans le calcul de la variance d'échantillonnage et traitent également les valeurs plausibles.
Le code généré par IDB Analyzer peut calculer des statistiques descriptives, telles que des pourcentages, des moyennes, des niveaux de compétence, des corrélations, des percentiles et des modèles de régression linéaire. L'outil permet de tester des hypothèses statistiques parmi les groupes de la population sans avoir à écrire de code de programmation.
Le progiciel « repest » développé par l'OCDE permet aux utilisateurs de Stata d'analyser PISA parmi d'autres enquêtes internationales à grande échelle de l'OCDE, telles que PIAAC et TALIS. « Repest » calcule les statistiques estimées en utilisant des poids répliqués, ce qui permet de tenir compte des plans d'enquête complexes dans l'estimation des variances d'échantillonnage. Le progiciel permet également d'effectuer des analyses avec des variables multi imputées (valeurs plausibles) ; lorsque des valeurs plausibles sont utilisées, l'estimateur moyen des valeurs plausibles est indiqué et l'erreur d'imputation est ajoutée à l'estimateur de la variance. « Repest » est un paquetage standard de Stata et est disponible depuis SSC (tapez « ssc install repest » dans Stata pour ajouter « repest »).
- Stata repest package description
- Stata repest repository (comprend un « Aide-mémoire » et une section « Pour commencer ».)
Le progiciel Rrepest, également développé par l'OCDE, offre des possibilités similaires à celles du progiciel Stata repest, mais il est plus rapide - en particulier dans les environnements de serveurs - grâce à l'utilisation de l'informatique parallèle.
- Rrepest repository (comprend un « Aide-mémoire », liens à la documentation et examples)
- Rrepest package description and manual (CRAN)
Le progiciel R intsvy permet aux utilisateurs de R d'analyser les données PISA parmi d'autres évaluations internationales à grande échelle. L'utilisation des données PISA via R nécessite une préparation des données, et intsvy propose une fonction de transfert de données pour importer des données disponibles dans d'autres formats directement dans R. Intsvy propose également une fonction de fusion pour fusionner les bases de données des élèves, des écoles, des parents, des enseignants et des données cognitives.
Les commandes analytiques d'intsvy permettent aux utilisateurs de dériver des statistiques moyennes, des écarts types, des tableaux de fréquence, des coefficients de corrélation et des estimations de régression. En outre, intsvy calcule les estimations ponctuelles et les erreurs types qui prennent en compte le plan d'échantillonnage complexe de l'enquête PISA avec des poids de rééchantillonnage, ainsi que les formes de test tournées avec des valeurs plausibles.