En nuestro posteo anterior hicimos una presentación general de PISA, en qué consiste y qué países participaron en los distintos ciclos de aplicación. También presentamos de manera muy general qué conjuntos de datos se sistematizan y se ponen a disposición en las bases abiertas al público en general.
En esta segunda publicación de introducción a los datos de PISA (y que sirve como modelo de introducción a los sets de datos de resultados educativos en general) ahondaremos en el modo en que se encuentran estructurados los datos, las principales variables a atender y la visualización de los resultados.
Queremos agradecer muy especialmente al consejo asesor de Sobre Tiza Data, integrado por Lilia Toranzos, Martín Scasso y Natalia Aquilino, por todas las sugerencias y aportes para mejorar y ajustar los contenidos y visualizaciones presentadas en este posteo.
El ABC para leer los datos de PISA (Parte I)
Como mencionamos en nuestro posteo anterior, los datos se encuentran disponibles en el sitio oficial de PISA. Allí las distintas tablas de datos en formatos compatibles con SPSS y SAS. En el caso de los datos 2015 y 2018, se pueden descargar en formato .sav o .sas7bdat e importar en R o Python utilizando librerías que soporten la importación de este tipo de archivos (como ‘foreign’ o ‘expss’ en R o ‘pyreadstat’ en Python). Para el resto de los años, lo que se descargan son archivos de texto que hay que leer utilizando scripts de control de SPSS o SAS. Si no cuentan con estos programas instalados, pueden descargar e instalar el programa de código abierto PSPP, ejecutar desde allí los scripts para leer correctamente los archivos de texto, y luego guardarlos en formato .sav para trabajarlos desde la aplicación de preferencia.
Una vez importadas, las bases se encuentran estructuradas -como cualquier dataset- en registros y variables. Así, cada columna representa una variable con un tipo de dato particular, ya sea numérico o de texto; y cada fila representa un registro, es decir, una observación o caso particular de lo que se encuentre sistematizado en la tabla. En el caso de PISA, hay disponibles tablas con registros a nivel alumno, donde cada fila representa un alumno distinto que participó de la prueba, y a nivel escuela, donde cada fila representa una escuela distinta.
Todas las bases de PISA cuentan con una gran cantidad de variables, por lo que resulta de suma importancia contar con herramientas para navegar por ellas adecuadamente.
Una primera herramienta importante son los diccionarios o codebooks. En la página de PISA están disponibles en formato PDF hasta 2012 y en Excel de 2015 en adelante. Son listas de todas las variables de cada dataset, donde se explicita (muy sintéticamente) a qué refieren, qué tipo de dato incluye (texto, numérico o categórico) y cuáles son sus valores posibles. En el caso de variables categóricas, es decir que expresan un conjunto finito de categorías de respuesta posibles, suelen estar codificadas con un valor numérico y en el codebook se expresa también el significado de cada valor.
Al leer los datasets desde SPSS o SAS, el codebook se generará automáticamente y se puede navegar desde el mismo programa. Para quienes utilicen R, pueden generar el codebook leyendo el archivo .sav con la librería ‘expss’ y utilizando la función ‘create_dictionary’ sobre el dataset.
Otra herramienta a tener en cuenta son los archivos de transcripción de los cuestionarios complementarios, donde se puede visualizar el modo concreto en que se aplicaron los distintos ítems de indagación en cada país. Las bases con los resultados cognitivos –las pruebas-, en cambio, no disponen de la versión digital de los instrumentos porque la mayoría de los ítems se vuelven a utilizar y por ende no pueden publicarse[i].
Más allá de ello, hay un grupo de variables principales en los datasets que resulta conveniente tener en cuenta en todo momento:
- Variables identificatorias: son las variables que permiten identificar adecuadamente a los registros. Incluyen las variables de:
- ID del estudiante: ‘STIDSTD’ o ‘StIDStd’ hasta 2012, luego ‘CNTSTUID’.
- ID de la escuela: ‘SCHOOLID’ hasta 2012, luego ‘CNTSCHID’.
- ID del país: se incluye como codificación de 3 caracteres en la variable ‘CNT’ y en formato de 3 dígitos en la variable ‘COUNTRY’ hasta 2009 y como ‘CNTRYID’ desde 2015 (en dígitos no incluida en 2012).
- ID de la región adjudicada[ii]: variable ‘SUBNATIO’, codificada en formato de 4 a 7 dígitos dependiendo del año.
En las bases anteriores a 2015, el ID del estudiante debe ser combinado con los IDs de la escuela y la región (‘SUBNATIO’) para garantizar que no haya duplicados al combinar datos.
- Ponderadores: variables que expresan el “peso” de cada registro, es decir, la cantidad de población que estaría representando. Son las variables ‘W_FSTUWT’ para los estudiantes y ‘SCWEIGHT’, ‘W_FSCHWT’ y ‘W_SCHGRNRABWT’ para las escuelas (bases de 2003, 2006-2012 y 2015-2018 respectivamente).
- Valores plausibles: variables que expresan el desempeño de los estudiantes en las distintas áreas evaluadas. En vez de asignarle a cada estudiante un puntaje único, se le asigna un “puntaje plausible” para evidenciar el rango posible en el que se puede encontrar el desempeño del estudiante dado que se trata de una estimación[iii]. Se incluyen 5 valores plausibles por área hasta 2012, y 10 por área desde 2015. Además, dependiendo del área principal de cada ciclo de aplicación se incluyen otros 5 a 8 grupos de valores plausibles que refieren a sub-áreas específicas de competencia dentro del área principal[iv]. Comienzan siempre con PV (por ej. PV1READ, PV2READ, PV1MATH, etc).
- Ponderadores de réplicas balanceadas: 80 ponderadores adicionales que se incluyen para cada registro para poder calcular la variabilidad muestral. Nomenclados como ‘W_FSTR’ (hasta 2012) o ‘W_FSTURWT’ (desde 2015) y un numero (por ej. W_FSTR1, W_FSTR2, etc.).
- Variables clave e índices: por último, hay algunas variables que surgen de las respuestas de los estudiantes que, más allá del análisis que se quiera hacer, seguramente se deberán tener en cuenta, tales como las referentes al sexo (ST03Q01, ST04Q01 o ST004D01T), edad (AGE), grado de cursada (GRADE) o situación de repitencia (REPEAT). También hay que considerar el nivel socioeconómico, el cual se expresa mediante un índice (ESCS) elaborado a partir de respuestas de distintos ítems, captando aspectos referidos al máximo nivel educativo de los padres, su nivel ocupacional y la cantidad de bienes que poseen en el hogar [v].
A modo de referencia, incluimos debajo el listado completo de variables y valores de respuesta de las bases de estudiantes y escuelas de todos los ciclos de PISA (no se incluyen las variables de las bases de resultados cognitivos).
[i] Para quien quiera interiorizarse más respecto de los ítems de PISA, pueden consultarse los ítems liberados desde https://www.oecd.org/pisa/test/ o también probarlos desde el simulador desarrollado desde el Ministerio de Educación de Argentina aquí.
[ii] Como mencionamos en nuestro posteo anterior, en PISA pueden participar tanto países como sistemas educativos sub-nacionales que se correspondan con una determinada región, ciudad o provincia / estado. Cuando participa tanto el país como un sistema de orden inferior, se lo denomina “región adjudicada” y lleva un ID específico de sub-región para que pueda ser diferenciado del resto de los datos del país. La participación de cada país y región adjudicada se define de manera independiente para cada ciclo de aplicación, por lo que una región que participó en un año puede no haber participado como tal en aplicaciones siguientes.
[iii] Esta adjudicación se realiza a su vez siguiendo la Teoría de Respuesta al Ítem desarrollada originalmente por Georg Rasch. Para quien desea interiorizarse y profundizar en esta teoría y su metodología, se pueden consultar los artículos introductorios al respecto de Hidalgo-Montesinos y French (2016) y de Attorresi y otros (2009).
[iv] Que, como habíamos mencionado en nuestro posteo anterior, el área principal es rotativa, por lo que en cada aplicación cambia: en 2003 fue Matemática, en 2006 Ciencias, en 2009 Lectura, etc. Dado que el área principal concentra una mayor cantidad de ítems, cuando se comparan puntajes de distintos años resulta preferible circunscribirse a los años donde el área a comparar fue área principal. Pero dado que ello genera muy pocos puntos de datos (sólo dos por área para cada país), se mantienen los puntajes de todos los años para todas las áreas a fin de contar con líneas temporales más completas.
[v] Dada la importancia de este índice en el cálculo y análisis de los datos de PISA, se debe tener en cuenta que no está exento de críticas y controversias, como las expresadas por Rutkowski & Rutkowski (2013).
Las métricas que se pueden calcular a partir de la base de PISA son principalmente tres:
- Porcentajes de población que posee determinada característica en relación con una o más variables.
- Puntajes en relación con algún área o sub-área evaluada, los cuales se pueden visualizar en términos de promedios (el más utilizado) pero también máximos, mínimos, percentiles, etc.
- Y niveles de desempeño, que son de alguna manera una combinación de las dos anteriores, en tanto que permiten segmentar a la población en niveles de acuerdo con los puntajes obtenidos y analizar el modo en que se distribuye porcentualmente en dichos niveles[i].
En las tablas de los informes de PISA, todas estas métricas suelen estar acompañadas por su ‘error estándar’ (o SE, por sus siglas en inglés). Este dato es de suma importancia, ya que da indicios sobre la precisión del dato. Se lo puede entender como un “margen de error” y, multiplicado por 1,96, permite estimar un “intervalo de confianza” con un 95% de certeza (es decir, que existe un 95% de probabilidad de que la métrica calculada se encuentre efectivamente –para la población real- en el rango del intervalo)[ii].
Dicho todo esto, queda claro que los datos que pone a disposición PISA exceden ampliamente los puntajes promedio por país a los que estamos habituados a través de los rankings que se publican con cada nueva aplicación. Los invitamos entonces a explorar dos dashboards para ahondar un poco en los datos de PISA, pero desde un punto de vista que dé cuenta un poco más de la gran variedad de datos de los que dispone.
El primero, permite visualizar los puntajes promedio de cada país pero acompañados por su intervalo de confianza, así como las diferencias existentes en cada país entre distintos grupos poblacionales según tres variables: sexo (femenino – masculino), quintil del índice ESCS (5to quintil – 1er quintil) y situación de repitencia (sin años repetidos – con años repetidos).
En el segundo se puede ampliar la información sobre un determinado país o subregión para visualizar los puntajes promedios obtenidos en cada año para el área seleccionada, así como filtrar o desagregar dicha información para un subconjunto de la población en relación con las tres variables socioeconómicas mencionadas.
[i] Los niveles de desempeño son, de hecho, un elemento clave en la metología de construcción y validación de las pruebas. Para más información se pueden consultar los apartados sobre este tema en los reportes técnicos de PISA de cada año, disponibles en http://www.oecd.org/pisa/data/.
[ii] Para quienes les interese ahondar más en los aspectos metodológicos del manejo de las bases y el cálculo de las distintas métricas sugerimos consultar los manuales metodológicos de PISA, en sus versiones para SPSS o SAS. Quienes utilicen R, pueden utilizar el paquete ‘intsvy’ o consultar la página http://software-tecnico-libre.es/es/, la cual cuenta con muchas funciones pre-armadas para el trabajo con los datos de PISA.
Este primer dashboard permite explorar los puntajes promedio obtenidos en cada aplicación por cada país, poniéndolos en el contexto del promedio global obtenido en cada año por el grupo de países visualizados. Además, se detalla junto con el promedio el intervalo de confianza al 95% y las diferencias que se evidencian entre sexos, quintiles del índice ESCS y situación de repitencia como medidas iniciales y básicas de la equidad en los resultados obtenidos por cada sistema.
Nótese que pasando el mouse por el sector inferior de la tabla y cliqueando sobre el botón se pueden reordenar los datos en función de cualquiera de las 3 variables que se visualizan.
Para estimular la navegación de los datos, les dejamos algunos interrogantes para explorar y analizar en los gráficos:
- ¿Cómo son los resultados de cada área en relación con las diferencias por sexo? ¿Se mantiene constante en todos los ciclos de aplicación y para todos los países, o se observan excepciones?
- ¿Los países con mejores resultados son también equitativos, sobre todo en relación con la diferencia en los puntajes obtenidos entre el 1er y 5to quintil? ¿Hay países que en algún ciclo de aplicación se destaquen por haber obtenido promedios altos y equitativos en algún área?
- ¿Cómo juega la situación de repitencia en los resultados? ¿En qué casos la diferencia entre estudiantes con y sin años repetidos resulta más pequeña?
Desde ya, no se pretende que todos estos interrogantes puedan ser respondidos íntegramente desde el dashboard, pero sí que estas visualizaciones sirvan como punto de partida para explorar las temáticas planteadas, sus alcances, limitaciones y posibles implicancias.
Este segundo Dashboard pretende poner a disposición la información completa de cada país en relación con las variables presentadas en el primer dashboard. De este modo, se pueden visualizar los datos de cada país y sub-región en relación tanto con el puntaje obtenido a lo largo de los años como con la distribución en los niveles de desempeño. Los puntajes promedio se pueden desagregar según las categorías de las tres variables disponibles (sexo, quintil y situación de repetición) y ambos gráficos se pueden filtrar para visualizar los datos del grupo poblacional correspondiente a cualquier combinación de dichas variables.
Respecto de la distribución por niveles de desempeño, se ajustó la ubicación de las barras apiladas para que el 0% coincida con el Nivel 2, el cual corresponde al nivel básico esperado desde PISA. De esta manera, se puede apreciar fácilmente el porcentaje de la población que se encuentra por encima o por debajo del nivel básico y cómo estos porcentajes cambiaron en cada aplicación, al mismo tiempo que se diferencian cada uno de los niveles. Pasando el mouse por cada nivel se detalla tanto el porcentaje correspondiente a dicho nivel, como el porcentaje acumulado que existe por encima y por debajo del nivel básico.