3.3 Métodos
Respecto al método, este estudio trabajara desde un enfoque cuantitativo transversal. El uso de las herramientas cuantitativas es fundamental para despejar las dudas planteadas en este artículo, puesto que la cuantificación, como medición de lo social (Canales 2006), nos permitirá contrastar que variable posee una mejor capacidad mediadora de la reproducción de la desigualdad política, la comprensión lectora o el interés político. A continuación, se hace una exposición de las técnicas con las que se trabajara y se explicara por qué son indispensables para abordar la temática.
El centro del trabajo utilizara estadística multivariada, más particularmente, regresiones lineales. Las regresiones lineales según Hayes poseen la intención evaluar la capacidad predictiva de una variable sobre otra. Para representar la relación gráfica y numéricamente, se busca restimar una línea que represente la relación entre una variable independiente y una dependiente. Esta línea se superpone a un gráfico de dispersión en el cual cada caso s situado en una posición según su valor en el eje x y el eje “y”. De este modo, cuando no hay relación se forma una nube dispersa, mientras que más es la relación los puntos se ajustan más a una línea. La regresión nos permite encontrar la línea que mejor representa la relación. Esta línea en un plano cartesiano nos permite tener conclusiones del tipo “mientras más se tiene de esta variable más se tiene de esta otra”. Para llegar a estimar esa línea que representa mejor la relación se utiliza la técnica de mínimos cuadrados, la cual es un proceso iterativo donde a partir de probar múltiples rectas, se evalúa cuál de ellas genera la menor cantidad de residuos. Los residuos corresponden a la varianza de la dependiente que no es explicada por la independiente. Si dos variables están completamente relacionadas no habrá residuos, y la línea pasará por cada uno de los puntos del gráfico. Matemáticamente, esto implica que el valor de los casos en el plano restado a el valor predicho es 0. Se realiza un cálculo que busca encontrar la recta que genera el mínimo, de residuos y por ende, representa mejor la relación, que se supone lineal.
Las relaciones pueden ser positivas o negativas. Cuando una relación es positiva se ve que la línea que mejor representa la relación parte al comienzo del grafico en la izquierda en un valor menor y que aumenta en tanto avanza a la derecha. Una relación negativa por el contrario implica que a mayor valor de x menor valor de y.
Los parámetros entregados por la regresión son, p de significación, betas que representan la relación, r2 que representan la fuerza de la relación y un intercepto, el cual corresponde al promedio en un modelo sin predictores y aumenta o disminuye según se incline la línea de predicción. Por ende, el intercepto puede ser interpretado como el corte con el eje y cuando la variable dependiente está en 0, lo cual no siempre tiene una aplicación directa.
Las ventajas de las regresiones son múltiples. En primer lugar, como medida de relación cumple con las exigencias señalada por la metodología. Posee un valor por qué nos permite evaluar si es posible extrapolar las conclusiones al universo. Este valor p representa la posibilidad de que la pendiente sea efectivamente distinta a 0, es decir, la posibilidad de que no exista relación. Además, siguiendo los consejos de Cohen, las regresiones entregan un valor que indica la fuerza de la relación lo cual es fundamental para comprender la magnitud de los fenómenos que estamos evaluando.
Una segunda ventaja de las regresiones líneas para nuestro trabajo es que permiten realizar control estadístico. El control estadístico es un proceso complejo por el cual mediante la parcialización de los efectos se puede despejar los efectos comunes de dos variables, para evaluar cual es efectivamente la que posee una influencia sobre la dependiente. De este modo, siguiendo con nuestras hipótesis, el efecto que es generado inicialmente por el nivel socioeconómico debería poder ser controlado por el efecto del manejo del lenguaje, por qué en última instancia las diferencias deben al mejor manejo del lenguaje en los niveles socioeconómico más altos. Otra forma de entender el control estadístico es considerar los efectos controlados como el efecto de una variable cuando la otra está constantemente en 0.
El control estadístico se logra a partir del proceso de parcialización el cual corresponde a explicar una independiente por otra independiente, y eliminar todo aquello que es explicado (varianza compartida) utilizando los residuos de esa regresión como variable independiente.
Se trabajará con técnicas de regresión multinivel, ya que estas son indispensables al estudiar muestras jerárquicas de colegios. Las regresiones multinivel, a diferencia de las regresiones normales, asumen que los estudiantes de un mismo establecimiento compartirán características debido al contexto común. Si se trabajara con regresiones lineales de un solo nivel, se rompería el supuesto de independencia de los casos en la muestra, ya que los casos están relacionados entre sí al pertenecer a los mismos establecimientos. Esta metodología también nos permite evaluar el efecto de características de la escuela, como lo son el NSE promedio o la percepción promedio de apertura a la discusión. Más específicamente, dentro del trabajo con regresiones multinivel, se trabajará con relaciones pendientes aleatorias, mediación multinivel e interacciones entre niveles.
Para entender el concepto de multinivel y su operación estadística es necesario primero comprender la idea de varianza entre y dentro. Pensemos en comprensión lectora. Es sabido que existen colegios que poseen una mejor comprensión lectora que otros. Este efecto no se debe particularmente a que cada uno de los niños, sino que se puede deber a que el colegio posee una mejor educción o a que es más selectivo. De este modo se puede ver que hay varianza entre los estudiantes que corresponde a la varianza entre los colegios. Es el efecto de pertenecer a un mejor colegio que otro. Por otro lado, además de esas diferencias entre colegios hay diferencias dentro de los colegios. Entre estudiantes de un liceo de mal desempeño, existen estudiantes mejores que otros y algunos que pueden sobresalir. En alguna medida, se puede esperar que estas diferencias dentro de las escuelas sean producto del esfuerzo del niño o de los apoyos y ventajas que les ofrecen sus padres.
Con esa distinción conceptual en mente, veamos que hacen las regresiones multinivel. Para ello es necesario comprender que estas regresiones consideran los grupos en los cuales esta cada sujeto, en este caso las escuelas. Estadísticamente diferencian los residuos de la varianza, en residuos entre colegios y residuos dentro de los colegios. Cuando una variable a nivel escuela como la calidad de los profesores afecta la variable dependiente, esta reducirá los residuos entre colegios. Por su parte, cuando se tiene una variable individual que afecta las diferencias entre los niños, como poseer profesores particulares, esto disminuirá la varianza dentro de las escuelas.
Para la existencia de los residuos diferenciados, es necesaria la estimación de dos tipos de líneas de regresión. La primera es una pendiente general que representa la relación a nivel 2. El segundo tipo de línea, son las pendientes en cada grupo. Esta diferencia permite la variación de los parámetros entre los grupos. De este modo, se pueden agregar dos parámetros muy interesantes. Un intercepto aleatorio y una pendiente aleatoria. El termino aleatorio no refiere a que es azaroso, sino que varia entre grupos.
La variación de los intercepto nos indica cuando dieren los intercepto entre los grupos. El intercepto aleatorio nos puede indicar que en algunos establecimientos el nivel de conocimiento cívico (variable y) es mayor ante el valor mínimo de manejo del lenguaje (variable x)
Las pendientes aleatorias sirven para evaluar como varia la pendiente de una relación en distintos contextos, para este trabajo se calculará la variación de la pendiente de la relación entre conocimiento cívico y comprensión lectora.
La medición multinivel permite evaluar una cadena causal considerando la estructura jerárquica de los datos. Para comprender esta metodología, es necesario entender que una medicación corresponde al fenómeno según el cual una variable “X”, explica una variable “Y”, por medio de “M”, de tal modo que “X” genera “M” y M genera “Y” (Mathieu and Taylor 2007). Al igual que en una mediación de un solo nivel, es requisito para comprobar la mediación multinivel, que “X” sea capaz de explicar tanto “M” como “Y”, y que, además, M sea capaz de explicar “Y”, controlando, en alguna medida el efecto de “X” (Baron and Kenny 1986). Existen distintos tipos de análisis de mediación cuando se trabaja con lógicas multinivel. Se puede hablar de mediaciones intra-niveles que solo involucran una mediación dentro del Nivel 1 o Nivel 2, y también se puede hablar de meso-mediaciones, en las cuales la mediación pasa de un nivel a otro (Mathieu and Taylor 2007). En nuestro caso, contamos con una mediación intra-nivel, ya que todas las variables involucradas en la mediación son de nivel 1, aunque sea relevante considerar y controlar por características de Nivel 2 ya que los datos están anidados. En nuestro caso, queremos evaluar la capacidad de la comprensión lectora de mediar la relación entre NSE y conocimiento cívico, por ende, debemos evaluar la capacidad explicativa del NSE sobre la comprensión lectora y el conocimiento cívico (CC), y posteriormente, ver la capacidad del manejo del lenguaje de controlar el efecto del NSE sobre CC.
Considerando las recomendaciones de (Z. Zhang, Zyphur, and Preacher 2009) para cuando todas las variables del proceso de mediación se encuentran en el primer nivel, es fundamental, para evitar confusiones de los efectos producidas por la estructura jerárquica de la muestra, evaluar las relaciones en ambos niveles, es decir, un efecto de mediación intragrupo y otro entre grupos, para ello se deben realizar centrados en las medias de los grupos, según concluyeron los investigadores a partir de pruebas de simulación Montecarlo.
Esta propuesta si bien será utilizada y es muy enriquecedora metodológicamente, posee dos limitaciones que es necesario resolver para poder trabajar rigurosamente nuestras hipótesis. En primer lugar, esta forma de trabajar las relaciones multinivel no permite saber si el efecto indirecto es significativo, como Sobel señala necesario. Por ello para subsanar esta falencia se utilizará la prueba de Sobel. En segundo lugar, esta perspectiva tampoco permite abordar los tamaños de efecto, por lo cual se considera necesario incluir el efecto mediado en términos de R2, para lo cual se recurrirá a la estimación de Bryk & Raudenbusch (1992).
A continuación, se expone el cálculo que a realizar para probar la mediación multinivel. En general el modelo señala que el Conocimiento cívico es explicado por la comprensión lectora, la cual a su vez se debe a los recursos de la familia. El modelo también calcula los efectos directos e indirectos de los recursos de la familia sobre el conocimiento cívico. Las siguientes formulas no contienen todos los controles señalados.
- Influencia de los recursos familiares en el lenguaje
\[\begin{equation} \text{C.Lectora}= i_1 +\gamma_{10}\text{Ocupación}_{ij} + \gamma_{20}\text{Universitarios}_{ij}+ \gamma_{30}\text{Libros}_{ij}+u_{0j}+r_{ij} \end{equation}\]
- Influencia directa de los recursos familiares en lo cívico
\[\begin{equation} \text{C.Civico}= i_2+\gamma_{40}\text{Ocupación}_{ij} + \gamma_{50}\text{Universitarios}_{ij}+ \gamma_{60}\text{Libros}_{ij}+u_{0j}+r_{ij} \end{equation}\]
- Influencia del lenguaje e influencia controlada de los recursos familiares en lo cívico
\[\begin{equation} \text{C.Civico}= i_+\gamma_{70}\text{C.Lectora}_{ij}+\gamma_{70}\text{Ocupación}_{ij} + \gamma_{80}\text{Universitarios}_{ij}+ \gamma_{90}\text{Libros}_{ij}+u_{0j}+r_{ij} \end{equation}\]
Efectos indirectos de recursos familiares sobre conocimiento cívico
Ocupación de los padres = \(\gamma_{10}\times\gamma_{70}\)
Padres Universitarios = \(\gamma_{20}\times\gamma_{80}\)
Libros en el hogar = \(\gamma_{30}\times\gamma_{90}\)
En suma, se evaluará la medicación de la comprensión lectora sobre la relación entre NSE y conocimiento Cívico, evaluando la relación a nivel dos y a nivel uno, incorporando centrados a la media del grupo. Se espera que el efecto de NSE sobre CC disminuya en buena medida al incluir el control de la comprensión lectora. además, se espera que la disminución del efecto por control sea mayor al incluir la variable comprensión lectora que interés político.
En términos de interacciones entre niveles, evaluaremos la capacidad de la comprensión lectora del estudiante de moderar el efecto negativo sobre el conocimiento cívico que se debería de pertenecer a un establecimiento de bajo NSE promedio. Siguiendo las buenas prácticas para interacciones multinivel propuestas por (Aguinis, Gottfredson, and Culpepper 2013), se centraron las variables según el promedio de la escuela, con la intención de despejar debidamente el componente individual de la varianza.
3.3.1 Software
El software de análisis estadístico utilizado fue R (versión 4.02) y la plataforma de edición GitHub. Para los análisis multinivel recurrimos al paquete lme4, en su versión 1.1-23 (Bates 2020).
Además, siguiendo los lineamientos de la ciencia abierta, este trabajo está en un repositorio para facilitar tanto su acceso como su reproductibilidad. El lector de este seminario esta cordialmente invitado a visitar la página web del proyecto en la que se puede revisar tanto el articulo como los análisis. Igualmente, si el lector desea reproducir los análisis para verificar su veracidad, puede descartar el proyecto desde el repositorio de Github. Para facilitar la comprensión del orden de los archivos, estos se han ordenado según el esquema IPO, propuesto por Castillo (2020)