class: center, middle, inverse, title-slide # Análisis de datos longitudinales ## Taller Universidad Diego Portales ### Valentina Andrade ### Universidad de Chile ### 15 de diciembre 2020 (updated: 2020-12-22) --- background-image: url("https://cutewallpaper.org/21/moving-wallpaper-gif/Background-GIFs-Get-the-best-GIF-on-GIPHY.gif") background-position: center background-size: contain class: inverse center # Análisis de datos longitudinales <br><br> <br><br> <br><br> ## [Valentina Andrade](https://valentinaandrade.netlify.app/) <br> Taller Universidad Diego Portales<br>**Diciembre, 2020** --- class: right bottom inverse # Contenido -- ## 1. Introducción -- ## 2.Análísis con enfoque clásico -- ## 3. Análisis con enfoque económico --- class: center, middle # 1. Introducción --- class: inverse, center, middle # 1.1 Datos Longitudinales --- class: middle # Datos - Distintas estructuras de datos según criterios -- - **Temporal**: transeccionales y **longitudianles** -- - **Jerárquico**: simples y con niveles --- # Concepto de dato longitudinal - En general, suponen **más de una medida en el tiempo**. -- - **El tiempo es una dimensión importante**: los eventos pasados pueden influir en eventos futuros. -- - El "orden" de los datos es información potencialmente importante, a diferencia de lo que ocurre con datos transversales. -- - **Tipos**: (a) series de tiempo, (b) combinación de cortes transversales y (c) **panel** --- class: inverse # A. Series de tiempo - Observaciones de una o varias variables a lo largo del tiempo - Ejemplos: cantidad de protestas mensuales, tasa anual de femicidios, índice de precios al consumidor ---  --- # B. Combinación de cortes transversales - Datos transversales medidos en distintos momentos del tiempo - **Las observaciones no están repetidas en el tiempo** - Ejemplo: CASEN 1990-2017, CENSO, ENS - Análisis de impacto de políticas públicas: Did (diff-in-diff) ---  --- class: inverse # C. Panel - Medidas **repetidas** de uno o más grupos de unidades de observación (eg. individuos repetidos en el tiempo), **medidas en el tiempo** o en distintos puntos temporales. -- - Ejemplos en Chile: ELSOC, MOVID-19, ENE, ICMO-IR, ELE ---  -- - También se pueden *construir* en base a unidades agregadas **geográficamente** --- class: inverse, middle # ¿Por qué usar panel si es tan caro y difícil obtener estos datos? 🤔 --- # Ventajas 1.Facilita la inferencia causal - ¿Diseño experimental? ¡No necesariamente! -- 2.Permite trabajar con efectos autoregresivos (o "rezagados") -- 3.Innovación 😄 --- class: center, middle # 2. Análisis con enfoque clásico --- class: inverse, center, middle # 2.1 Análisis univariado (ANOVA) --- # 2.1 Análisis univariado (ANOVA) - **Univariado** ... *series de tiempo* - **Objetivo**: analizar el efecto global que ejerce el tiempo o determinadas variables de crecimiento, tales como la edad, sobre el desarrollo de una variable dependiente *y*. - Factor aleatorio (*random*) son los individuos y las las mediciones en el tiempo y los grupos como factores fijos (*fixed*) - **Estimación**: medias de las observaciones y las compara a través de los distintos grupos (clásico ANOVA) --- ## Supuestos ANOVA 1. **I.I.D**: Observaciones de las observaciones son independientes entre sí. 2. **Normalidad multivariante**: las puntaciones de los diferentes tiempos o variables han de seguir una distribución normal multivariante 3. **Homogeneidad**: Las matrices de varianza-covarianza de las medias de cada grupo han de ser iguales entre sí 4. **Esfericidad**: las varianzas de las diferencias entre las distintas medidas repetidas deben ser homogéneas. --- class: inverse, middle # En consecuencia... -- # ☹️ --- class: inverse, center, middle # 2.2. Análisis multivariante de la varianza (MANOVA) --- # 2.2. Análisis multivariante de la varianza (MANOVA) - **Objetivo**: Estos modelos se centran en el componente entre-grupos (o entre-sujetos) del análisis, tratando de explicar la variancia total de las variables dependientes en función de las diferencias existentes entre los miembros de los distintos grupos. - Versión multivariada - MANOVA generalizado (GMANOVA) --- class: center, middle # 3. Análisis con "enfoque económico" --- class: inverse, center, middle # 3.1 Temas que revisar 1.Dependencia de los datos -- 2.Periocidad -- 3.Tendencia --- class: center, middle # 3.2 Básicos A.Estacionariedad -- B.*Random walk* -- C.*Dickey Fuller Test* --- class: inverse, middle ## A. Estacionariedad - **El comportamiento de las variables no depende del tiempo** -- # A. Estacionariedad 1. La media de la serie no debe ser una función del tiempo sino que debe ser una constante.  # A. Estacionariedad 2. **Homocedasticidad**: La variación de la serie no debe ser una función del tiempo.  # A. Estacionariedad 3. La covarianza del primer término i y del segundo término (i + m) no debe ser una función del tiempo  --- class: inverse, middle # ¿Por qué importa la estacionalidad de una serie temporal? - Modelamiento tiene como requisito la estacionariedad - Métodos para estacionar: *detrending*, *differencing*, etc. --- class: inverse, middle ## B. Random walk - **Trayectoria alteatoria** (proceso Márkov) - La posición o puntaje de una observación (i) en cierto instante (t) depende solo de su posición en algún instante previo (t-1) y alguna variable aleatoria que determina su subsecuente dirección y cambio (z1). --- class: middle # Zombies  --- class: middle # Random  --- class: inverse, middle ## C. Rho coeffcient - ρ : **Grado de estacionariead** - Coeficiente de **autocorrelación** o autocovarianza - ρ |0 - 1 | - Si ρ = 0 (sin autocorrelación); ρ = 1 (autocorrelación positiva perfecta); ρ = -1 (autocorrelación negativa perfecta) --- # ρ = 1  --- # ρ = 0.5  --- # ρ = 0  --- class: inverse, middle ## C. Dickey Fuller test - **Test de hipótesis sobre Rho** > `\(H_0\)`: ρ -1 = 0 (No estacionaria) > `\(H_1\)`: ρ -1 =/= 0 (Estacionaria) --- class: middle # En fin, -- ## Todo esto sirve pues conociendo los valores de Rho y Dickey Fuller se puede corregir la no-estacionariedad -- ### O ser más rigurosos y buscar otro tipo de modelos que estiman considerando esos errores 🤯 --- Antes de que se vayan... --- class: inverse, middle # 3.3 OLS con series de tiempo --- # 3.3 OLS con series de tiempo - Estimación: características comunes a la estimación OLS de corte transversal, también tienen algunas diferencias significativas que es necesario destacar. - Aleteatoriedad: ustedes me podrán decir *¿pero qué pasa con el supuesto de aleatoriedad de los datos en las series de tiempo, si OLS lo exige como una necesidad?* Bueno, eso pasa en caso de que la serie sea estacionaria. Si lo es, en ese caso no sería correcto ocupar estos modelos. --- Fórmula  --- ## Estos modelos se pueden complejizar si agrego los siguientes criterios 1.**Rezagos**: el efecto de la variable pasada en la variable dependiente  2.**Propensiones**: propensión de largo plazo o multiplicador de largo plazo  3.Distinción de ciclos: a corto y largo plazo --- # 3.4 Modelos ARMA y ARIMA - **AR**: autoregresivo o *autoregressive* - **MA**: media móvil o *mean average* - ARMA (series estacionarias) y ARIMA (series no-estacionarias) --- ## Modelos de series temporales autoregresivos  - Ejemplo: demanda por estufas al gobierno y meses: protestas y meses  --- ## Modelos de series temporales de media móvil - Ejemplo: mascarillas en pandemia --- ## Diferencia - En el modelo MA, el ruido / choque se desvanece rápidamente con el tiempo. - El modelo AR tiene un efecto muy duradero del choque. ### Esto va a definir qué tipo de autocorrelación ocupamos en el modelamiento. Pregunta 1. - Si es AR --> ACF (Autocorrelación completa) - Si es MA --> PACF (Autocorrelación parcial) --> Lags o rezagos Pregunta 2. ¿Cuántos lags? --- ## Pasos 1. Visualizar la serie de tiempo ¿estacionaria o no estacionaria? (Test Dikey Fuller) -- 2. Hacer estacionarias los modelos (Detrending, Differenciating y Seasonality) -- 3. Buscar los mejores parámetros (si es un ACF o PACF) (lags) -- 4. Hacer el modelo (buscar que AIC y BIC sean pequeños) -- 5. Hacer predicciones. --- # 3.5 Modelos panel --- class: middle Partamos con el ejemplo práctico de mi tesis .center[ # valentinaandrade.github.io/tesis/ # [🚀](valentinaandrade.github.io/tesis/) ] --- ## Algunos básicos - Panel: series temporales con unidades repetidas en el tiempo - Debe cumplir los mismos supuestos que las series temporales - Efectos fijos y efectos aleatorios --- ## Sesgos - Temporales - Estacionariedad - Tendencia (co-integración) - Cortos y largos plazos - Unidades - Heterocedasticidad - Desbalance - Atrición --- class: inverse, middle ## Para cada problema hay distintas soluciones, aquí el punto de la constante discusión en este tipo de modelos sobre qué técnicas ocupar. --- ## Referencias recomendadas *Ciencias Sociales* - Lynn, P. (2009). Methods for longitudinal surveys. Chichester: Wiley. - Menard (2007). Handbook of longitudinal research: Design, measurement, and analysis, Elsevier. --- ## Referencias recomendadas *Econometría* - Wooldrige, J (2013) Introductory econometrics: A modern approach. - II Parte: Datos longitudinales - III Parte: Panel (desde el capítulo 13) - Smith, R and Fuertes, A (2016) Panel Time-Series. London: Department of Economics Mathematics and Statistics, Birkbeck University of London. --- ## Referencias recomendadas *Software* - [Principle of Econometrics in R](https://bookdown.org/ccolonescu/RPoE4/time-series-stationary-variables.html) - Desde capítulo 9 hasta el 15. - Blackburne III, E. F., & Frank, M. W. (2007). Estimation of nonstationary heterogeneous panels. The Stata Journal, 7(2), 197-208. - Shumway, R. H., & Stoffer, D. S. (2017). Time series analysis and its applications: with R examples. Springer. --- background-image: url("https://cutewallpaper.org/21/moving-wallpaper-gif/Background-GIFs-Get-the-best-GIF-on-GIPHY.gif") background-position: center background-size: contain class: inverse center # Análisis de datos longitudinales <br><br> ¡Muchas gracias! <br><br> ## [Valentina Andrade](https://valentinaandrade.netlify.app/) <br> .small[ - [https://valentinaandrade.netlify.app/](https://valentinaandrade.netlify.app/) - [https://github.com/valentinaandrade](https://github.com/valentinaandrade) Taller Universidad Diego Portales,**Diciembre, 2020** ] --- <style type="text/css"> .remark-slide-content { font-size: 30px; } </style>