lunes, 27 de mayo de 2013

Regresión Lineal : STATA vs Excel

Regresión Lineal : STATA vs Excel


  • Al momento de querer obtener el impacto de cierta/s variable/s independientes sobre una variable dependiente de interés (el efecto de una variable X sobre una variable Y), podemos utilizar diversos instrumentos estadísticos para obtener los coeficientes que deseamos conocer.

    El propósito de este post es poder comparar dos herramientas que nos permiten realizar este tipo de análisis mediante “estimaciones lineales”, estos son STATA y Excel, donde cada uno presenta ventajas, desventajas y particularidades respecto al otro.
  • Obtener el impacto o grado de sensibilidad de una variables (o muchas variables) independientes sobre una variable dependiente de interés, es regularmente utilizado en el campo laboral en diversos ámbitos  Ejemplos de dicha aplicación se da en los sectores relacionados a finanzas, donde deseamos conocer en que medida los retornos de un activo responden ante las variaciones del mercado (Modelo CAPM). Otros casos en que es útil conocer dicha información es en estudios académicos, donde deseamos obtener el impacto de una variable como por ejemplo "años de educación" sobre el "salario" de una persona, y de tales resultados generar recomendaciones de política pública. 
  • Para el fin de este post, ha sido obtenida una muestra aleatoria pequeña de la base de datos “CASEN 2009”, la cual ha sido reducida a 1000 observaciones. Los problemas de realizar estimaciones lineales con pocas observaciones son evidentes, al no permitir a los estimadores converger a sus valores asintóticos, pero dado el fin netamente demostrativo en esta ocasión será útil una muestra reducida.

    (Para reducir una base a un número aleatorio de observaciones, puede utilizar el siguiente comando en STATA: Sample 1000 , count)

    Ya con nuestra base reducida, realizaremos una estimación lineal para intentar obtener de una manera bastante simple los coeficientes de un modelo donde regresionaremos el salario de un individuo contra sus años de escolaridad, su edad y su género ( hombre o mujer ). De forma que nuestro modelo a estimar será un modelo lineal multivariado de la siguiente forma:

           ln(ingreso) = B(0) + B(1)*Escolaridad + B(2)*Edad + B(3)*Género + u


    Las variables utilizadas para este modelo son:
    - ln (ingreso) = Logaritmo natural del ingreso
    - Escolaridad: Años de educación del individuo
    - Edad: Edad del individuo
    - Género: Variable dicotómica que toma valores igual a 1 cuando el sujeto es de género
                      masculino y  0 cuando el sujeto es de género femenino. 

    Para comprender los primeros pasos de cómo instalar la herramienta de análisis de datos y los componentes básicos de “ESTIMACION.LINEAL” en Excel, puede encontrar dicha información detallada en un post agregado con anterioridad en la siguiente dirección:

     Estimación lineal en Excel 


    Es importante destacar que gran parte del trabajo para todos aquellos rubros que se dedican a crear, manipular e interpretar datos, está enfocada en comprender como estos están estructurado, sus respectivas relaciones y sus fortalezas o debilidades, por lo que tan relevante como la operación misma de los datos, es  poder comprenderlos.
    Al momento de realizar una estimación lineal, la cual es llevada a cabo por el método de “Mínimos Cuadrados Ordinarios”, son varias las precauciones que deben tomarse antes de llevar a cabo la estimación lineal, para que los coeficientes obtenido sean insesgados y eficientes, así como al mismo tiempo la inferencia que hagamos de ella sea correcta.

    Dado que nuestra muestra proviene de los datos originales provenientes de la encuesta CASEN2009 , veamos como quedan presentados nuestros datos al acotar la muestra (Las grandes bases de datos, productos de su tamaño y forma de recopilación, suelen venir en formatos asignados a programas estadísticos como STATA o SPSS).






    De forma que podemos ver que para nuestras variables discretas (ingreso, escolaridad y edad) tenemos casos en que existen datos faltantes, los cuales STATA inmediatamente reemplaza con un punto.

    Veamos qué  pasa cuando deseamos incorporar esta información a nuestra hoja de cálculo de Excel:


    De forma que podemos observar como los datos faltantes en Excel al momento de ingresarlos, son asignados como celdas vacías, lo cual es un problema si deseamos correr inmediatamente una regresión lineal, dado que Excel reconoce los campos vacios como no numéricos y no nos permitirá realizar la estimación, entregando la siguiente advertencia:



    Si deseáramos realizar dicha regresión lineal en STATA no habría problemas, dado que STATA reconocerá inmediatamente dichos datos faltantes y no los considera dentro del proceso (O alternativamente podemos borrar las observaciones utilizando el comando “drop if variable==.”. Tal consideración en Excel es algo diferente, por el hecho que Excel no reconoce que cada fila sea una observación y si realizamos una selección de nuestros datos y apretando F5 vamos a selección especial y eliminamos las celdas en blanco, lo que haremos  será “desplazar” las celdas con información en reemplazo de aquellas vacías, modificando nuestra información, lo cual no deseamos.
    Para solucionar este problema debemos manualmente eliminar aquellas observaciones (filas) en que los campos sean nulos.
    Una vez que solo tenemos celdas no blancas, podemos llevar a cabo la estimación lineal en Excel, cuyos resultados presentamos en conjunto a los obtenidos en STATA (comando: reg ln_ingreso escolaridad edad genero):







    La primera de estas imágenes corresponde a los resultados entregados por Excel y la segunda a los entregados por STATA.
    Al compararlas podemos ver que de ambos output podemos obtener:
    - Coeficientes de cada una de las variables independientes (Betas) [I]
    -Mecanismos para comprobar la significancia de la variable [II]
      (i) Valor estadístico t-student
      (ii) p-value
      (iii) Intervalos de confianza
    - Análisis de descomposición de varianza [III]
    - Número de observaciones , valor para el test de hipótesis conjunta F , valores para el r^2 y
      r^2-ajustado.
    Para cada uno de los output cada uno de los ítems mencionados se encuentran  indicados en las siguientes imágenes:



    Podemos ver que una regresión de  todos nuestros datos, entregan los mismo resultados en ambas plataformas, entonces, ¿Qué diferencia usar Excel o STATA para análisis de regresiones?

    Comando adicionales a la regresión: 

    (i)Muchas veces al realizar regresiones, algunos de los supuestos básicos de mínimos cuadrados ordinarios son quebrantados , ejemplo de esto es el caso de existencia de heterocedasticidad, en cuyo caso en STATA podemos corregirlo simplemente utilizando el comando “robust” al final de nuestra regresión, mientras que en Excel, corregir la heterocedasticidad requiere de ejecutar manualmente el mecanismo de “mínimos cuadrados ponderados” (dividir cada observación por el inverso de su error estándar), que aunque es posible de hacer, es más complicado y requiere de tiempo.
    De forma que corregir e identificar los problemas de comportamiento de nuestros datos (heterocedasticidad, multicolinealidad y/o no normalidad de los errores) puede ser abordado de manera mucha más directa utilizando el programa STATA (conociendo los comandos adecuados o usando el menú alternativamente)

           (ii) Otro caso que nos permite realizar el programa STATA y que en Excel no es simple de realizar a primeras, es la utilización de factores de expansión. Los factores de expansión son ampliamente utilizados en datos de corte transversal (CASEN ,EPS , ENE , ELPI,…) donde las observaciones corresponde sólo a una muestra de la población objetivo , y para obtener conclusiones a nivel agregado es necesario ponderar cada individuo según su nivel de representatividad en la población.

            Criterios:
            
            Algunas veces deseamos obtener los coeficientes de una estimación lineal para un segmento muy específico de la población. Por ejemplo podríamos desear saber cuan rentable es un año de escolaridad para un individuo mujer, entre 20 y 30 años de la región Metropolitana.
    Cada una de estas condiciones son “filtros” que aplicamos a nuestra regresión. El sistema de análisis de datos de Excel no permite establecer dichas condiciones ex – ante por lo que si deseamos realizar una regresión para “Mujeres de entre 20 y 30 años de la región Metropolitana” debemos aislar dicha información manualmente o usando filtros para cada variable.

    La diferencia radica en que en la plataforma STATA los factores mencionados pueden ser realizados de forma automática en un solo comando sin necesidad de entrar a modificar ni ordenar la información. Los factores mencionados serían en un solo paso realizados en STATA de la siguiente forma:




     De forma que STATA tiene como ventaja a Excel, poder dar ciertas opciones y criterios a nuestras regresiones, así como evitar tener que estar modificando nuestra base cada vez que deseemos una regresión diferente.

    Consideraciones adicionales

    Otro tema importante es cuando los modelos de regresión dejan de ser de forma lineal como los del ejemplo recién mencionado. Un caso típico es el de “Modelos de probabilidad lineal” llamados comúnmente modelos PROBIT o LOGIT. Dichos modelos requieren de un proceso de maximización mediante iteraciones, lo cual STATA realiza automáticamente, pero que para poder realizar en Excel, es necesario contar con una herramienta especial llamada “XLSTAT” (o eventualmente podría ser programado mediante MACROS, dado que requerimos maximizar una función likelihood). Solo para mostrar la rapidez de obtener una regresión de probabilidad lineal en STATA se muestra el ejemplo, de cuan probable es que una familia tenga conexión a internet dependiendo de su nivel de ingreso y nivel educacional (recordar que en estos modelos lo relevante son los efectos marginales y no los coeficientes de la regresión en si):


    Como comentario final, podemos decir que todos las formas de regresión (lineal, probabilística, panel, modelos de sesgo de selección) pueden ser llevadas a Excel mediante programación, macros  y utilización de las definiciones funcionales de cada caso. La ventaja de STATA es que trae incorporadas dichas programaciones y pueden ser ejecutadas rápidamente conociendo los comandos y opciones adecuadas
    Por otra parte para realizar regresiones simples (como de series de tiempo o corte transversal) realizadas frecuentemente en el campo laboral relacionado a las finanzas y/o economía, Excel ofrece una herramienta simple y rápida de utilizar para obtener los coeficientes de una empresa dentro del rendimiento de mercado (por ejemplo). Lo cual da a Excel una ventaja en ser un programa mucho más amigable y fácil que STATA.
    También es necesario mencionar lo que respecta al análisis de datos, lo que se refiere a detectar y corregir problemas de los datos como heterocedasticidad, multicolinealidad, no-normalidad puede ser hechos tanto en Excel como en STATA, donde como ha sido mencionado durante el post, realizarlos en Excel es posible pero requiere de mayor número de pasos y tiempo, implicando un mayor grado de dificultad.
    Para poder saber cómo realizar todos los procedimientos específicos de test y regresiones específicas se recomienda consultar esta “guía de econometría aplicada usando Excel”.


    Por tanto como comentario final es posible concluir que en términos específicos de análisis y manejo de regresiones  STATA es un programa  mucho más completo, pues  es una plataforma diseñada para tales efectos, pero que requiere de mayor familiarización de sus comandos y modos de funcionamiento. En cambio Excel es una plataforma de rápido acceso que para regresiones simples es una herramienta lo suficientemente potente como para ser utilizada en caso de ser necesaria, pero restringida por el número de datos que soporta y por que la información este presentada de forma correcta.

    Fuente:

    Autor: Antonio Acha



No hay comentarios:

Publicar un comentario