viernes, 14 de septiembre de 2012

Herramientas para Análisis Estadístico en MS Excel


Herramientas para Análisis Estadístico en MS Excel
Las herramientas de análisis de datos nos permiten realizar análisis estadísticos simples sin la necesidad de programar cada una de ellas por separado; esta función puede resultar de gran utilidad en especial para la labor que deben desarrollar tanto economistas en investigaciones como administradores dentro de diversas organizaciones. El adecuado manejo de estos datos facilita la toma de decisiones y permite llegar a nuevas y mejores conclusiones.

¿Cómo Cargar el Complemento Análisis de Datos?
El complemento de Análisis de Datos debe ser instalado siguiendo los pasos descritos en el link adjunto. Este link también indica cómo utilizar las herramientas de análisis del complemento.


¿Para qué nos sirve utilizar Análisis de Datos?
El Análisis de Datos cuenta con diversas herramientas para generar tablas y gráficos útiles en investigaciones o toma de decisiones. Dentro de este grupo encontramos:

1. Varianza:

Análisis de varianza de un factor: Esta herramienta de análisis consiste en un análisis de varianza de dos o más muestras, en donde se testea que la información contenida de dentro de ambas muestras provienen del mismo tipo de distribución de datos. La tabla de Excel entrega información como promedio, varianza, número total de observaciones, número de subgrupos.

Análisis de varianza con dos factores en varias muestras por grupos: Esta herramienta es útil cuando los datos se pueden clasificar de acuerdo a dos dimensiones diferentes.

Aplicación: en un experimento para medir el alto de las plantas. Las plantas pueden recibir diferentes marcas de fertilizante (A, B, C) y también estar a temperaturas distintas (alta, baja). Para cada uno de los seis pares (fertilizante, temperatura) posibles, tenemos un número igual de observaciones de alto de la planta. Con esta herramienta podemos comprobar: Si el alto de las plantas para los diferentes fertilizantes se extrae de la misma población subyacente. Las temperaturas no se tienen en cuenta en este análisis, y viceversa.

Análisis de varianza con dos factores con una sola muestra por grupo: Esta herramienta es útil cuando los datos se clasifican en dos dimensiones diferentes, como en el caso de la varianza de dos factores con varias muestras por grupo. No obstante, con esta herramienta se supone que existe una única observación para cada par.

Aplicación: cada uno de los pares {fertilizante, temperatura} del ejemplo anterior.

2. Coeficiente de Correlación: este coeficiente describe el grado de relación lineal entre dos variables cuantitativas, es decir el grado de variación conjunta. El coeficiente busca ser independiente de las unidades de medida de las variables involucradas, de manera que si se altera la unidad de medida (ej. Cm a m) la correlación no se vea alterada.

Aplicación: Analizar relación entre estatura y peso de alumnos de un mismo curso. Es muy probable que resulte a mayor altura, mayor peso.

3. Covarianza: esta herramienta también nos permite identificar el grado de variación conjunta de las variables. En este caso la relación se mide en términos de varianza de cada variable, es decir, corresponde a la varianza entre una variable y otra.

Aplicación: Analizar variación común de notas de un mismo curso en un ramo de matemáticas y en uno de física.

4. Estadística descriptiva: esta herramienta genera una tabla resumen con los estadísticos más importantes de una serie de datos para cada variable involucrada (media, moda, mediana, error, desviación estándar, varianza, kurtosis, entre otros). El orden y valor dependerá si el análisis es realizado en términos de filas o columnas.

Aplicación: Para obtener las estadísticas más importantes de una submuestra de la encuesta CASEN.

5. Suavización exponencial: Esta herramienta predice un valor, basado en el pronóstico del período anterior y ajustado por el error de ese pronóstico anterior. Se utiliza una constante de suavización “α”, que indica como los pronósticos de períodos actuales se relacionan con los errores de períodos anteriores.
La fórmula general es Ft = Ft-1 + a (At-1- Ft-1, donde F se refieren a los pronósticos, A al valor efectivo y los sub-índices a los períodos.

Aplicación: Realizar un pronóstico de ventas mediante suavización exponencial, con datos de distintos períodos.

6. Prueba F para varianza de dos Muestras: Esta herramienta se utiliza para testear si las varianzas poblacionales de dos muestras independientes son estadísticamente iguales o no. La hipótesis nula es que las varianzas son iguales, y Excel entrega el valor del estadístico y el valor crítico para que uno realice el análisis.


Aplicación: Observar la regularidad de dos equipos de natación, con muestras de los tiempos realizados por cada uno de los equipos.


7. Análisis de Fourier: Esta herramienta analiza datos periódicos y los transforma mediante el método de transformación rápida de Fourier (FFT), y así determina el contenido de armónicas (espectro) de la serie. En otras palabras, obtiene una función discontinua desde la suma de funciones continuas. Excel también realiza la función inversa.


Aplicación: Distinguir las frecuencias de una señal (telefonía móvil).


8. Histograma: La herramienta histograma del análisis de datos sirve para crear un gráfico que muestra las frecuencias individuales y acumuladas de un rango dentro de una base de datos. Es la forma gráfica de expresión de los datos de una base.


Aplicación: Cálculo de la moda de los datos de una muestra, mostrar la distribución de los datos, etc.


9. Media Móvil: La media móvil sirve para analizar tendencias. Lo que hace es calcular el promedio de los datos a lo largo de todo el período de análisis, con lo que se obtienen valores de pronósticos. Con las medias es posible hacer un análisis del rendimiento de la empresa.

Aplicación: Pronosticar tendencias de todas las áreas de la empresa, hacer el análisis pertinente y poder tomar rumbs de acción.

10. Generación de números aleatorios: Esta herramienta rellena un rango con números aleatorios extraído desde un tipo de distribución estadística.

Aplicación: Poder, por ejemplo, caracterizar un juego de azar o probabilístico. Sirve para asignar una muestra aleatoria para un experimento, encuesta, etc.

11. Jerarquía y percentil: Esta herramienta crea una tabla con los rangos, tanto ordinales como porcentuales, de cada valor en un conjunto de datos. Es decir, analiza la importancia relativa de cada valor dentro de un conjunto de datos.

Aplicación: Medir el impacto de una política en las distintas regiones del país.

12. Regresión: Esta herramienta realiza una regresión lineal de los datos mediante el método de mínimos cuadrados ordinarios (MCO). Con esto, se ordena de forma lineal cómo las variables independientes afectan a la variable dependiente analizada.

Aplicación: Ver cómo afecta en la producción de leche la calidad del alimento de las vacas, el clima, el tipo de vaca, etc.

13. Muestra: La herramienta Muestreo crea una muestra representativa de una población. Es decir, cuando el conjunto de datos es muy grande para trabajarlo o presentarlo, se puede analizar mediante la muestra.

Aplicación: Hacer un análisis con bases de datos muy grandes o periódicas.


14. Prueba t: Las herramientas de prueba t (o test t) permiten comprobar la igualdad de las medias de población de se extraen de cada muestra. Este test permite comprobar la veracidad o falsedad de una hipótesis. Hay tres pruebas distintas:

Prueba t para medias de dos muestras emparejadas: esta prueba se puede realizar cuando ambas muestras tienen la misma cantidad de datos. No se supone que las varianzas sean iguales.


Aplicación: Análisis de muestras antes y después de un experimento.



Prueba t para dos muestras suponiendo varianzas iguales: Esta prueba supone que las varianzas de ambas muestras son iguales. Se conoce como prueba t homocedástica. 



Aplicación: Determina si es probable que las dos muestras procedan de distribuciones con medias de población iguales.



Prueba t para dos muestras suponiendo varianzas desiguales: Esta prueba, al revés que la anterior, se conoce como prueba t heterocedástica. Se utiliza esta prueba cuando hay sujetos distintos en las dos muestras.



Aplicación: Determina si es probable que las dos muestras procedan de distribuciones con medias de población iguales.

Prueba z para medias de dos muestras: Esta herramienta se utiliza para comprobar que no existen diferencias ente dos medias de población. Se realiza la prueba en las medias de dos muestras con varianzas conocidas.

Aplicación: Determinar las diferencias ente el rendimiento de dos modelos de autos.

Ejemplos:

i) Utilizando una base de datos que indica la demanda de un producto “X” para los últimos 11 años, en conjunto con la herramienta de “suavización exponencial”, somos capaces de generar una estimación de la demanda para el año 2012. Es importante destacar que esta herramienta sirve para predecir un solo periodo, pero que sin embargo resulta útil para poder generar proyecciones confiables, según la evolución histórica que ha mantenido tu compañía.





ii) El siguiente ejemplo esta realizado con una base de datos que contiene las notas de alumnos de la facultad, desde el año 1998 hasta el 2003 con sus respectivos puntajes de ingreso (NEM, PAA, PSU), además de la dependencia de los establecimientos del cual egresaron de enseñanza media. Utilizando estos datos podemos realizar una “Regresión Lineal” explicando el comportamiento de Notas de Universidad como variable dependiente, y NEM como variable explicativa. Excel nos permite generar gráficos que ilustren la relación en conjunto con la tabla resumen.
iii) Mediante “Estadística Descriptiva” también podemos obtener un análisis más detallado de cada una de las variables que se encuentran contenidas dentro de la base, de forma tal de complementar los informes que deben ser realizados con datos e información que sea más fácil de interpretar:




http://subir.cc/images/foto4ewe.jpg

iv) El “Histrograma” nos permite conocer la frecuencia de alumnos que egresaron de establecimientos de enseñanza media municipales, subvencionados o particulares pagados.




http://subir.cc/images/foto5qhq.jpg

v) Las herramientas de Análisis de Datos también nos permite generar un orden en nuestra base de datos, por medio de “Jerarquía y Percentil”  podemos distinguir cuales observaciones ocupan los percentiles más altos y cuál es su posición dentro de la muestra. Así también podemos calcular la covarianza y correlación de variables de la muestra de notas, lo que puede resultar relevante para identificar relaciones conjuntas entre variables.

vi) Un último ejercicio con esta base puede ser hecho utilizando la prueba Z para conocer si existen diferencias significativas entre las medias de dos muestras. Para ello, en primer lugar, debemos seleccionar dos submuestras de nuestra muestra de alumnos con la herramienta “Muestra” , de 100 observaciones aleatorias cada una. A partir de esto realizamos una “Prueba Z para medias de dos muestras” de lo que obtenemos lo siguiente:
vii) Así también podemos realizar pruebas t o F para complementar el análisis de esta base y de esta manera obtener conclusiones más certeras. Las herramientas entregadas por Análisis de Datos nos permiten rescatar valiosa información de bases de datos que no siempre son fáciles de estudiar debido a su extensión u ordenamiento, por lo cual resulta fundamental tanto para un administrados como un economista conocer estos instrumentos y saber utilizarlos, ya que no siempre contaremos con programas estadísticos especializados como Stata.
Les adjuntamos un link dónde podrán descargar el archivo Excel completo con los ejercicios desarrollados en este trabajo, de esta forma ustedes mismos podrán desarrollar y constatar las facilidades que entrega este complemento:





Autores:
Alejandro Isla
José McKendric
Bernardita Muñoz
Daniel Quezada


No hay comentarios:

Publicar un comentario