Objetivos Lo ms importante a la hora de planificar una encuesta es fijar los objetivos que queremos lograr. Se tiene un cuestionario ya diseado y se desean analizar los gustos, costumbres y algunas caractersticas de los alumnos. Se vern los pasos a seguir en este caso. No existen normas fijas sobre cmo analizar una encuesta, depende de lo que se desee estudiar. Informacin Lo primero es obtener un resumen de la informacin que proporcionan los datos. Para ello, se construir la tabla de frecuencias y los grficos adecuados a las variables. Es importante que, desde el principio, se tenga en cuenta que hay medidas, mtodos, etc. que slo tienen sentido para variables cuantitativas y no para atributos. Frecuencias Se comienza con un documento en el que estn los datos organizados en una tabla y sin recontar. Con Excel se pueden calcular las frecuencias absolutas mediante dos funciones diferentes. Las frecuencias relativas y acumuladas se deben calcular a travs de frmulas. Funcin CONTAR.SI Es la funcin que se utiliza para calcular frecuencias de atributos. Recibe como argumentos: Un rango de datos (el que deseemos recontar). El valor del que se desea conocer la frecuencia. Devuelve la frecuencia absoluta del valor indicado. Funcin FRECUENCIA Esta funcin slo es vlida para variables numricas y es la recomendada para agrupar en intervalos. Recibe como argumentos: Rango con los datos. Los valores de los extremos finales de los intervalos. Devuelve una matriz que tiene un elemento ms que extremos se hayan indicado. Representaciones Una vez calculadas las frecuencias, se pasa a representar los datos. Un grfico adecuado puede proporcionar mucha informacin sobre los datos y como se distribuyen. Son especialmente representativos en el caso de que se trate con atributos pues sern la principal referencia. Grficos Excel tiene bastantes posibilidades a la hora de hacer grficas. Posee un asistente que ayuda a construir los grficos. Se vern los pasos que se deben seguir con dicho asistente. El asistente aparecer al pulsar el botn Grficos (paso 1) Primero se elige el tipo de grfico adecuado: barras, columnas, circular, XY (dispersin)... Grficos (paso 2) Se eligen los datos de origen: si los datos estn en filas o en columnas y dnde estn Grficos (paso 2-cont) Se eligen las series que se quieren representar y dnde se encuentran los rtulos. Grficos (paso 3) Se elige el aspecto de ejes, leyenda, rtulos, ttulos... Grficos (paso 4) Para terminar se decide la ubicacin del grfico: A posteriori se pueden hacer cambios sobre l utilizando la barra de herramientas grfico: Medidas Se busca una medida que represente de manera adecuada al conjunto de datos. Existen varias y la eleccin depender del tipo de datos. No tiene sentido el clculo de media, mediana, etc para atributos, para los que fundamentalmente se calcular la moda. Medidas de posicin Excel permite el clculo de las medidas de posicin ms importantes. Se encuentran en el apartado estadstica de la lista de funciones. Dicha lista aparece pulsando el botn Se calcularn a partir de ahora medias, varianzas, percentiles, moda, mediana... Funciones PROMEDIO, MEDIANA y MODA Las funciones PROMEDIO, MEDIANA y MODA se usarn para calcular la media, mediana y moda. Reciben un rango de celdas, donde estn los datos y NO permiten trabajar con frecuencias. La mediana da el valor central si el nmero de valores es impar; la media de los valores centrales si es par. Elimina los valores extremos. La moda devuelve #N/A si no hay valores repetidos o son atributos. Si hay dos igual de frecuentes, devuelve el primero que aparece. Comparaciones No existe un criterio fijo para decidir cul de las tres medidas anteriores es la ms adecuada en general, ya que depende fuertemente de las caractersticas de los datos. Es til representar estas tres medidas en el grfico de los datos, lo que permite ver cul de las tres es ms representativa. Funciones PERCENTIL y CUARTIL Las funciones PERCENTIL y CUARTIL son las que se utilizarn para el clculo de percentiles y cuartiles de los datos. Reciben como argumentos el rango en el que estn los datos; y k, el valor del percentil, que debe estar entre 0 y 1 (para el percentil 30, indicaremos 0,3) o un valor entre 1 y 4, respectivamente. En caso de que el percentil se encuentre entre dos observaciones, Excel determina su valor por interpolacin. Dispersin Se necesitamos ahora una medida del error que se cometera al representar el conjunto de datos a travs de una medida de tendencia central. El rango y rango intercuartlico miden la diferencia entre los valores extremos del conjunto de datos y entre el primer y tercer cuartil, respectivamente. La desviacin tpica es una medida indicativa del error al representar los datos mediante la media. Clculo de los rangos Excel no tiene una funcin para calcular el rango, aunque es fcil calcularlo haciendo uso de las funciones MAX y MIN. Ambas reciben como argumentos un rango de datos y devuelven respectivamente el mayor y el menor valor. El rango puede calcularse como la diferencia entre ambas. El rango intercuartlico se calcula como diferencia entre los cuartiles tercero y primero. Funciones VARP y DESVESTP La funcin VARP es la que permite calcular la varianza de todo un conjunto de datos y DESVESTP la desviacin tpica. Reciben como argumento el conjunto de datos del se quiere conocer su varianza o desviacin tpica. OJO!: La funciones VAR y DESVEST calculan la varianza y desviacin tpica de una muestra de los datos, no de todos. Clculo del coeficiente de variacin Para el coeficiente de variacin, Excel tampoco tiene una funcin especfica. Se puede calcular haciendo uso de la definicin, como cociente entre la desviacin tpica y la media. Otras funciones Excel permite el clculo de otras medidas. Veamos algunas. El coeficiente de asimetra se puede calcular mediante la funcin COEFICIENTE.ASIMETRIA. El coeficiente de curtosis se puede calcular mediante la funcin CURTOSIS. Clculos para dos variables Excel tiene numerosas funciones que pueden ser utilizadas para el anlisis descriptivo de dos variables. Es una herramienta importante para el clculo de rectas de regresin, covarianzas, coeficiente de correlacin... Como en el caso de una variable, se empieza por resumir la informacin mediante tablas de frecuencias y grficos. Tablas de frecuencias (I) Para calcular en Excel las tablas de frecuencia de dos variables o tablas de doble entrada se elige Informe de tablas y grficos dinmicos del men datos. Tablas de frecuencias (II) Aparece entonces un cuadro de dilogo como ste, en el que se elige lo marcado: Tablas de frecuencias (III) Se elige la ubicacin de los datos. Y aparece un cuadro de dilogo en el que se puede elegir las opciones de la tabla. Tablas de frecuencias (IV) Al pulsar el botn diseo aparece A la derecha estn las dos variables y deben ubicarse donde se desea que aparezcan sus valores. Tablas de frecuencias (V) Se arrastra una variable a la zona DATOS y se pincha dos veces para elegir la funcin Contar de Var1;Contar de Var2 Tablas de frecuencias (VI) Al pulsar en opciones aparece: Tablas de frecuencias (VII) Se debe obtener una tabla como sta: Tambin se obtienen las distribuciones marginales. El clculo de las frecuencias condicionadas es sencillo a partir de la tabla. Grficos Para el caso de dos variables el diagrama de dispersin (XY en Excel) aporta mucha informacin. As la forma orienta sobre el grado de dependencia, si existe relacin inversa o directa, si se aproxima a una recta, etc. Estas conclusiones se confirmarn con las correspondientes medidas. Funciones COVAR y COEF.DE.CORREL Las funciones COVAR y COEF.DE.CORREL son las que permiten el clculo de la covarianza y el coeficiente de correlacin de dos variables. Reciben como argumentos dos rangos de datos que deben tener el mismo nmero de observaciones. Aproximaciones Una vez que se han calculado la covarianza y el coeficiente de correlacin lineal, se decide si tiene sentido el clculo de la recta de regresin para las dos variables. Estos procesos no son vlidos si se trabaja con atributos, para los que se utilizan otros mtodos, que no se vern en este curso. Rectas de regresin (I) El clculo de rectas de regresin en Excel se realiza con la funcin ESTIMACION.LINEAL La recta de regresin entre Y y X tiene la siguiente expresin: Y mX b = + Rectas de regresin (II) Aparece este cuadro de dilogo. Rectas de regresin (III) En conocido_y se introducen los valores de la variable independiente (obligatorio) En conocido_x se introducen los valores de la variable dependiente. En constante se indica verdadero (o nada) si se quiere que se calcule b o falso si se tiene la certeza de que la constante es 0. En estadstica se indica verdadero si se quieren calcular estadsticos adicionales, o falso en caso contrario Rectas de regresin (IV) Los estadsticos adicionales se muestran en la forma: b es el punto de interseccin con el eje Y. Se puede calcular tambin con la funcin INTERSECCION.eje m es la pendiente de la recta de regresin. Se puede calcular tambin con la funcin PENDIENTE se(b) valor del error tpico de la interseccin se(m) valor del error tpico de la pendiente Rectas de regresin (V) se(y) error tpico de la estimacin. Se puede calcular tambin con ERROR.TIPICO.XY R2 coeficiente de determinacin de la recta. Se puede calcular tambin con COEFICIENTE.R2 df son los grados de libertad para la prueba F F es el estadstico F o valor F observado. Se puede calcular tambin con DIST.F se(resid) es la suma de los cuadrados de los residuos. se(reg) es la suma de los cuadrados de la regresin. Predicciones A partir de la recta de regresin se pueden realizar predicciones. Estas predicciones sern tanto ms fiables cuanto ms se ajuste la recta a los datos. La estimacin lineal no es el nico recurso, se pueden hacer tambin estimaciones logartmicas, exponenciales...si se consideran ms adecuadas a los datos.