Anda di halaman 1dari 31

ESTADSTICA HOJA DE TRABAJO No.

1 Investigar los siguientes temas: Medidas de dispersin Rango Varianza Desviacin estndar -Medidas de posicin: Cuartil Decil -Clculo de la curtosis -Anlisis de los resultados de estadstica descriptiva Realizar la descripcin de los temas, ilustrarlos y realizar los respectivos ejemplos. En hojas, a mano, sin folder. No se aceptar tareas hechas a computadora!!!. Fecha de entrega: Lunes 24 de julio de 2011 ( No se recibirn tareas fuera de esta fecha, por ningn motivo) Valoracin: 20 Pts.

HOJA DE TRABAJO No. 2 I. Dado el siguiente conjunto de datos , realizar su tabla de distribucin de frecuencias y calcula la media aritmtica, mediana y moda. 45 78 96 12 67 67 98 56 87 39 89 65 36 56 87 32 34 47 43 42 56 23 85 98 86 76 91 49 67 56 23 20 52 75 78 98 45 58 34 93 95 67 67 56 45 42 83 81 78 76

II. Dado el siguiente conjunto de datos , realizar su tabla de distribucin de frecuencias y calcula la media aritmtica, mediana y moda. 36 78 64 56 23 13 57 87 65 90

87 67 31 29

67 34 61 93

45 28 83 45

34 94 49 67

78 56 63 21

97 73 68 53

60 98 74 62

61 68 58 64

78 74 28 78

75 45 58 39

Fecha de entrega: el da del examen .. en hojas, engrapado, sin folder, ( No se recibirn tareas fuera de esta fecha, por ningn motivo) Puntuacin: 20 Pts.

Medidas de dispersin
De Wikipedia, la enciclopedia libre Saltar a navegacin, bsqueda Las medidas de dispersin, tambin llamadas medidas de variabilidad, muestran la variabilidad de una distribucin, indicando por medio de un nmero, si las diferentes puntuaciones de una variable estn muy alejadas de la mediana media. Cuanto mayor sea ese valor, mayor ser la variabilidad, cuanto menor sea, ms homognea ser a la mediana media. As se sabe si todos los casos son parecidos o varan mucho entre ellos. Para calcular la variabilidad que una distribucin tiene respecto de su media, se calcula la media de las desviaciones de las puntuaciones respecto a la media aritmtica. Pero la suma de las desviaciones es siempre cero, as que se adoptan dos clases de estrategias para salvar este problema. Una es tomando las desviaciones en valor absoluto (Desviacin media) y otra es tomando las desviaciones al cuadrado (Varianza).

Rango estadstico
El rango o recorrido estadstico es la diferencia entre el valor mnimo y el valor mximo en un grupo de nmeros aleatorios. Se le suele simbolizar con R.
[editar] Requisitos del rango
y y

Ordenamos los nmeros segn su tamao. Restamos el valor mnimo del valor mximo

[editar] Ejemplo

Para una muestra (8,7,6,9,4,5), el dato menor es 4 y el dato mayor es 9 (Valor unitario inmediatamente posterior al dato mayor menos el dato menor). Sus valores se encuentran en un rango de:
Rango = 5

EL RANGO O RECORRIDO ( R ):
Es la medida de variabilidad ms fcil de calcular. Para datos finitos o sin agrupar, el rango se define como la diferencia entre el valor ms alto (Xn Xmax.) y el mas bajo (X1 Xmin) en un conjunto de datos. Rango para datos no agrupados; R = Xmx.-Xmn = Xn-X1 Ejemplo: Se tienen las edades de cinco estudiantes universitarios de Ier ao, a saber: 18,23, 27,34 y 25., para calcular la media aritmtica (promedio de las edades, se tiene que: R = Xn-X1 ) = 34-18 = 16 aos Con datos agrupados no se saben los valores mximos y mnimos. Si no hay intervalos de clases abiertos podemos aproximar el rango mediante el uso de los lmites de clases. Se aproxima el rango tomando el limite superior de la ltima clase menos el limite inferior de la primera clase. Rango para datos agrupados; R= (lim. Sup. de la clase n lim. Inf. De la clase 1) Ejemplo: Si se toman los datos del ejemplo resuelto al construir la tabla de distribucin de frecuencia de las cuentas por cobrar de Cabreras y Asociados que fueron los siguientes:

Clases

P.M. Xi

fi

fr

fa

fa

fra

fra

7.420 21.835

14.628 10 0.33 10 0.13 14 0.17 19 0.10 22 0.10 25 0.17 30

30 20 16 11 8 5

0.33 1.00 0.46 0.67 0.63 0.54 0.73 0.37 0.83 0.27 1.00 0.17

21.835 36.250 29.043 4 36.250 50.665 43.458 5 50.665 65.080 57.873 3 65.080 79.495 72.288 3 79.495 93.910 86.703 5 Total XXX

30 1.00 XXX XXX XXX XXX

[editar] Varianza
La varianza es una medida estadstica que mide la dispersin de los valores respecto a un valor central (media), es decir, la raz cuadrada de las desviaciones .:

[editar] Propiedades La varianza es siempre positiva o 0: Si a los datos de la distribucin les sumamos una cantidad constante la varianza no se modifica.

y y

Yi = Xi + k c

Si a los datos de la distribucin les multiplicamos una constante, la varianza queda multiplicada por el cuadrado de esa constante.

Propiedad distributiva: V(X + Y) = V(X) + V(Y)

[editar] Desviacin tpica


La varianza a veces no se interpreta claramente, ya que se mide en unidades cuadrticas. Para evitar ese problema se define otra medida de dispersin, que es la desviacin tpica, o desviacin estndar, que se halla como la raz cuadrada positiva de la varianza. La desviacin tpica informa sobre la dispersin de los datos respecto al valor de la media; cuanto mayor sea su valor, ms dispersos estarn los datos. Esta medida viene representada en la mayora de los casos por S, dado que es su inicial de su nominacin en ingls.
[editar] Desviacin tpica muestral

[editar] Desviacin tpica poblacional

[editar] Ejemplo

Con Scilab este clculo se hace de la siguiente manera: QUE


-->x= [17 14 2 5 8 7 6 8 5 4 3 15 9] x = 17. 9. -->stdev(x) ans = 4.716311 --> 14. 2. 5. 8. 7. 6. 8. 5. 4. 3. 15.

Primero hemos declarado un vector con nombre X, donde introduzco los nmeros de la serie. Luego con el comando stdev se hallar la desviacin tpica.

Rango (estadstica)
De Wikipedia, la enciclopedia libre Saltar a navegacin, bsqueda

En estadstica descriptiva se denomina rango estadstico (R) o recorrido estadstico al intervalo de menor tamao que contiene a los datos; es calculable mediante la resta del valor mnimo al valor mximo; por ello, comparte unidades con los datos. Permite obtener una idea de la dispersin de los datos. Por ejemplo, para una serie de datos de carcter cuantitativo como es la estatura tal y como:
x1 = 185,x2 = 165,x3 = 170,x4 = 182,x5 = 155

es posible ordenar los datos como sigue:


x(1) = 155,x(2) = 165,x(3) = 170,x(4) = 182,x(5) = 185

donde la notacin x(i) indica que se trata del elemento i-simo de la serie de datos. De este modo, el rango sera la diferencia entre el valor mximo (k) y el mnimo; o, lo que es lo mismo:
R

= x(k)

x(1)

En nuestro ejemplo, con cinco valores, nos da que R = 185-155 = 30.

Varianza
En teora de probabilidad, la varianza (que suele representarse como 2) de una variable aleatoria es una medida de su dispersin definida como la esperanza del cuadrado de la desviacin de dicha variable respecto a su media. Est medida en unidades distintas de las de la variable. Por ejemplo, si la variable mide una distancia en metros, la varianza se expresa en metros al cuadrado. La desviacin estndar, la raz cuadrada de la varianza, es una medida de dispersin alternativa expresada en las mismas unidades. La varianza tiene como valor mnimo 0. Hay que tener en cuenta que la varianza puede verse muy influida por los valores atpicos y no se aconseja su uso cuando las distribuciones de las variables aleatorias tienen colas pesadas. En tales casos se recomienda el uso de otras medidas de dispersin ms robustas. El trmino varianza fue acuado por Ronald Fisher en un artculo de 1918 titulado The Correlation Between Relatives on the Supposition of Mendelian Inheritance.

[editar] Definicin
Dada una variable aleatoria X con media = E(X), se define su varianza, Var(X) (tambin representada como o, simplemente 2), como

Desarrollando la definicin anterior, se obtiene la siguiente definicin alternativa (y equivalente):

Si una distribucin no tiene esperanza, como ocurre con la de Cauchy, tampoco tiene varianza. Existen otras distribuciones que, aun teniendo esperanza, carecen de varianza. Un ejemplo de ellas es la de Pareto cuando su ndice k satisface 1 < k 2.
[editar] Caso continuo

Si la variable aleatoria X es continua con funcin de densidad f(x), entonces

donde

y las integrales estn definidas sobre el rango de X.


[editar] Caso discreto

Si la variable aleatoria X es discreta con pesos x1

p1, ..., xn

pn, entonces

donde

[editar] Ejemplos
[editar] Distribucin exponencial

La distribucin exponencial de parmetro intervalo [0,) y funcin de densidad

es una distribucin continua con soporte en el

Tiene media

Es decir,

[editar] Dado perfecto

Un dado de seis caras puede representarse como una variable aleatoria discreta que toma, valores del 1 al 6 con probabilidad igual a 1/6. El valor esperado es (1+2+3+4+5+6)/6 = 3.5. Por lo tanto, su varianza es:

[editar] Propiedades de la varianza


Algunas propiedades de la varianza son:
y y

deduce que la varianza de una constante es cero, es decir,


y

e Y.
y

e Y.

[editar] Varianza muestral


En muchas situaciones es preciso estimar la varianza de una poblacin a partir de una muestra. Si se toma una muestra con reemplazamiento de n valores de ella, de entre todos los estimadores posibles de la varianza de la poblacin de partida, existen dos de uso corriente:

. Por lo tanto, su varianza es:

siendo a y b nmeros reales cualesquiera. De esta propiedad se , donde Cov(X,Y) es la covarianza de X , donde Cov(X,Y) es la covarianza de X

Cuando los datos estn agrupados:

A los dos (cuando est dividido por n y cuando lo est por n-1) se los denomina varianza muestral. Difieren ligeramente y, para valores grandes de n, la diferencia es irrelevante. El primero traslada directamente la varianza de la muestra al de la poblacin y el segundo es un estimador insesgado de la varianza de la poblacin. De hecho,

mientras que

[editar] Propiedades de la varianza muestral

Como consecuencia de la igualdad , s2 es un estadstico insesgado de 2. Adems, si se cumplen las condiciones necesarias para la ley de los grandes nmeros, s2 es un estimador consistente de 2. Ms an, cuando las muestras siguen una distribucin normal, por el teorema de Cochran, s2 tiene la distribucin chi-cuadrado:

1. INTRODUCCIN 2. CUANTILES Los cuantiles son medidas de posicin que se determinan mediante un mtodo que determina la ubicacin de los valores que dividen un conjunto de observaciones en partes iguales. Los cuantiles son los valores de la distribucin que la dividen en partes iguales, es decir, en intervalos que comprenden el mismo nmero de valores. Cuando la distribucin contiene un nmero alto de intervalos o de marcas y se requiere obtener un promedio de una parte de ella, se puede dividir la distribucin en cuatro, en diez o en cien partes. Los ms usados son los cuartiles, cuando dividen la distribucin en cuatro partes; los deciles, cuando dividen la distribucin en diez partes y los centiles o percentiles, cuando dividen la distribucin en cien partes. Los cuartiles, como los deciles y los percentiles, son en cierta forma una extensin de la mediana. Para algunos valores u , se dan nombres particulares a los cuantiles, Q (u):
u 0.5 0.25, 0.75 0.1, ... , 0.99 0.01, ..., 0.99 Q(u) Mediana Cuartiles Deciles Centiles

CUARTILES Los cuartiles son los tres valores que dividen al conjunto de datos ordenados en cuatro partes porcentualmente iguales. Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundo cuartil es precisamente la mediana. El primer cuartil, es el valor en el cual o por debajo del cual queda un cuarto (25%) de todos los valores

de la sucesin (ordenada); el tercer cuartil, es el valor en el cual o por debajo del cual quedan las tres cuartas partes (75%) de los datos. Datos Agrupados

Como los cuartiles adquieren su mayor importancia cuando contamos un nmero grande de datos y tenemos en cuenta que en estos casos generalmente los datos son resumidos en una tabla de frecuencia. La frmula para el clculo de los cuartiles cuando se trata de datos agrupados es la siguiente: k= 1,2,3 Donde: Lk = Lmite real inferior de la clase del cuartil k n = Nmero de datos Fk = Frecuencia acumulada de la clase que antecede a la clase del cuartil k. fk = Frecuencia de la clase del cuartil k c = Longitud del intervalo de la clase del cuartil k Si se desea calcular cada cuartil individualmente, mediante otra frmula se tiene lo siguiente:
y

El primer cuartil Q1, es el menor valor que es mayor que una cuarta parte de los datos; es decir, aquel valor de la variable que supera 25% de las observaciones y es superado por el 75% de las observaciones.

Frmula de Q1, para series de Datos agrupados:

Donde: L1 = limite inferior de la clase que lo contiene P = valor que representa la posicin de la medida f1 = la frecuencia de la clase que contiene la medida solicitada. Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada. Ic = intervalo de clase
y

El segundo cuartil Q2, (coincide, es idntico o similar a la mediana, Q2 = Md), es el menor valor que es mayor que la mitad de los datos, es decir el 50% de las observaciones son mayores que la mediana y el 50% son menores.

Frmula de Q2, para series de Datos agrupados:

Donde: L1 = limite inferior de la clase que lo contiene P = valor que representa la posicin de la medida f1 = la frecuencia de la clase que contiene la medida solicitada. Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada. Ic = intervalo de clase
y

El tercer cuartil Q3, es el menor valor que es mayor que tres cuartas partes de los datos, es decir aquel valor de la variable que supera al 75% y es superado por el 25% de las observaciones.

Frmula de Q3, para series de Datos agrupados:

Donde: L1 = limite inferior de la clase que lo contiene P = valor que representa la posicin de la medida f1 = la frecuencia de la clase que contiene la medida solicitada. Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada. Ic = intervalo de clase. Otra manera de verlo es partir de que todas las medidas no son sino casos particulares del percentil, ya que el primer cuartil es el 25% percentil y el tercer cuartil 75% percentil. Para Datos No Agrupados Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes frmulas: - El primer cuartil: Cuando n es par:

Cuando n es impar:

Para el tercer cuartil

Cuando n es par:

Cuando n es impar:

DECILES Los deciles son ciertos nmeros que dividen la sucesin de datos ordenados en diez partes porcentualmente iguales. Son los nueve valores que dividen al conjunto de datos ordenados en diez partes iguales, son tambin un caso particular de los percentiles. Los deciles se denotan D1, D2,..., D9, que se leen primer decil, segundo decil, etc. Los deciles, al igual que los cuartiles, son ampliamente utilizados para fijar el aprovechamiento acadmico. Datos Agrupados Para datos agrupados los deciles se calculan mediante la frmula.

k= 1,2,3,... 9 Donde: Lk = Lmite real inferior de la clase del decil k n = Nmero de datos Fk = Frecuencia acumulada de la clase que antecede a la clase del decil k. fk = Frecuencia de la clase del decil k c = Longitud del intervalo de la clase del decil k Otra frmula para calcular los deciles:
y

El cuarto decil, es aquel valor de la variable que supera al 40%, de las observaciones y es superado por el 60% de las observaciones.

El quinto decil corresponde a la mediana.

El noveno decil supera al 90% y es superado por el 10% restante.

Donde (para todos): L1 = limite inferior de la clase que lo contiene P = valor que representa la posicin de la medida f1 = la frecuencia de la clase que contiene la medida solicitada. Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada. Ic = intervalo de clase. Frmulas Datos No Agrupados Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes frmulas:

Cuando n es par:

Cuando n es impar: Siendo A el nmero del decil. CENTILES O PERCENTILES Los percentiles son, tal vez, las medidas ms utilizadas para propsitos de ubicacin o clasificacin de las personas cuando atienden caractersticas tales como peso, estatura, etc. Los percentiles son ciertos nmeros que dividen la sucesin de datos ordenados en cien partes porcentualmente iguales. Estos son los 99 valores que dividen en cien partes iguales el conjunto de datos ordenados. Los percentiles (P1, P2,... P99), ledos primer percentil,..., percentil 99. Datos Agrupados Cuando los datos estn agrupados en una tabla de frecuencias, se calculan mediante la frmula:

k= 1,2,3,... 99 Donde: Lk = Lmite real inferior de la clase del decil k n = Nmero de datos Fk = Frecuencia acumulada de la clase que antecede a la clase del decil k.

fk = Frecuencia de la clase del decil k c = Longitud del intervalo de la clase del decil k Otra forma para calcular los percentiles es:
y

Primer percentil, que supera al uno por ciento de los valores y es superado por el noventa y nueve por ciento restante.

El 60 percentil, es aquel valor de la variable que supera al 60% de las observaciones y es superado por el 40% de las observaciones.

El percentil 99 supera 99% de los datos y es superado a su vez por el 1% restante.

Frmulas Datos No Agrupados Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes frmulas: Para los percentiles, cuando n es par:

Cuando n es impar: Siendo A, el nmero del percentil. Es fcil ver que el primer cuartil coincide con el percentil 25; el segundo cuartil con el percentil 50 y el tercer cuartil con el percentil 75. 3. EJEMPLO Determinacin del primer cuartil, el sptimo decil y el 30 percentil, de la siguiente tabla:
Salarios No. De fa

(I. De Clases) Empleados (f1)

200-299 300-299 400-499 500-599 600-699 700-800

85 90 120 70 62 36

85 175 295 365 427 463

Como son datos agrupados, se utiliza la frmula

Siendo,

La posicin del primer cuartil.

La posicin del 7 decil.

La posicin del percentil 30. Entonces,

El primer cuartil: 115.5 85 = 30.75 Li = 300, Ic = 100 , fi = 90

El 7 decil:

Posicin:

324.1 295 = 29.1 Li = 500, fi = 70

El percentil 30 Posicin:

138.9 85 = 53.9 fi = 90

Estos resultados nos indican que el 25% de los empleados ganan salarios por debajo de $ 334; que bajo 541.57 gana el 57%de los empleados y sobre $359.88, gana el 70% de los empleados.

Desviacin estndar
De Wikipedia, la enciclopedia libre Saltar a navegacin, bsqueda

La desviacin estndar o desviacin tpica ( ) es una medida de centralizacin o dispersin para variables de razn (ratio o cociente) y de intervalo, de gran utilidad en la estadstica descriptiva. Se define como la raz cuadrada de la varianza. Junto con este valor, la desviacin tpica es una medida (cuadrtica) que informa de la media de distancias que tienen los datos respecto de su media aritmtica, expresada en las mismas unidades que la variable. Para conocer con detalle un conjunto de datos, no basta con conocer las medidas de tendencia central, sino que necesitamos conocer tambin la desviacin que representan los datos en su distribucin respecto de la media aritmtica de dicha distribucin, con objeto de tener una visin de los mismos ms acorde con la realidad al momento de describirlos e interpretarlos para la toma de decisiones.

[editar] Formulacin
La varianza representa la media aritmtica de las desviaciones con respecto a la media que son elevadas al cuadrado.

Si atendemos a la coleccin completa de datos (la poblacin en su totalidad) obtenemos la varianza poblacional; y si por el contrario prestamos atencin slo a una muestra de la poblacin, obtenemos en su lugar la varianza muestral. Las expresiones de estas medidas son las que aparecen a continuacin. Expresin de la varianza muestral:

Segunda forma de calcular la varianza muestral:

demostracin

podemos observar que como

(sumamos n veces 1 y luego dividimos por n)

y como

obtenemos

Expresin de la cuasivarianza muestral (estimador insesgado de la varianza poblacional):

Expresin de la varianza poblacional:

donde

es el valor medio de {Xi}

Expresin de la desviacin estndar poblacional:

El trmino desviacin estndar fue incorporado a la estadstica por Karl Pearson en 1894. Por la formulacin de la varianza podemos pasar a obtener la desviacin estndar, tomando la raz cuadrada positiva de la varianza. As, si efectuamos la raz de la varianza muestral, obtenemos la desviacin tpica muestral; y si por el contrario, efectuamos la raz sobre la varianza poblacional, obtendremos la desviacin tpica poblacional.

Desviaciones estndar en una distribucin normal.

Expresin de la desviacin estndar muestral:

Tambin puede ser tomada como

con a como y s como adems se puede tener una mejor tendencia de medida al desarrollar las formulas indicadas pero se tiene que tener en cuenta la media, mediana y moda

[editar] Interpretacin y aplicacin


La desviacin estndar es una medida del grado de dispersin de los datos con respecto al valor promedio. Dicho de otra manera, la desviacin estndar es simplemente el "promedio" o variacin esperada con respecto a la media aritmtica. Por ejemplo, las tres muestras (0, 0, 14, 14), (0, 6, 8, 14) y (6, 6, 8, 8) cada una tiene una media de 7. Sus desviaciones estndar muestrales son 8,08, 5,77 y 1,33, respectivamente. La tercera muestra tiene una desviacin mucho menor que las otras dos porque sus valores estn ms cerca de 7. La desviacin estndar puede ser interpretada como una medida de incertidumbre. La desviacin estndar de un grupo repetido de medidas nos da la precisin de stas. Cuando se va a determinar si un grupo de medidas est de acuerdo con el modelo terico, la desviacin estndar de esas medidas es de vital importancia: si la media de las medidas est demasiado alejada de la prediccin (con la distancia medida en desviaciones estndar), entonces consideramos que las medidas contradicen la teora. Esto es coherente, ya que las mediciones caen fuera del rango de valores en el cual sera razonable esperar que ocurrieran si el modelo terico fuera correcto. La desviacin estndar es uno de tres parmetros de ubicacin central; muestra la agrupacin de los datos alrededor de un valor central (la media o promedio).

[editar] Desglose
La desviacin estndar (DS/DE), tambin llamada desviacin tpica, es una medida de dispersin usada en estadstica que nos dice cunto tienden a alejarse los valores concretos del promedio en una distribucin. De hecho, especficamente, la desviacin estndar es "el promedio de la distancia de cada punto respecto del promedio". Se suele representar por una S o con la letra sigma, . La desviacin estndar de un conjunto de datos es una medida de cunto se desvan los datos de su media. Esta medida es ms estable que el recorrido y toma en consideracin el valor de cada dato. Es posible calcular la desviacin estndar de una variable aleatoria continua como la raz cuadrada de la integral

donde

La DS es la raz cuadrada de la varianza de la distribucin

As la varianza es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmtica de la distribucin. Aunque esta frmula es correcta, en la prctica interesa realizar inferencias poblacionales, por lo que en el denominador en vez de n, se usa n-1 (Correccin de Bessel)

Tambin hay otra funcin ms sencilla de realizar y con menos riesgo de tener equivocaciones :

[editar] Ejemplo
Aqu se muestra cmo calcular la desviacin estndar de un conjunto de datos. Los datos representan la edad de los miembros de un grupo de nios. { 4, 1, 11, 13, 2, 7 } 1. Calcular el promedio o media aritmtica .

En este caso, N = 6 porque hay seis datos:

i=nmero de datos para sacar desviacin estndar

Sustituyendo N por 6

Este es el promedio.

2. Calcular la desviacin estndar

Sustituyendo N - 1 por 5; ( 6 - 1 )

Sustituyendo

por 6,33

ste es el valor de la desviacin estndar.

Estadstica
De Wikipedia, la enciclopedia libre Saltar a navegacin, bsqueda Para anlisis, datos y grficas sobre Wikipedia, vase Wikipedia:Estadsticas.

La estadstica es una ciencia que estudia la recoleccin, anlisis e interpretacin de datos, ya sea para ayudar en la toma de decisiones o para explicar condiciones regulares o irregulares de algn fenmeno o estudio aplicado, de ocurrencia en forma aleatoria o condicional. Sin embargo estadstica es ms que eso, en otras palabras es el vehculo que permite llevar a cabo el proceso relacionado con la investigacin cientfica.

Distribucin normal.

Es transversal a una amplia variedad de disciplinas, desde la fsica hasta las ciencias sociales, desde las ciencias de la salud hasta el control de calidad. Se usa para la toma de decisiones en reas de negocios o instituciones gubernamentales. La estadstica se divide en dos grandes reas:
y

La estadstica descriptiva, se dedica a los mtodos de recoleccin, descripcin, visualizacin y resumen de datos originados a partir de los fenmenos de estudio. Los datos pueden ser resumidos numrica o grficamente. Ejemplos bsicos de parmetros estadsticos son: la media y la desviacin estndar. Algunos ejemplos grficos son: histograma, pirmide poblacional, clsters, entre otros. La estadstica inferencial, se dedica a la generacin de los modelos, inferencias y predicciones asociadas a los fenmenos en cuestin teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la poblacin bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no (prueba de hiptesis), estimaciones de caractersticas numricas (estimacin), pronsticos de futuras observaciones, descripciones de asociacin (correlacin) o modelamiento de relaciones entre variables (anlisis de regresin). Otras tcnicas de modelamiento incluyen anova, series de tiempo y minera de datos.

Ambas ramas (descriptiva e inferencial) comprenden la estadstica aplicada. Hay tambin una disciplina llamada estadstica matemtica, a la que se refiere a las bases tericas de la materia. La palabra estadsticas tambin se refiere al resultado de aplicar un algoritmo estadstico a un conjunto de datos, como en estadsticas econmicas, estadsticas criminales, entre otros.

[editar] Historia
[editar] Origen

El trmino alemn statistik, que fue primeramente introducido por Gottfried Achenwall (1749), designaba originalmente el anlisis de datos del Estado, es decir, la "ciencia del Estado" (tambin llamada aritmtica poltica de su traduccin directa del ingls). No fue hasta el siglo XIX cuando el trmino estadstica adquiri el significado de recolectar y clasificar datos. Este concepto fue introducido por el ingls Sir John Sinclair (1754-1835). En su origen, por tanto, la Estadstica estuvo asociada a los Estados, para ser utilizados por el gobierno y cuerpos administrativos (a menudo centralizados). La coleccin de datos acerca de estados y localidades contina ampliamente a travs de los servicios de estadstica nacionales e internacionales. En particular, los censos suministran informacin regular acerca de la poblacin. Ya se utilizaban representaciones grficas y otras medidas en pieles, rocas, palos de madera y paredes de cuevas para controlar el nmero de personas, animales o ciertas mercancas. Hacia el ao 3000 a. C. los babilonios usaban ya pequeos envases moldeados de arcilla para recopilar datos sobre la produccin agrcola y de los gneros vendidos o cambiados. Los egipcios analizaban los datos de la poblacin y la renta del pas mucho antes de construir las pirmides en el siglo XI a. C. Los libros bblicos de Nmeros y Crnicas incluyen en algunas partes trabajos de estadstica. El primero contiene dos censos de la poblacin de Israel y el segundo describe el

bienestar material de las diversas tribus judas. En China existan registros numricos similares con anterioridad al ao 2000 a. C. Los antiguos griegos realizaban censos cuya informacin se utilizaba hacia el 594 a. C. para cobrar impuestos.
[editar] Orgenes en probabilidad

Los mtodos estadstico-matemticos emergieron desde la teora de probabilidad, la cual data desde la correspondencia entre Pascal y Pierre de Fermat (1654). Christian Huygens (1657) da el primer tratamiento cientfico que se conoce a la materia. El Ars coniectandi (pstumo, 1713) de Jakob Bernoulli y la Doctrina de posibilidades (1718) de Abraham de Moivre estudiaron la materia como una rama de las matemticas.1 En la era moderna, el trabajo de Kolmogrov ha sido un pilar en la formulacin del modelo fundamental de la Teora de Probabilidades, el cual es usado a travs de la estadstica. La teora de errores se puede remontar a la pera miscellnea (pstuma, 1722) de Roger Cotes y al trabajo preparado por Thomas Simpson en 1755 (impreso en 1756) el cual aplica por primera vez la teora de la discusin de errores de observacin. La reimpresin (1757) de este trabajo incluye el axioma de que errores positivos y negativos son igualmente probables y que hay unos ciertos lmites asignables dentro de los cuales se encuentran todos los errores; se describen errores continuos y una curva de probabilidad. Pierre-Simon Laplace (1774) hace el primer intento de deducir una regla para la combinacin de observaciones desde los principios de la teora de probabilidades. Laplace represent la Ley de probabilidades de errores mediante una curva y dedujo una frmula para la media de tres observaciones. Tambin, en 1871, obtiene la frmula para la ley de facilidad del error (trmino introducido por Lagrange, 1744) pero con ecuaciones inmanejables. Daniel Bernoulli (1778) introduce el principio del mximo producto de las probabilidades de un sistema de errores concurrentes.

Fotografa de Ceres por el telescopio espacial Hubble. La posicin fue estimada por Gauss mediante el mtodo de mnimos cuadrados.

El mtodo de mnimos cuadrados, el cual fue usado para minimizar los errores en mediciones, fue publicado independientemente por Adrien-Marie Legendre (1805), Robert Adrain (1808), y Carl Friedrich Gauss (1809). Gauss haba usado el mtodo en su famosa prediccin de la localizacin del planeta enano Ceres en 1801. Pruebas adicionales fueron escritas por Laplace (1810, 1812), Gauss (1823), James Ivory (1825, 1826), Hagen (1837), Friedrich Bessel (1838), W.F. Donkin (1844, 1856), John Herschel (1850) y Morgan Crofton (1870). Otros contribuidores fueron Ellis (1844), Augustus De Morgan (1864), Glaisher (1872) y Giovanni Schiaparelli (1875). La frmula de Peters para r, el probable error de una observacin simple es bien conocido. El siglo XIX incluye autores como Laplace, Silvestre Lacroix (1816), Littrow (1833), Richard Dedekind (1860), Helmert (1872), Hermann Laurent (1873), Liagre, Didion y Karl Pearson. Augustus De Morgan y George Boole mejoraron la presentacin de la teora. Adolphe Quetelet (1796-1874), fue otro importante fundador de la estadstica y quien introdujo la nocin del hombre promedio (lhomme moyen) como un medio de entender los fenmenos sociales complejos tales como tasas de criminalidad, tasas de matrimonio o tasas de suicidios.
[editar] Estado actual

Durante el siglo XX, la creacin de instrumentos precisos para asuntos de salud pblica (epidemiologa, bioestadstica, etc.) y propsitos econmicos y sociales (tasa de desempleo, econometra, etc.) necesit de avances sustanciales en las prcticas estadsticas. Hoy el uso de la estadstica se ha extendido ms all de sus orgenes como un servicio al Estado o al gobierno. Personas y organizaciones usan la estadstica para entender datos y tomar decisiones en ciencias naturales y sociales, medicina, negocios y otras reas. La estadstica es entendida generalmente no como un sub-rea de las matemticas sino como una ciencia diferente aliada. Muchas universidades tienen departamentos acadmicos de matemticas y estadstica separadamente. La estadstica se ensea en departamentos tan diversos como psicologa, educacin y salud pblica.

Regresin lineal - Grficos de dispersin en estadstica.

Al aplicar la estadstica a un problema cientfico, industrial o social, se comienza con un proceso o poblacin a ser estudiado. Esta puede ser la poblacin de un pas, de granos cristalizados en una

roca o de bienes manufacturados por una fbrica en particular durante un periodo dado. Tambin podra ser un proceso observado en varios instantes y los datos recogidos de esta manera constituyen una serie de tiempo. Por razones prcticas, en lugar de compilar datos de una poblacin entera, usualmente se estudia un subconjunto seleccionado de la poblacin, llamado muestra. Datos acerca de la muestra son recogidos de manera observacional o experimental. Los datos son entonces analizados estadsticamente lo cual sigue dos propsitos: descripcin e inferencia. El concepto de correlacin es particularmente valioso. Anlisis estadsticos de un conjunto de datos puede revelar que dos variables (esto es, dos propiedades de la poblacin bajo consideracin) tienden a variar conjuntamente, como si hubiera una conexin entre ellas. Por ejemplo, un estudio del ingreso anual y la edad de muerte podra resultar en que personas pobres tienden a tener vidas ms cortas que personas de mayor ingreso. Las dos variables se dicen que estn correlacionadas. Sin embargo, no se puede inferir inmediatamente la existencia de una relacin de causalidad entre las dos variables. El fenmeno correlacionado podra ser la causa de una tercera, previamente no considerada, llamada variable confusora. Si la muestra es representativa de la poblacin, inferencias y conclusiones hechas en la muestra pueden ser extendidas a la poblacin completa. Un problema mayor es el de determinar que tan representativa es la muestra extrada. La estadstica ofrece medidas para estimar y corregir por aleatoriedad en la muestra y en el proceso de recoleccin de los datos, as como mtodos para disear experimentos robustos como primera medida, ver diseo experimental. El concepto matemtico fundamental empleado para entender la aleatoriedad es el de probabilidad. La estadstica matemtica (tambin llamada teora estadstica) es la rama de las matemticas aplicadas que usa la teora de probabilidades y el anlisis matemtico para examinar las bases tericas de la estadstica. El uso de cualquier mtodo estadstico es vlido solo cuando el sistema o poblacin bajo consideracin satisface los supuestos matemticos del mtodo. El mal uso de la estadstica puede producir serios errores en la descripcin e interpretacin, afectando las polticas sociales, la prctica mdica y la calidad de estructuras tales como puentes y plantas de reaccin nuclear. Incluso cuando la estadstica es correctamente aplicada, los resultados pueden ser difcilmente interpretados por un inexperto. Por ejemplo, el significado estadstico de una tendencia en los datos, que mide el grado al cual la tendencia puede ser causada por una variacin aleatoria en la muestra, puede no estar de acuerdo con el sentido intuitivo. El conjunto de habilidades estadsticas bsicas (y el escepticismo) que una persona necesita para manejar informacin en el da a da se refiere como cultura estadstica.

[editar] Mtodos estadsticos


[editar] Estudios experimentales y observacionales

Un objetivo comn para un proyecto de investigacin estadstica es investigar la causalidad, y en particular extraer una conclusin en el efecto que algunos cambios en los valores de predictores o variables independientes tienen sobre una respuesta o variables dependientes. Hay dos grandes tipos de estudios estadsticos para estudiar causalidad: estudios experimentales y observacionales. En ambos tipos de estudios, el efecto de las diferencias de una variable independiente (o variables) en el comportamiento de una variable dependiente es observado. La diferencia entre los dos tipos es la forma en que el estudio es conducido. Cada uno de ellos puede ser muy efectivo. Un estudio experimental implica tomar mediciones del sistema bajo estudio, manipular el sistema y luego tomar mediciones adicionales usando el mismo procedimiento para determinar si la manipulacin ha modificado los valores de las mediciones. En contraste, un estudio observacional no necesita manipulacin experimental. Por el contrario, los datos son recogidos y las correlaciones entre predictores y la respuesta son investigadas. Un ejemplo de un estudio experimental es el famoso experimento de Hawthorne el cual pretenda probar cambios en el ambiente de trabajo en la planta Hawthorne de la Western Electric Company. Los investigadores estaban interesados en si al incrementar la iluminacin en un ambiente de trabajo, la produccin de los trabajadores aumentaba. Los investigadores primero midieron la productividad de la planta y luego modificaron la iluminacin en un rea de la planta para ver si cambios en la iluminacin afectaran la productividad. La productividad mejor bajo todas las condiciones experimentales. Sin embargo, el estudio fue muy criticado por errores en los procedimientos experimentales, especficamente la falta de un grupo control y seguimiento. Un ejemplo de un estudio observacional es un estudio que explora la correlacin entre fumar y el cncer de pulmn. Este tipo de estudio normalmente usa una encuesta para recoger observaciones acerca del rea de inters y luego produce un anlisis estadstico. En este caso, los investigadores recogeran observaciones de fumadores y no fumadores y luego miraran los casos de cncer de pulmn en ambos grupos. Los pasos bsicos para un experimento son:
y

Planeamiento estadstico de la investigacin, lo cual incluye encontrar fuentes de informacin, seleccin de material disponible en el rea y consideraciones ticas para la investigacin y el mtodo propuesto. Se plantea un problema de estudio, Disear el experimento concentrndose en el modelo y la interaccin entre variables independientes y dependientes. Se realiza un muestreo consistente en la recoleccin de datos referentes al fenmeno o variable que deseamos estudiar. Se propone un modelo de probabilidad, cuyos parmetros se estiman mediante estadsticos a partir de los datos de muestreo. Sin embargo, se mantiene lo que se denominan hiptesis sostenidas (que no son sometidas a comprobacin). Se valida el modelo comparndolo con lo que sucede en la realidad. Se utiliza mtodos estadsticos conocidos como test de hiptesis o prueba de significacin. Se producen estadsticas descriptivas.

y y

Inferencia estadstica. Se llega a un consenso acerca de qu dicen las observaciones acerca del mundo que observamos. Se utiliza el modelo validado para tomar decisiones o predecir acontecimientos futuros. Se produce un reporte final con los resultados del estudio.

[editar] Niveles de medicin

Hay cuatro tipos de mediciones o escalas de medicin en estadstica. Los cuatro tipos de niveles de medicin (nominal, ordinal, intervalo y razn) tienen diferentes grados de uso en la investigacin estadstica. Las medidas de razn, en donde un valor cero y distancias entre diferentes mediciones son definidas, dan la mayor flexibilidad en mtodos estadsticos que pueden ser usados para analizar los datos. Las medidas de intervalo tienen distancias interpretables entre mediciones, pero un valor cero sin significado (como las mediciones de coeficiente intelectual o temperatura en grados Celsius). Las medidas ordinales tienen imprecisas diferencias entre valores consecutivos, pero un orden interpretable para sus valores. Las medidas nominales no tienen ningn rango interpretable entre sus valores. La escala de medida nominal, puede considerarse la escala de nivel ms bajo. Se trata de agrupar objetos en clases. La escala ordinal, por su parte, recurre a la propiedad de orden de los nmeros. La escala de intervalos iguales est caracterizada por una unidad de medida comn y constante. Es importante destacar que el punto cero en las escalas de intervalos iguales es arbitrario, y no refleja en ningn momento ausencia de la magnitud que estamos midiendo. Esta escala, adems de poseer las caractersticas de la escala ordinal, permite determinar la magnitud de los intervalos (distancia) entre todos los elementos de la escala. La escala de coeficientes o Razones es el nivel de medida ms elevado y se diferencia de las escalas de intervalos iguales nicamente por poseer un punto cero propio como origen; es decir que el valor cero de esta escala significa ausencia de la magnitud que estamos midiendo. Si se observa una carencia total de propiedad, se dispone de una unidad de medida para el efecto. A iguales diferencias entre los nmeros asignados corresponden iguales diferencias en el grado de atributo presente en el objeto de estudio.
[editar] Tcnicas de anlisis estadstico

[editar] Disciplinas especializadas


Algunos campos de investigacin usan la estadstica tan extensamente que tienen terminologa especializada. Estas disciplinas incluyen: La estadstica es una herramienta bsica en negocios y produccin. Es usada para entender la variabilidad de sistemas de medicin, control de procesos (como en control estadstico de procesos o SPC (CEP)), para compilar datos y para tomar decisiones. En estas aplicaciones es una herramienta clave, y probablemente la nica herramienta disponible.

[editar] Computacin estadstica


El rpido y sostenido incremento en el poder de clculo de la computacin desde la segunda mitad del siglo XX ha tenido un sustancial impacto en la prctica de la ciencia estadstica. Viejos modelos estadsticos fueron casi siempre de la clase de los modelos lineales. Ahora, complejos computadores junto con apropiados algoritmos numricos, han causado un renacer del inters en modelos no lineales (especialmente redes neuronales y rboles de decisin) y la creacin de nuevos tipos tales como modelos lineales generalizados y modelos multinivel. El incremento en el poder computacional tambin ha llevado al crecimiento en popularidad de mtodos intensivos computacionalmente basados en remuestreo, tales como tests de permutacin y de bootstrap, mientras tcnicas como el muestreo de Gibbs han hecho los mtodos bayesianos ms accesibles. La revolucin en computadores tiene implicaciones en el futuro de la estadstica, con un nuevo nfasis en estadsticas experimentales y empricas. Un gran nmero de paquetes estadsticos est ahora disponible para los investigadores. Los sistemas dinmicos y teora del caos, desde hace una dcada, empezaron a interesar en la comunidad hispana, pues en la anglosajona de Estados Unidos estaba ya establecida la conducta catica en sistemas dinmicos no lineales con 350 libros para 1997 y empezaban algunos trabajos en los campos de las ciencias sociales y en aplicaciones de la fsica. Tambin se estaba contemplando su uso en analtica.

[editar] Crticas a la estadstica


Hay una percepcin general de que el conocimiento estadstico es intencionado y frecuentemente mal usado, encontrando maneras de interpretar los datos que sean favorables al presentador. Un dicho famoso, al parecer de Benjamin Disraeli,2 es: Hay tres tipos de mentiras: mentiras pequeas, mentiras grandes y estadsticas. El popular libro How to lie with statistics (cmo mentir con las estadsticas) de Darrell Huff discute muchos casos de mal uso de la estadstica, con nfasis en grficas malintencionadas. Al escoger (o rechazar o modificar) una cierta muestra, los resultados pueden ser manipulados; por ejemplo, mediante la eliminacin selectiva de valores atpicos (outliers). Este puede ser el resultado de fraudes o sesgos intencionales por parte del investigador (Darrel Huff 3 ). Lawrence Lowell (decano de la Universidad de Harvard) escribi en 1909 que las estadsticas, como algunos pasteles, son buenas si se sabe quin las hizo y se est seguro de los ingredientes. Algunos estudios contradicen resultados obtenidos previamente, y la poblacin comienza a dudar en la veracidad de tales estudios. Se podra leer que un estudio dice (por ejemplo) que hacer X reduce la presin sangunea, seguido por un estudio que dice que hacer X no afecta la presin sangunea, seguido por otro que dice que hacer X incrementa la presin sangunea. A menudo los estudios se hacen siguiendo diferentes metodologas, o estudios en muestras pequeas que prometen resultados maravillosos que no son obtenibles en estudios de mayor tamao. Sin embargo, muchos lectores no notan tales diferencias, y los medios de comunicacin simplifican la informacin alrededor del estudio y la desconfianza del pblico comienza a crecer. Sin embargo, las crticas ms fuertes vienen del hecho que la aproximacin de pruebas de hiptesis, ampliamente usada en muchos casos requeridos por ley o reglamentacin, obligan una hiptesis a ser 'favorecida' (la hiptesis nula), y puede tambin exagerar la importancia de

pequeas diferencias en estudios grandes. Una diferencia que es altamente significativa puede ser de ninguna significancia prctica.
Vase tambin crticas de prueba de hiptesis y controversia de la hiptesis nula.

En los campos de la psicologa y la medicina, especialmente con respecto a la aprobacin de nuevos medicamentos por la Food and Drug Administration, crticas de la aproximacin de prueba de hiptesis se han incrementado en los aos recientes. Una respuesta ha sido un gran nfasis en el p-valor en vez de simplemente reportar si la hiptesis fue rechazada al nivel de significancia dado. De nuevo, sin embargo, esto resume la evidencia para un efecto pero no el tamao del efecto. Una posibilidad es reportar intervalos de confianza, puesto que estos indican el tamao del efecto y la incertidumbre. Esto ayuda a interpretar los resultados, como el intervalo de confianza para un dado indicando simultneamente la significancia estadstica y el efecto de tamao. El p valor y los intervalos de confianza son basados en los mismos clculos fundamentales como aquellos para las correspondientes pruebas de hiptesis. Los resultados son presentados en un formato ms detallado, en lugar del si-o-no de las pruebas de hiptesis y con la misma metodologa estadstica. Otro tipo de aproximacin es el uso de mtodos bayesianos. Esta aproximacin ha sido, sin embargo, tambin criticada. El fuerte deseo de que los medicamentos buenos sean aprobados y que los medicamentos peligrosos o de poco uso sean rechazados crea tensiones y conflictos (errores tipo I y II en el lenguaje de pruebas de hiptesis).
y

Anda mungkin juga menyukai