Anda di halaman 1dari 60

MANUAL DE ESTADISTICA BASICA APLICADA AL SECTOR AGROPECUARIO

MARCELO CALVO VILLALOBOS INGENIERO AGRICOLA ESP. DOCENCIA UNIVERSITARIA

CORPORACION DE EDUCACION SUPERIOR IAFIC FACULTAD DE MEDICINA VETERINARIA Y ZOOTECNIA CONVENIO UDCA IAFIC 2004 1

TABLA DE CONTENIDO

Temas Capitulo 1 Generalidades estadsticas Poblacin y muestra Datos Variables Intervalos Estadstica descriptiva, distribucin de frecuencia Capitulo 2 Presentacin de la informacin Histogramas Polgonos de frecuencia Diagrama de barras Barras compuestas Barras superpuestas Grficos circulares Capitulo 3 Estadgrafos de posicin o medidas de tendencia central Media aritmtica Media ponderada Mediana Moda Medidas de ubicacin Percentil Cuartel Decil Captulo 4 Medidas de dispersin Rango Desviacin media Varianza

pag.

1. 2. 2. 3. 3. 4.

11. 11. 11. 12. 13. 14. 15.

17. 17. 19. 20. 22 24. 24. 25. 25.

29. 29. 30. 33.

Desviacin tpica Coeficiente de variacin Capitulo 5 Regresin y correlacin Anlisis de regresin Correlacin Coeficiente de correlacin Capitulo 6 Probabilidad Probabilidad condicional Eventos independientes Teorema de la suma Teorema del producto Distribucin binomial Propiedades de la distribucin binomial Distribucin de la probabilidad Capitulo 7 Muestreo Mtodos de seleccin de muestras al azar Al azar simple Por estratos Por conglomerado Sistematizada Tamao de muestras

36. 36.

38. 39. 41. 42.

44. 45. 46. 47. 48. 48. 50. 50.

50. 50. 53. 53. 54. 55. 55.

CAPTULO 1

GENERALIDADES ESTADISTICAS. DEFINICION: Antes de emitir el concepto de estadstica mencionaremos al creador de esta ciencia, aunque muchos autores no coincidan en este punto. GODOFREDO ACHENWALL, economista Alemn se considera la primera persona en hablar de estadstica, quien la defini como el conocimiento profundo de la situacin respectiva y comparativa de cada estado, inicialmente esta ciencia fue orientada para investigar, medir y comparar las riquezas de los estados, (etimolgicamente estadstica proviene de staat que significa gobierno) lo anterior no significa que antes de los postulados de ACHENWALL los estados no llevaran censos de sus poblaciones, posesiones o numero de guerreros, es as que los Egipcios exigan llevar un registro de catastro debido a las inundaciones del Nilo, en Grecia se llevaban censos de la poblacin con derecho al sufragio y catastro de las riquezas que hicieran posible la equidad tributaria. Se consideraba que la funcin de la estadstica era la descripcin de eventos observados, sin embargo adems de ser descriptiva es analtica considerndose esta funcin como la ms importante ya que permite obtener conclusiones de un grupo numeroso a partir de un sub conjunto del mismo grupo. La importancia de esta ciencia se basa en que es utilizada en todos los campos del saber donde se realicen observaciones ya que permite tratar problemas en los cuales para observaciones individuales, las leyes de causa y efecto no aparecen claramente al observador y donde es necesario un enfoque objetivo.(1). Se acostumbra a distinguir dos clases de estadstica la descriptiva y la de inferencia o matemtica. La descriptiva tiene como finalidad poner en evidencia aspectos caractersticos de un grupo observado para efectuar comparaciones (recopila, organiza, procesa y resume datos). La de inferencia busca dar explicacin al comportamiento de un conjunto de observaciones para probar la significacin de los resultados. POBLACION Y MUESTRA. La poblacin es el conjunto de elementos que tiene en comn determinada caracterstica, estas pueden ser finitas o infinitas, finitas cuando el numero de elementos que la componen es limitado y la infinita cuando el numero es ilimitado. Todo subconjunto de elementos que pertenezcan a la poblacin

y sobre la cual se recoja la informacin se denomina muestra; si la muestra es representativa de la poblacin nos permite llegar a conclusiones muy valiosas acerca de la poblacin en estudio Las muestras pueden ser probabilsticas y no probabilsticas, la primera se presenta cuando cualquier individuo que la conforme tiene la misma posibilidad de ser escogido y no probabilstica cuando se escogen los datos con determinado criterio del investigador. Las medidas estadsticas obtenidas con base en una poblacin se denominan parmetros y las obtenidas con base en la muestra se llaman estimativos de los parmetros. DATOS.La informacin obtenida de una poblacin o una muestra se le denomina dato. Los datos pueden ser obtenidos en forma directa por el investigador o de forma secundaria, es decir informacin antes recopilada, los datos pueden ser continuos, discretos, nominales y jerarquizados. Los datos continuos son aquellos que pueden tomar cualquier valor dentro de un intervalo de valores, por ejemplo las medidas de longitud, la temperatura. los discretos son los que puede tomar solo valores enteros como numero de partos de un animal, a los datos antes mencionados se le pueden llamar como datos cuantitativos, ya que son eminentemente numricos. Se dice que los datos pueden ser nominales cuando son distribuidos en un nmero determinado de categoras mutuamente excluyentes, como el sexo (masculino y femenino), el color de los ojos etc. Y los jerarquizados son aquellos que denotan orden por ejemplo primero, segundo y as sucesivamente. VARIABLE. Una variable es aleatoria si toma diferentes valores como resultado de un experimento aleatorio. Puede ser discreta o continua. Si puede tomar slo un nmero limitado de valores, entonces es una variable aleatoria discreta. En el otro extremo, si puede tomar cualquier valor dentro de un intervalo dado, entonces se trata de una variable aleatoria continua.

Se puede pensar en una variable aleatoria como un valor o una magnitud que cambia de una presentacin a otra, sin seguir una secuencia predecible. Los valores de una variable aleatoria son los valores numricos correspondientes a cada posible resultado de un experimento aleatorio. Las variables las podemos representar por letras maysculas como X,Y,Z,W y a los elementos que conforman cada una de ellas por las mismas letras pero en minsculas y acompaados por un sub ndice, ASI: x1, x2,x3 o y1,y2,y3. INTERVALO.Es un elemento importante para el ordenamiento de datos dentro de una distribucin de frecuencias, el intervalo nos mas que considerar un margen o limites entre dos valores uno menor que llamaremos limite inferior del intervalo y un limite mayor que llamaremos limite superior del intervalo, la diferencia que existe entre el limite superior e inferior lo llamaremos rango.

ESTADISTICA DESCRIPTIVA DISTRIBUCION DE FRECUENCIAS. El punto de partida para cualquier estudio estadstico es la recopilacin de informacin sea esta de fuentes primarias (datos de campo) o secundarias (artculos ya existentes),si asumimos las fuentes primarias la informacin de campo es tomada de instrumentos como la encuesta, estos al ser aplicados recogen la informacin en cualquier orden luego estos datos no son fciles de interpretar, para la organizacin de estos datos se aplica una tabla de distribucin de frecuencias, la cual esta compuesta columnas que indican los respectivos ordenes, entonces hablaremos de: Conocer el dato mayor y menor de la informacin recopilada en el instrumento aplicado. Con estos datos identificados calcularemos el rango (R) que no es ms que la diferencia entre el dato mayor y el menor. El siguiente paso ser calcular el numero de intervalos en los cuales resumiremos todos los datos arrojados por el instrumento, una manera practica de conocer el numero de intervalos para los datos es aplicar la siguiente formula. K = 1 + 3.33Logn, donde K es el numero de intervalos y n nmeros de datos observados. Es necesario explicar que el dato obtenido por la anterior formula es un estimativo de la cantidad de intervalos y es el investigador quien toma la determinacin de utilizarlos o aumentar los intervalos segn el estudio que este realice. Ahora calcularemos la amplitud de cada intervalo que no es ms que la separacin que existe entre los lmites superior e inferior de un intervalo, usaremos la formula: A = R / K, donde A es amplitud, R rango, K numero de intervalos. Conociendo estos datos procedemos a calcular el primer intervalo tomando como referencia el dato menor, a este valor le sumamos la amplitud y queda conformado el primer intervalo, de igual forma calculamos el segundo intervalo, esto es sumar la amplitud al resultado de la anterior suma, en lo sucesivo completamos todos los intervalos siguiendo la forma descrita anteriormente.

Antes de calcular la frecuencia absoluta hallaremos la marca de clase o promedio de cada intervalo, el cual se obtiene sumando el dato mayor ms el menor y este resultado lo dividimos por dos. Otro dato importante es la frecuencia de clase o frecuencia absoluta, la cual se representa por la letra (F), esta frecuencia nos indica el numero de veces que se repite un dato en un intervalo en particular. Existe otra frecuencia que es la acumulada (Fa) y se obtiene como a continuacin se describe: La primera frecuencia acumulada es la primera absoluta, la siguiente se obtiene al sumar las dos primeras frecuencias absolutas, la tercera acumulada se obtiene sumando a la segunda acumulada el tercer valor de la absoluta, la cuarta acumulada ser sumar al anterior valor calculado la cuarta frecuencia de absoluta, siguiendo este procedimiento se podrn calcular las frecuencias acumuladas faltantes. Existe otro elemento importante en la distribucin el cual es la frecuencia relativa (Fr), se obtiene aplicando la siguiente formula: Fr = F / n F frecuencia absoluta n numero total de datos en la muestra.

Su resultado generalmente se expresa en porcentaje, Este tipo de frecuencia tambin se puede acumular y recibe el nombre de frecuencia relativa acumulada (Fra), y se obtiene de la misma forma que calculamos la frecuencia absoluta acumulada pero envs de usar la columna de frecuencia absoluta usamos la columna de la frecuencia relativa. Veamos un ejemplo que facilita su entendimiento Los datos presentados a continuacin nos indican los pesos en gramos de recin nacidos en una clnica

3.000 4.100 2.600 2.100 4.500 3.500

2.000 4.000 1.700 2.700 4.000 4.000

3.500 4.500 3.000 3.500 1.000 2.900

4.000 2.500 4.500 600 4.000 3.000

2.000 3.500 2.000 3.200 500 4.300

2.500 4.100 3.000 500 4.000 3.500

4.000 4.000 4.500 2.500 500 4.300

4.200 2.500 4.500 3.500 3.000 750

3.500 3.400 2.600 2.600 3.600 500

1.900 4.500 2.000 3.000 2.800 500

3.000 500 4.200 3.500 3.000 3.500

700 2.400 4.400 1.000

1.500 1000 3.900 4.500

1.500 2.500 3.200 800

2.800 3.800 4.000 1.500

4.000 2.500 3.800 4.500

1.400 3.000 3.500 1.000

3.800 500 4.500 3.300

3.000 4.000 2.800 2.900

4.000 2.500 4.000 500

1.200 3.600 500 3.400

4.250 4.000 4.500 2.300

Primer paso. Encontrar el dato mayor y menor, para nuestro caso tenemos: D. menor = 500 D. mayor = 4.500 Segundo paso calcular el rango. R = D. mayor D. menor. R = 4.500 500 = 4.000. Tercer paso hallar el nmero de intervalos. K = 1 + 3.33Logn K = 1 + 3.33Log 110 = 7.79. Cuarto paso calculo de la amplitud. A=R/K A = 4.000 / 8 = 500. Quinto paso armar los intervalos. 500 que es el dato menor le sumamos la amplitud, el primer intervalo ser (500 1.000], el segundo ser 1.000 ms la amplitud (1.000 1.500], el siguiente ser (1.500 - 2000].

Intervalos de clase (500 - 1.000] (1.000 1.500]

(1.500 2.000] (2.000 -2.500] (2.500 3.000] (3.000 3.500] (3.500 - 4.000] (4.000 - 4.500] Los intervalos anteriores son abiertos a la izquierda y cerrados a la derecha, lo cual indica que asumiremos un intervalo inferior a 500; de esta forma quedara el nmero quinientos incluido en los conteos de frecuencia, quedando la tabla como sigue:

Intervalos de clase (0 - 500] (500 - 1.000] (1.000 1.500] (1.500 2.000] (2.000 -2.500] (2.500 3.000] (3.000 3.500] (3.500 - 4.000] (4.000 - 4.500]

Sexto paso marca de clase, esta marca se calcula para cada intervalo as:

X = (Li Ls) / 2 Donde, Li es el limite inferior del intervalo Ls es el lmite superior del intervalo. X = (0 + 500) / 2 = 250

X = (500 + 1.000) / 2 = 750 La siguiente columna de la tabla distribucin de frecuencia es

10

Intervalos de clase (0 - 500] (500 - 1.000] (1.000 1.500] (1.500 2.000] (2.000 -2.500] (2.500 3.000] (3.000 3.500] (3.500 - 4.000] (4.000 - 4.500]

Marca de clase 250 750 1250 1750 2250 2750 3250 3750 4250

El sptimo paso ser encontrar la frecuencia absoluta de cada uno de los intervalos calculados, esta frecuencia se obtiene al revisar cuantas veces se repite cada nmero en la tabla Nxxxxxx. Empecemos por el menor numero que es 500 veamos cuantas veces se repite. Intervalos de clase (0 - 500] (500 - 1.000] (1.000 1.500] (1.500 2.000] (2.000 -2.500] (2.500 3.000] (3.000 3.500] (3.500 - 4.000] (4.000 - 4.500] Total Marca de clase 250 750 1250 1750 2250 2750 3250 3750 4250 Frecuencia Absoluta 9 8 5 6 10 19 13 22 18 110

El octavo paso es la frecuencia absoluta acumulada, la describimos anteriormente, y a continuacin calculamos. Intervalos de clase Marca de clase Frecuencia Absoluta 9 8 Frecuencia Absoluta acumulada 9 17 11

(0 - 500] (500 - 1.000]

250 750

(1.000 1.500] (1.500 2.000] (2.000 -2.500] (2.500 3.000] (3.000 3.500] (3.500 - 4.000] (4.000 - 4.500] Total

1250 1750 2250 2750 3250 3750 4250

5 6 10 19 13 22 18 110

22 28 38 57 70 92 110

El paso noveno hace referencia a la frecuencia relativa y el dcimo a la frecuencia relativa acumulada las cuales fueron explicadas en los anteriores prrafos.
Intervalos de clase (0 - 500] (500 - 1.000] (1.000 1.500] (1.500 2.000] (2.000 -2.500] (2.500 3.000] (3.000 3.500] (3.500 - 4.000] (4.000 - 4.500] Total Marca de clase 250 750 1250 1750 2250 2750 3250 3750 4250 Frecuencia Absoluta 9 8 5 6 10 19 13 22 18 110 Frecuencia Absoluta acumulada 9 17 22 28 38 57 70 92 110 Frecuencia relativa 0.081 0.072 0.045 0.054 0.090 0.172 0.118 0.200 0.160 100 Frecuencia relativa acumulada 0.081 0.153 0.198 0.252 0.342 0.514 0.632 0.832 0.992

Fr = 9 / 110 = 0.081

Fra. = 0.081 + 0.072 = 0.153

Fr = 8 / 110 = 0.072 Fra. = 0.153 + 0.045 =0.198 Acontinuacin nos queda hacer la interpretacin de anterior tabla. Analicemos la marca de clase para el primer intervalo; Este valor quiere decir que el peso promedio de los recin nacidos es de 250 gramos para el intervalo en cuestin. La frecuencia absoluta del tercer intervalo nos indica que hay cinco valor entre 1.000 y 1.500 gramos.

12

La frecuencia absoluta acumulada para el cuarto intervalo nos dice que 28 recin nacidos tienen peso entre 500 y 2.000 gramos o que 28 recin nacidos tienen pesos menores que 2.000. La frecuencia relativa nos indica un porcentaje al multiplicar los datos pertenecientes a esta columna por cien, y se analiza como sigue: Para el primer intervalo nos dice que el 8.1% de los recin nacidos tiene peso de 500gramos, para el tercer intervalo nos dice que el 4.5% de los recin nacidos tiene peso entre 1.000 y 1.500 gramos, de igual manera se interpreta para el resto de datos. La frecuencia relativa acumulada la interpretacin es: Para el quinto intervalo nos dice que el 34.2% de los recin nacidos tiene pesos entre 500 y 2.500 gramos o que el 34.2% de los recin nacidos tiene pesos inferiores a 2.500 gramos.

13

CAPITULO 2 PRESENTACION DE LA INFORMACION Para el entendimiento sencillo del comportamiento y variaciones que sufre un fenmeno estadstico, es necesario representar los datos encontrados en la tabla de distribucin de frecuencias mediante una grafica, la cual debe ir acompaada de la siguiente informacin: Titulo, que describa claramente el contenido de la grafica. Elementos geomtricos de referencia (ejes coordenados, polares) indicando la variable que se presenta en cada uno. Escala en que se representa cada variable. Fuente de los datos estadsticos. La informacin estadstica se puede representar por graficas de barras, circulares, histogramas, polgonos de frecuencia entre otros. HISTOGRAMAS: Nos permite representar grficamente los datos obtenidos de la tabla de distribucin de frecuencias, El grafico se disea utilizando el plano cartesiano, en el eje de las abcisas (x) se colocan los intervalos y en el eje de las ordenadas ( y) las frecuencias absolutas, A partir de cada intervalo se traza la altura correspondiente dada por la frecuencia absoluta. Ntese que las barras tienen el mismo ancho y se encuentran una junto a la otra esto nos indica que la amplitud de los datos es la misma en todos los intervalos y que los datos son sucesivos para los intervalos. POLIGONO DE FRECUENCIA: Es una curva que se traza a partir de los puntos medios de cada intervalo de clase. Estos puntos ubicados en el histograma se unen por medio de una lnea recta. Ejemplo usando los datos de la tabla xxx anterior.

14

Grafico de histograma

pesos en gramos de rec ien nacidos en una clinica de la ciudad


0-500 25 frecuencia 20 15 10 5 0 pesos en gramos "500-1000" "1000-1500" 1500-2000 2000-2500 2500-3000 3000-3500 3500-4000 4000-4500

BARRAS: Estas pueden ser de puntajes nominales (horizontales o verticales), compuestas y superpuestas, veamos las de puntajes nominales; De igual forma que las anteriores se grafican sobre un eje de coordenadas; sobre las abcisas se coloca la variable nominal y sobre las ordenadas los valores correspondientes o variable cuantitativa que corresponde a la frecuencia absoluta. Es importante anotar que los datos representados en este grafico no son continuos. Ejemplo: OCUPACION Agricultores Industriales Comerciantes Empleados Total FRECUENCIA 52 65 29 34 180

Grafica de barras

15

ocupaciones vs frecuencias
80 frecuencias 60 40 20 0 1 ocupaciones agricultores Serie2 industriales Serie4 comerciantes Serie6 empleados

Este grafico se puede presentar vertical como el anterior o se puede presentar en forma horizontal, donde los datos cuantitativos o frecuencias se colocan en el eje de las abcisas y los cualitativos en el eje de las ordenadas

Ocupaciones vs frecuencias
ocupaciones Empleados Series6 comerciantes Series4 industriales Series2 agricolas

50 frecuencias

100

BARRAS COMPUESTAS. Nos permiten representar dos o ms fenmenos en un mismo grafico, ejemplo comparemos la produccin de arroz y maz durante los aos 1980 y 1985. Aos 80 Produccin de arroz (Ton) 10 Produccin de maz (Ton) 5

16

81 82 83 84 85

15 25 30 28 20

8 24 12 5 7

Comparacion en la produccion de arroz y maiz entre los aos 1980 y 1985


produccion en ton 60 40 20 0 1 2 3 4 5 6 aos Serie2 Serie1

Conversiones:

1 corresponde al ao 80 2 corresponde al ao 81 3 corresponde al ao 82 etc Serie 2 corresponde al maz Serie 1 corresponde al arroz

BARRAS SUPERPUESTAS. Al igual que la anterior esta grafica nos permite comparar dos eventos sobre el mismo eje de coordenadas, ejemplo La siguiente tabla nos muestra la produccin de yuca y ame por hectrea durante los aos 1990 a 1993, en la finca coralito, municipio de Coloso.

Aos 1990 1991 1992

Produccin de yuca, Ton 8 9 9.5

Produccin ame Ton 12 11 12

17

1993

10

12.5

produccion de yuca y ame en la finca coloso


15 frecuencia 10 5 0

yuca ame

GRAFICAS CIRCULARES. Se utiliza representar las variables y sirve para hacer notar las diferencias en las proporciones o porcentajes a representar, son bastante tiles para visualizar las diferencias entre algunas categoras nominales. Ejemplo La siguiente tabla presenta una poblacin de 2.000 estudiantes universitarios de extraccin urbana, suburbana y rural. EXTRACCION DEL ESTUDIANTE Urbana Suburbana Rural Total FRECUENCIA 240 1.400 360 2.000

Para construir la grafica circular, repartimos los 360 grados de la circunferencia proporcionalmente a las cifras absolutas de la tabla anterior realizando los siguientes clculos.

(360 grados x frecuencia) / numero total de datos (360 grados x 240) /2.000 = 43.2 grados

18

Ahora el valor de 240 es necesario convertirlo en porcentaje para hacer una mejor observacin de la grafica, de la siguiente manera: (Frecuencia / numero total de datos) x 100. (240/ 2.000) x 100 = 12% este valor es el que mostramos en la grafica. Para la frecuencia de 1.400 tenemos: (360 grados x 1.400) / 2.000 = 252 grados (1.400 / 2.000) x 100 = 70%. De igual manera se procede para la ltima frecuencia y posteriormente se arma la grafica.

Extraccion urbana, suburbana y rural para una poblacion de 2.000 estudiantes


Serie1; 18% Serie1; 12%

1 2 3

CAPITULO 3 Serie1; 70%

CAPITULO 3 ESTADIGRAFOS DE POSICION O MEDIDAS DE TENDENCIA CENTRAL.

19

Las medidas de centralizacin son valores que tienden a situarse en el centro del conjunto de datos ordenados segn su magnitud y nos permiten hallar un nmero nico que represente el promedio o lo tpico de ese conjunto. Las medidas de tendencia central son: La media aritmtica Mediana Moda Media geomtrica Media armnica Cuarteles, deciles y percentiles.

Las ms usadas son la media, mediana, moda, cuartiles, deciles, y percentiles. MEDIA ARITMETICA. Es la ms conocida, aplicada a variables continuas o discretas, se representa por ( ) miu para la media poblacional y por x para la media muestral. Se define como la suma de todos los valores observados divididos por el nmero de observaciones. Se puede calcular para datos agrupados, no agrupados o para una media ponderada. Para datos no agrupados.

_ X=

x1 + x2 + x3 + + xn n.

donde : X es la media muestral x1, x2son los valores de cada observacin n nmero de datos

Xi X= n.

sumatoria desde el

primer al ultimo valor observado.

20

Ejemplo: .El peso en gramos de ocho ratones machos a los treinta das de nacidos son: Peso gr 76.2 81.5 50.0 47.5 63.5 65.1 63.2 64.5

76.2 + 81.5 + 50.0 + 47.5 ++ 64.5

511.5

X=
8

=
8

= 63.94

El peso promedio de los ocho ratones a los treinta das de nacidos es de 63.94 gramos.

Para datos agrupados. Se presenta cuando al realizar un conteo se repiten algunos valores, se aconseja construir una tabla de distribucin de frecuencias para especificar el nmero de veces que se repite cada valor y poder aplicar la siguiente formula.

_ X=

f1x1 + f2x2 +f3x3 + + f4x4


Donde: f1 es la frecuencia de

f1 + f 2 + f 3 + + f 4. fixi fi.

clase o absoluta. Xi cada valor observado

_ X=

Ejemplo: Hallar la media aritmtica de las ventas obtenidas en 60 almacenes agropecuarios durante un ao.

21

INTERVALO * 5-10 10-15 15-20 20-25 25-30 30-35 35-40 TOTAL

MARCA DE CLASE 7.5 12.5 17.5 22.5 27.5 32.5 37.5

FRECUENCIA DE CLASE 2 5 12 14 15 8 4 60

_ X=

fixi fi.

*Datos en miles de pesos

_ X=

fixi fi.

2(7.5) + 5(12.5) + 12(17.5) +... + 4(37.5) 60

1425 = = 23.75

60 El promedio de ventas es de 23.750 pesos

MEDIA PONDERADA: En ocasiones, a cada valor observado en una variable aleatoria (X) se le anexa un valor que caracteriza o prioriza la relevancia de esta observacin dentro de la muestra. Por ejemplo el margen de utilidad de los productos obtenidos en una finca y su costo.

LINEA DE PRODUCTO LECHE SUERO QUESO

UTILIDAD % 4.0 5.0 7.0

VENTAS V $200.000 $100.000 $50.000

%*V 800.000 500.000 350.000

22

MANTEQUILLA TOTAL

12.0

$30.000 $380.000

360.000 $2.010.000

% V
Xv = V.

Xv =

$2.010.000
$380.000

= 5.2%

MEDIANA: (Md) La mediana de un conjunto de datos, es el dato que divide al grupo o conjunto en dos partes iguales, para obtener la mediana es necesario, primero ordenar los datos en forma ascendente o descendente segn su magnitud, luego verificar si el nmero de datos es par o impar ; en caso de ser impar la mediana es el valor que ocupe la posicin central dentro del conjunto de datos ordenados y si es par la mediana ser el valor de la media aritmtica De los dos valores que ocupen la posicin central dentro del conjunto de datos ordenados.

Ejemplo 1 para datos no agrupados. Nos dan una serie de datos 5, 3, 2, 1, 9, 6, 7. 1, 2, 3, 5, 6, 7, 9. 23

La mediana es 5 por estar ubicado al centro de la distribucin.

Ejemplo 2 para datos no agrupados. Nos dan la serie 283, 295, 304, 332, 339, 344hallar la mediana. 283, 295, 304, 332, 339, 344. Numero par de datos

Md = X=

304 + 332 2

= 318.

Para datos agrupados es necesario seguir los siguientes pasos: Ubicar el intervalo donde quede la frecuencia correspondiente a la mitad del tamao de la muestra n/2. Ii:Encontrar el limite inferior del intervalo donde esta n/2.

fa sumatoria de frecuencias anteriores a n/2.


Fn/2: frecuencia donde esta n/2. A: amplitud de los intervalos. Aplicar:

Md = Ii +

( ( n/2 fa) / Fn/2 ) A.

Ejemplo1 para datos agrupados. Encontrar la mediana de las ventas de60 establecimientos agropecuarios.

24

INTERVALO * 5-10 10-15 15-20 20-25 25-30 30-35 35-40 TOTAL

FRECUENCIA DE CLASE 2 5 12 14 15 8 4 60

n/2 = 60/2 = 30 Ii = 20

fa = 12 + 5 + 2
A=5 Fn/2 = 14.

* valores en miles de pesos

Md = 20 +

( ( 30 19) / 14 )5 = 23.9

= 24.

$24.000 es la venta ubicada en la mitad. MODA. Se define como el valor de3 mayor frecuencia, es comnmente usada como medida que refleja una tendencia o preferencia. Se representa por (Mo). Si dentro de un grupo de valores no se repite alguno no existe moda, si dentro de un grupo de valores se repiten dos valores no adjuntos se dice que la distribucin es binomial y si existen varias modas dentro del grupo se dice que la distribucin es multimodal. La moda es puede calcular para datos no agrupados y agrupados. Ejemplo1 para datos no agrupados. Se ha realizado un estudio en 8 clnicas veterinarias de la ciudad para saber cuantos casos llegan a diario por urgencias, se encontraron los siguientes datos: CLINICA S N DE CASOS 1 7 2 5 3 8 4 9 5 6 6 8 7 11 8 8

25

La moda en este caso es 8, el cual es el valor con mayor frecuencia, la cual es 3. Ejemplo 2.Se registraron tipos de sangre versus numero de personas. INDIVIDUOS SEGN EL TIPO DE SANGRE TIPO DE SANGRE FRECUENCIA O 417 A 292 B 94 AB 17

El tipo de sangre con mayor frecuencia es O. Moda para datos agrupados se sigue el siguiente procedimiento. Se identifica el intervalo con mayor frecuencia Ubicar el limite inferior del intervalo donde esta la moda (Ii) Establecer la diferencia entre la frecuencia modal y la frecuencia inmediatamente anterior ( d1 ) Establecer la diferencia entre la frecuencia modal y la frecuencia inmediatamente posterior ( d2 ) conocer la amplitud de los intervalos ( A ). Aplicar:

Mo = Ii +

( d1 / (d1 + d2) )A.

Ejemplo: Encuentre la moda de las ventas en los 60 establecimientos agropecuarios.

26

INTERVALO * 5-10 10-15 15-20 20-25 25-30 30-35 35-40 TOTAL

FRECUENCIA DE CLASE 2 5 12 14 15 8 4 60

Mayor frecuencia 15 Ii = 25 d.1 = 15 14 = 1 d2 = 15 8 = 7 A = 5.

Mo = 25 +

( 1/ ( 1 + 7 )) 5 = 25.6 = 26

* valores en miles de pesos

La venta ms frecuente es de $26.000.

ESTADIGRAFOS O MEDIDAS DE UBICACIN. Se representa por ( D ) y son los valores que dividen la distribucin en diez partes iguales, cada uno equivale a un promedio del 10% de la muestra o poblacin, los deciles son nueve los cuales se representan con sub indices D 1, D2; D9 . El D5 coincide con la mediana. PERCENTILES: Se representa por ( P ), y son los valores que dividen la distribucin de datos en cien partes iguales, estos son noventa y nueve y se representan con la letra ( P ) y los correspondientes sub ndices P1, P2 P3;P99. El P50 coincide con la mediana. A dems de los estadgrafos de tendencia central existen otros que nos permiten complementar el anlisis de la informacin, estos son los cuartiles, deciles y percentiles. CUARTIL: Se representa por la letra ( Q ), se define como la medida o valor que divide la distribucin de datos en cuatro partes iguales, denominados cuartiles, estos nos permiten observar el comportamiento promedio de la cuarta parte de la muestra o poblacin analizada.

27

Los cuartiles son tres Q1, llamado primer cuartil y corresponde al promedio del 25% de la muestra o poblacin analizada; Q2 corresponde al segundo cuartil y representa al promedio del 50% de la muestra o poblacin observada, este cuartil coincide con la mediana y Q3 que es el tercer y ultimo cuartel y equivale al 75%. DECIL: Si los datos no es tan agrupados se deben ordenar en forma ascendente o descendente y aplicar la siguiente formula para ubicar la posicin del dato que nos interesa: ( n x p ) / q, donde n es el numero de datos observados; q son los valores 4, 10, 100; p numero de ubicacin al que nos vamos a referir.

Ejemplo: Con los siguientes datos ubicar el que corresponde a: Primer cuartel Tercer decil Percentil 80. 12 8 5 10 11 4 6 3

Es necesario ordenar estos valores antes de iniciar la ubicacin.

10

11

12

Q1 = ( n x P ) / q = ( 8 x 1 ) / 4 = 2. El dato que corresponde al primer cuartel es 4 porque esta ubicado en la segunda posicin de la tabla.

D3 = ( n x P ) / q = ( 8 x 3 ) / 10 = 2.4 = 2 El dato que esta en el tercer decil es 4 ya que se ubica en la posicin 2. P80 = ( n x P ) / q = ( 8 x 80 ) / 100 = 6.4 = 6.

28

El dato que esta en el percentil 80 es 10 teniendo en cuenta la posicin 6 calculada. Cuando los datos estn agrupados es necesario aplicar la siguiente formula:

[(n x p) / q] fa U = Ii + F(np /q) xA

donde: U es la medida de la ubicacin Ii limite inferior

A es amplitud intervalo. la sumatoria de las frecuencia anteriores

fa es

Fn/2: frecuencia donde esta n/2.

Ejemplo: En la regin de la paz se hizo un estudio sobre el peso promedio en kilos de las reses existentes en 200 fincas. Se obtuvo la siguiente distribucin.

PESO EN KILOS

N DE FINCAS

N DE FINCAS ACUMULADAS 29

100.0 110.0 110.1 - 120.0 120.1 - 130.0 130.1 140.0 141.1 150.0 151.1 160.0 160.1 180.0

15 25 35 45 35 20 25 200

15 40 75 120 155 175 200

Calcular: Q1, . D5 P30. Para Q1 aplicamos la formula

[(n x p) / q] fa U = Ii + F(np /q) xA

Para encontrar estas medidas es necesario encontrar (n x p) / q para ubicar el intervalo correspondiente a esta posicin. ( 200 x 1 ) / 4 = 50 50 40 35 Estos significa que el 25% de las fincas tiene reses con un peso promedio de 122.95 Kg.

U=

120.1+

x 10 =122.95Kg

Para D5; se sigue el procedimiento anterior, as: ( 200 x 5 ) / 10 = 100. 30

100 - 75 U = 130.1 + 45 x 10 = 135.65 Kg

Lo anterior significa que el 50% de las fincas analizadas tiene reses con peso promedio de 135.65 Kg.

Para P30, tenemos: ( 200 x 30 ) / 100 = 60.

60 - 40 U = 120.1 + 35 x 10 = 125.81 Kg

Estos nos dice que el 30% de las fincas analizadas tiene reses con un promedio de 125.81 Kg.

31

CAPITULO 4 ESTADIGRAFOS O MEDIDAS DE DISPERSION

Estas se refieren a la separacin de los datos numricos alrededor de una medida centralizada o cualquier otra que se tome como referencia, existen varias tcnicas para calcular la dispersin dentro de estas tenemos: Rango Desviacin media Varianza Desviacin tpica Coeficiente de variacin

RANGO: Se representa por ( R ) y es la diferencia entre el valor ms alto y el ms bajo en una distribucin de datos. Para datos no agrupados se calcula a travs de la formula:

R = Ds Di

donde: R es rango Ds es el dato superior Di es el dato mas bajo.

Ejemplo: se tienen los siguientes datos 8, 6, 7, 5, 4, 15, 2, 14, 11, 10, 3, 12 calcular el Rango. R = Ds Di. Ds = 15 Di = 2 Para los datos agrupados en una tabla de frecuencias, el rango es la diferencia que existe entre el lmite superior de la clase ms alta ( LsCa )y el lmite inferior de la clase mas baja ( LiCb ). R = LsCa LiCb. R = 15 2 = 13.

32

Ejemplo. La siguiente tabla muestra los pesos en libras de 40 animales.

PESO EN LIBRAS 118 126 126 - 134 134 142 142 150 150 158 158 166 166 -174

MARCA DE CLASE 112 130 138 146 154 162 170

R = LsCa LiCb

LsCa = 174 LiCb. = 118

R = 174 118 = 56

DESVIACION MEDIA ( Dm ):Se define como la media aritmtica de los valores absolutos de las desviaciones con respecto a la media.(1). Para datos no agrupados.

Dm =

Xi X
n

Xi es el valor de la variable observada

n es el numero de datos

X es la media aritmtica
Ejemplo: Hallar la desviacin media de los siguientes datos 5, 7, 6, 9, 12. 33

Xi
X= n. =

5 + 7 + 6 + 9 + 12 = 39 / 5 = 7.8. 5

Aplicamos ahora.

Dm =

Xi X
n

5 7.8 Dm =

7 7.8

+ 6 7.8 5

9 -7.8

+ 12 7.8

Dm = (2.8 + 0.8 + 1.8 + 1.2 + 4.2) / 5 = 2.16 Este significa que cada uno de los datos de la serie estn distanciados de la media en 2.16.

Para datos agrupados: Es muy similar a la formula anterior, pero agregando la frecuencia de cada intervalo ( f )y la frecuencia total ( ft).

Dm =

Xi X ft

34

Ejemplo: Encuentre la desviacin media de las ventas en los 60 establecimientos agropecuarios.

INTERVALO * 5-10 10-15 15-20 20-25 25-30 30-35 35-40 TOTAL

FRECUENCIA DE CLASE 2 5 12 14 15 8 4 60

MARCA DE CLASE 7.5 12.5 17.5 22.5 27.5 32.5 37.5

* Cifras en miles de pesos Para realizar este clculo es necesario hallar la media aritmtica a travs del proceso conocido para datos agrupados.

Xi
X= n. =

(2x7.5) + (5x12.5) +
60

+(4x37.5) =

1.425 = 60

X = 23.74 =24

Aplicamos ahora :

Dm =

Xi X ft

35

Dm =

7.5 -24 x2 +

+ 17.5-24 x12 + 60

+ 37.5-24 x4

Dm = 364 / 60 = 6.06. Este valor significa que las ventas de cada almacn varia de la media en seis puntos y seis dcimas.

VARIANZA: Se representa por la letra sigma ( ). La varianza es una medida de dispersin que nos indica la distancia promedio de cualquier observacin dentro del conjunto de datos observados. Esta medida se puede calcular para datos no agrupados y agrupados, para poblaciones y muestra como se vera a continuacin: PARA DATOS NO AGRUPADOS. POBLACION.
2

2 =

( Xi )
n

MUESTRA.
2

( Xi x )

s2 =
n -1 PARA DATOS AGRUPADOS: 36

POBLACION.

2 =

( Xi ) X f
n -1

MUESTRA.

( Xi x ) X f

s2 =
n -1 Ejemplos: hallar la varianza de los siguientes datos conociendo su media aritmtica. Datos: 6,4,3,7,8; X = 5.6. Aplicamos entonces la formula para calcular la muestra de datos no agrupados Datos Xi 6 4 3 7 8 total

(Xi x )2
0.16 2.56 6.76 1.96 5.76 17.23

Proceso. ( 6 - 5.6 )2 + ( 4 - 5.6 )2 + + (8 5.6 )2 = 17.23

Aplicamos la respectiva formula para la varianza muestral S2 = 17.23 / 5 = 3.45

37

Ejemplo para calcula la varianza muestral en datos agrupados.

Hallar la varianza de los 60 establecimientos agropecuarios antes mencionado Sabiendo que: X = 5.6.

INTERVALO * 5-10 10-15 15-20 20-25 25-30 30-35 35-40 TOTAL

FRECUENCIA DE CLASE 2 5 12 14 15 8 4 60

MARCA DE CLASE 7.5 12.5 17.5 22.5 27.5 32.5 37.5

(Xi x )2f
544.5 661.25 507 31.5 183.75 578 729 3235

Cifras en miles de pesos

Proceso: ( 7.5 - 24 )2x 2 + ( 12.5 - 24 )2x5 + + (37.5 - 24 )2x 4 = 3.235 Aplicando la respectiva formula tenemos: S2 = 3.235 / 59 = 54.83 38

De igual forma se procede par el clculo de la varianza poblacin para datos agrupados y no agrupados respectivamente.

DESVIACION TIPICA O ESTANDAR: Se representa por ( S ), es la medida que nos indica que tan dispersos estn los datos observados con relacin a la media aritmtica y se puede definir como la raz cuadrado de la varianza, al igual que la varianza esta tambin se puede calcular para datos agrupados y no agrupados, para poblaciones y muestras. Para datos no agrupados Poblacin:

= 2.

Muestra: S = S2. Para datos agrupados: Poblacin:

= 2. S2.

Muestra: S =

El procedimiento de clculo es el mismo que para la varianza, con la diferencia que a los resultados obtenidos hay que operarlos a travs de la raz cuadrada.

COEFICIENTE DE VARIACION: Se representa por las letras ( CV ), es una medida que relaciona la desviacin estndar con la media aritmtica y nos permite saber si los datos son homogneos o heterogneos, si los resultados del calculo son pequeos o grandes respectivamente. Adems nos permite comparar los resultados obtenidos

39

por diferentes personas que realicen investigaciones con la misma variable. Es importante anotar que los resultados obtenidos se expresan en porcentaje.

Cv =S / X

Ejemplo: una granja avcola tiene dos clases de aves productoras de huevos gallinas y codornices, para las gallinas la produccin media es de 2300 huevos y la promedio para las codornices es de 2.500 huevos, sus respectivas desviaciones tpicas son 730 y 810. Comparar sus coeficientes de variacin. Cv =S / X

Cvg = 730 / 2300 = 0.317 = 31.7%

Cvg: coef de variacin para gallinas

Cvc = 810 / 2.500 = 0.324 = 32.4%

Cvc: coef. de variacin para codornices

Este resultado nos indica que la menor dispersin relativa la tienen las gallinas, es decir es ms estable la produccin de huevos de gallinas.

40

CAPITULO 5 REGRESION Y CORRELACION. Hasta el momento hemos trabajado con experimentos aleatorios con una sola variable, Ahora trataremos con experimentos aleatorios que incluyen dos o ms variables. En casi todos los campos de estudio se presenta el problema de PRONOSTICAR O PREDECIR el valor de una variable de algn proceso, a partir de los valores conocidos de otras variables que estn relacionadas. Para entrar en este pronstico primero conozcamos el comportamiento de las variables a travs de un diagrama de dispersin, el cual es un grafico de los puntos correspondientes a los valores de los dos variables y que se realiza sobre un plano cartesiano. Ejemplo. Suponga que los siguientes datos corresponden a la edad y peso de ocho nios

EDAD EN AOS PSO EN KILOS

12 34

10 30

8 28

6 24

4 20

10 32

9 33

6 25

DISPERSION ENTRE LAS VARIABLES EDAD Y PESO DE OCHO NIOS PESO EN KILOS 40 30 20 10 0 0 5 10 15 EDAD EN AOS

DISPERSION ENTRE LAS VARIABLES EDAD Y PESO DE OCHO NIOS

41

En este diagrama es posible representar una lnea recta o curva que aproxime a los datos. Dicha curva se denomina curva de aproximacin. Si los datos se aproximan a una lnea recta se dice que entre las variables hay una relacin lineal; si se aproximan a una curva se dice que existe una relacin no lineal.

La relacin o dependencia de estas variables de la muestra se conoce con el nombre de anlisis de regresin.

ANALISIS DE REGRESION. Basndonos en los datos muestrales, se puede estimar el valor de una variable, esto se puede hacer estimando el valor de la variable y de la lnea o curva que ajuste a los datos. Existen varios mtodos para ajustar datos, un de los mas conocidos es el de los mnimos cuadrados. La recta o curva resultante se llama recta de regresin o curva de regresin. Entendamos esto con un ejemplo. Con base en los datos obtenidos en un muestreo con nios sobre su estatura y peso se puede construir la recta de regresin, tal que conociendo la estatura de nio se estime su peso. La recta de regresin tiene la siguiente forma:

42

Y = mx + b Donde m es la pendiente de la recta, si m 0 la recta se inclinara hacia la derecha; si m 0 la recta se inclinara hacia la izquierda.

X es la variable independiente y b es el punto de intercepto con el eje de las ordenadas e y es la variable dependiente.

Para encontrar la ecuacin de la recta se sigue el mtodo de los mnimos cuadrados, veamos. Cuando los puntos del diagrama de dispersin tienden a estar alrededor de una lnea, se dice que existe correlacin lineal y la recta de aproximacin se obtiene con la siguiente formula.

Y = [ ( x X ) ( y y ) / ( x X ) ] X

A la recta que se origina de solucionar la ecuacin anterior se le llama, recta de regresin. Ejemplo. Suponga que los siguientes datos corresponden al nmero de preguntas contestadas correctamente por 8 alumnos en dos pruebas de estadstica, encuentre la recta de regresin Y sobre X: si un alumno obtiene 5 puntos en la primera prueba, cuanto espera obtener en la segunda prueba. Puntos de la primera prueba X 1 3 4 6 8 Puntos de la segunda prueba Y 1 2 4 4 5

X = X- X

Y=Y-Y

XY

X2

Y2

-6 -4 -3 -1 1

-4 -3 -1 1 0

24 12 3 1 0

36 16 9 1 1

16 9 1 1 0

43

9 11 14 X =7

7 8 9 Y=5

2 4 7

2 3 4

4 12 28 =84

4 16 49 =132

4 9 16 =56

Teniendo calculada la anterior tabla, apliquemos la formula de la recta de regresin como sigue. Y = [ ( x X ) ( y y ) / ( x X ) ] X Y = [ 84 / 132 ] X Pero sabemos que Y = y - Y, pero tambin X = x - X , reemplazando estos valores en la formula esta nos quedara de la siguiente forma:

Y 5 = 0.63 ( X 7) Y 5 = 0.63X 4.41 Y = 0.63X + 5 4.41 Y = 0.63X + 0.59 Esta es nuestra ecuacin de la recta de regresin en la cual reemplazamos el primer puntaje conocido, 5 en la variable X para de esta manera conocer el segundo puntaje.

Y = 0.63(5) + 0.59. Y = 3.74 aproximado a 4.0

CORRELACION. La correlacin mide el grado de relacin entre las variables. Cuando se trata de dos variables, se habla de correlacin simple y regresin simple. Cuando existen ms de dos variables se habla de correlacin mltiple y regresin mltiple.

44

Correlacin lineal o simple. Si todos los puntos de un diagrama de dispersin parecen encontrarse cerca de una recta, la correlacin se dice que es lineal. En tal caso, los pronsticos o estimativos se dan con base a una recta de regresin. La correlacin lineal puede ser positiva o negativa. La correlacin es positiva cuando una de las variables se incrementa la otra tambin se incrementa, tambin es llamada correlacin directa, ejemplo relacionemos la edad y la presin arterial. La correlacin es negativa cuando una de las variables aumenta la otra disminuye, tambin es llamada correlacin inversa, ejemplo la temperatura y la altura sobre el nivel del mar.

Nota. Si todos los puntos del diagrama de dispersin parecen estar cerca de alguna curva la correlacin se dice que es no lineal. Si no existe relacin entre las variables decimos que las variables no estn correlacionadas.

COEFICIENTE DE CORRELACIN. Con frecuencia se requiere de un indicador o medida de la fuerza con la que dos variables se encuentran linealmente relacionadas, de modo que el indicador no dependa de las escalas en la que cada una de las variables se haya medido. Tal indicador o medida se conoce como una medida de correlacin lineal. La ms usada en estadstica es el coeficiente de correlacin de PEARSON. Para encontrar su valor debemos aplicar una formula. Si el valor hallado es positivo se dice que existe correlacin lineal directa, A medida que este valor se aproxima a uno es mayor la relacin directa entre las variables. Si el valor de pearson toma un valor negativo se dice que hay correlacin lineal inversa, a medida que este valor se aproxime a ( -1) es mayor la relacin inversa entre ellas.

45

Si este valor es cero implica ausencia de correlacin lineal. P = XY / ( X2) (Y2) Pero sabemos que Y = y - Y, X = x X. Ejemplo. El coeficiente de correlacin de los puntajes obtenidos en las dos pruebas del ejemplo anterior es:

P = 84 / ( 132 * 56) P = 0.977 Esto nos muestra que hay una correlacin lineal positiva entre las variables muy altas, es decir que al aumentar el puntaje en la primera prueba tambin aumenta el puntaje de la segunda prueba.

46

CAPITULO 6 PROBALIDAD.

En nuestra vida cotidiana podemos observar que tomamos muchas decisiones sobre eventos que pueden ser o no probables, como los juegos de azar y el clima entre otros, en lo que respecta a la estadstica la probalidad, se encamina a inferir las caractersticas de una poblacin a partir de los datos analizados de una muestra. La probalidad de un suceso en una serie dada, es la relacin por cociente de los resultados favorables de un suceso con respecto a los nmeros de acontecimientos considerados, la probalidad de un suceso es siempre un nmero positivo o nulo, pero no puede ser mayor que los casos posibles.

P( E ) = Casos favorables / Casos posibles. Veamos, sea E el suceso de que al tirar un dado una vez salga un tres. Entonces tenemos que un dado tiene seis caras y la posibilidad de que salga un tres; casos favorables un y casos posibles tres, apliquemos la formula. P( 3 ) = 1 / 6 = 0.17 podemos decir que la probabilidad de que salga un tres es del diecisiete porciento.

Otro ejemplo: Supongamos que una carta es retirada al azar de una baraja, cual es la probabilidad de que la carta retirada sea un as, y cual es la probabilidad de que al retirar otra carta esta sea una espada.

47

Sabemos que una baraja tiene 52 cartas de las cuales 4 son ases y 13 son de espadas. La probalidad de que sea un as ser. P ( as ) = 4 /52 = 1 / 13 = 0.076, es decir que es del 7.6%. Y para el caso de que sea una carta de espada tenemos: P ( esp ) = 13 / 52 = estos es 25%. PROBABILIDAD CONDICIONAL. Dados dos eventos A y B la probailidad condicional de B dado A, es la probabilidad de ocurrir el evento B bajo la condicion de haber ocurrido el evento A. Indicamos la probabilidad condicional por P ( B / A ), que es la probabilidad de B dado A. Ejemplo. Supongamos que un dado azul y uno verde fueron jugados simultneamente, calcular la probabilidad de que salga una de las caras del dado verde y luego calcular la probabilidad de que salga una de las caras del dado verde si sabemos de antemano que la suma de los puntos obtenidos fue menor que 6. Veamos una tabla ilustrativa del ejercicio. Suma de los puntos relativos al lanzamiento de los dos dados. Dado azul 1 2 3 4 5 6 1 2 3 4 5 6 7 2 3 4 5 6 7 8 3 4 5 6 7 8 9 Dado verde 4 5 6 7 8 9 10 5 6 7 8 9 10 11 6 7 8 9 10 11 12

Esta tabla nos indica las 36 sumas de puntos obtenidos al jugar los dos dados, tambin nos indica que la segunda columna de izquierda a derecha son los posibles resultados de la primera pregunta del problema planteado, aplicamos la formula bsica. P = 6 / 36 = 1 /6 = 0.166 = 16.6%.

48

Para solucionar la segunda pregunta de este problema hemos resaltado las sumas menores que 6 en la tabla, de all obtenemos que de 10 casos posibles 4 corresponden a que salga una de las caras del dado verde. P = 4 /10 = 0.4 = 40%. EVENTOS INDEPENDIENTES. Si la ocurrencia de un evento B no esta influenciada por la ocurrencia de un evento A, de manera que la probabilidad de ocurrencia de B dado que ocurra A, es igual a la probabilidad de que ocurra B cuando no se impone la condicin de haber ocurrido A. P ( B/A ) = P(B). Ejemplo: Supongamos que vamos a jugar un dado y una moneda al mismo tiempo y queremos saber 1. La probabilidad de que salga el nmero seis en el dado, cualquiera que sea el evento ocurrido en la moneda. 2. Cual es la probabilidad de que salga el numero seis cuando en la moneda salga cara.

Eventos relativos a jugar un dado y una moneda

DADO 1 2 3 4 5 6

MONEDA CARA 1, CARA 2, CARA 3, CARA 4, CARA 5, CARA 6, CARA

CRUZ 1, CRUZ 2, CRUZ 3, CRUZ 4, CRUZ 5, CRUZ 6, CRUZ

Podemos observar en la tabla que al jugar el dado y la moneda son posibles 12 combinaciones, de los cuales la ultima fila corresponde al nmero seis en el dado cualquiera que sea el evento en la moneda. Su probabilidad ser. P = 2 / 12 = 0.166 = 16.6%.

49

Obtengamos ahora la probabilidad de que salga el nmero seis en el dado y cara en la moneda. P = 1 /6 = 0.166 = 16.6%. La probalidad es la misma porque los eventos son independientes. TEOREMA DE LA SUMA. La probabilidad de que ocurra un evento con un atributo A o un evento con un atributo B, esto es la probabilidad de que ocurra un evento de conjunto A U B. P ( A U B ) = P(A) + P(B) Estos eventos no pueden ocurrir al mismo tiempo y son mutuamente excluyentes Si los eventos no son mutuamente excluyentes, esto es que pueda ocurrir el evento A o el B o ambos, se aplica la siguiente formula. P(A) + P(B) P(AB) donde P(AB) es la ocurrencia de ambos eventos

Ejemplos. Jugando un dado cual es la probabilidad que salga un nmero par o un nmero menor que 3 o ambos. De que salga par P(A) =(2,4 o 6) De salga menor que 3 P(B) =( 1 o 2) De salgan ambos P(AB) = ( 2 ), nmero de casos posibles 6. Aplicamos la formula P(A) + P(B) P(AB)

P(A) = 3/6 = 0.5 P(B) = 2/6 = 0.333 P(AB) = 1/6 = 0.166. 3/6 + 2/6 1/6 = 2/3 = 0.66 = 66%. Veamos ahora un caso donde los eventos son mutuamente excluyentes. Supongamos que una urna contiene3 bolas blancas, 2 verdes, una azul y 2 rojas, cual es la probabilidad de sacar al azar una bola verde o azul. 50

En la urna hay 8 posibilidades de las cuales 2 son verdes y una azul. P = 2/8 + 1 /8 = 3/8 = 0.375 = 37.5%. TEOREMA DEL PRODUCTO. Es la probabilidad de ocurrir un evento con un atributo A y un evento con atributo B, esto es AB. P(AB) = P(A) x P(B). Nota: este teorema se aplica cuando los eventos se realizan o se dan al mismo tiempo. Una urna contiene 3 bolas blancas y 2 azules, una bola ser retirada de la urna y enseguida una segunda cual es la probabilidad de que sea retirada primero una azul y enseguida una blanca. Como la urna contiene 5 bolas de las cuales 2 son azules su probabilidad es. P = 2/5. Como fue retirada una bola de la urna quedan dentro 4 posibilidades de las cuales 3 son blancas. P = . P = 2/5 X = 6/20 = 3/10. DISTRIBUCION BINOMIAL: Se presenta en los experimentos aleatorios que producen, en cada ensayo, nicamente uno de dos resultados mutuamente excluyentes. Por ejemplo el nacimiento de una res solo se presenta dos casos que nazca macho o hembra, al jugar una moneda solo puede jugar cara o sello. Los casos como los anteriores son llamados ensayos de BERNOULLI, por conveniencia se suele llamar a uno de los resultados del ensayo como XITO ( E ) y el otro resultado como FRACASO (F) . Adems se suele llamar P a la probabilidad de que un xito ocurra en el ensayo y por (1 P) = Q la probabilidad de que ocurra un fracaso.

51

Ahora podemos expresar la probabilidad de que ocurra exactamente X xitos en N ensayos de BERNOULLI mediante la expresin: P (X) = N CXPXQ(N-X) arreglar la formula con sus exponentes. Pero C que es el nmero de secuencias posibles de xitos y fracasos que produzcan exactamente X xitos; se puede calcular como sigue:

NCX

= N!

/ X! * (N X)!

Analicemos lo anterior con un ejemplo. En una clnica veterinaria el 20% de los cachorros que sean dado de alta en los ltimos 10 aos han sido menores de un ao. El encargado de las historias clnicas, a quien un veterinario le solicita que retire las historias de tres cachorros, puede preguntarse que probabilidades hay de obtener X = 3 historias de cachorros menores de un ao (xitos) si N = 5 se sacan al azar. Calculemos primero el nmero de secuencias posibles de xito.
NCX NCX

= N!

/ X! * (N X)!

= 5! / 3! * (5 3)! = 10

Estas se secuencias son : EEEFF EFEFE EFEEF FEEEF EFFEE FFEEE EEFEF FEFEE EEFFE FEEFE

Calculemos la probabilidad exacta de xitos. P (X) = N CXPXQ(N-X)

52

P (X) = 10*(0.2)3*(0.8)2. = 0.0512 P es la probabilidad de sacar la historia clnica 20%( lo da el ejemplo) Q es la probabilidad del fracaso 80%. PROPIEDADES DE LA DISTRIBUCION BINOMIAL Media = NP Varianza 2 = NPQ Desviacin tpica = (NPQ)

Ejemplo. De un total de 800 ganaderos esperar que tengan.

con 50 reses adultas. En cuantas cabe

30 toros, suponiendo la probabilidad igual para toros y vacas (0.5). P(30) =


50C30(0.5)30*(0.5)20

= 0.0419.

Calculemos el nmero de ganaderos que tienen 30 toros EX = NP = 800*0.0419 = 33 ganaderos.

DISTRIBUCIONES DE PROBABILIDAD.
Las probabilidades asignadas a cada uno de los valores que pueda tomar una variable aleatoria discreta X, se denomina distribucin de la probabilidad. Si la suma de las probabilidades es igual a 1. Si X es una variable aleatoria discreta las principales distribuciones son: BERNOULLI, BINOMIAL Y POISSON.

53

Si X es una variable aleatoria continua las principales distribuciones son: UNIFORME, NORMAL, T- STUDEN Y CHI- CUADRADO. Entre todas las distribuciones continuas que se conocen, una de las ms importantes en estadsticas es la distribucin Normal, algunas de sus caractersticas son:

El rea total bajo la curva y por encima del eje horizontal es igual a 1. La distribucin es simtrica al respecto de su media. Es decir, el 50% del rea esta a la derecha de la media y el 50% a la izquierda. La media, la mediana y la moda son todas iguales. La curva de la distribucin normal se extiende desde hasta +. Una distribucin normal de especial importancia es la estandarizada que tiene una media igual a cero y una varianza igual a 1.

Cuando en una investigacin, la variable de inters esta normalmente distribuida por lo menos de manera aproximada, utilizamos en su anlisis el conocimiento que tenemos de la distribucin normal. De la misma manera que con la distribucin normal estandarizada podemos responder preguntas de la probabilidad en relacin con una variable aleatoria X que este normalmente distribuida por lo menos de manera aproximada. Por ejemplo podramos conocer la probabilidad de que alguna

54

variable aleatoria X distribuida normalmente, con media y desviacin tpica , asuma valores comprendidos entre Xa y Xb.

Para obtener estas probabilidades, trasformaremos la variable aleatoria X, con media y varianza 2. En la variable normal estndar, Z con media 0 y varianza 1. Esto por medio de la formula. Z = (X - ) / . Ejemplo: Un productor avcola ha encontrado que, en promedio, un 8% de los pollos se le mueren en el periodo de incubacin. Cual es la probabilidad de que en 1000 pollos seleccionados al azar se le mueran 60, si la desviacin tpica es de 8.57. Apliquemos la formula de dist. Normal estndar Z = (X - ) / . En este caso es

necesario reemplazar la media aritmtica poblacional por la media aritmtica X de la muestra. Z = (59.5 80) / 8.57 = -2.39. Cambiamos el valor de 60 por 59.5 porque los datos son continuos y de esta manera aseguramos que el valor 60 queda contenido en el estudio. Ahora con el valor calculado de -2.39 entramos al la tabla anexa de distribucin normal y encontramos el valor de 0.4916, como nos preguntan cual es la probabilidad mayor que 60 sern todos los valores de las reas a la derecha de 60. + rea a la derecha de Z = 0 = 0.5 rea entre Z =-2.39 y Z = 0 = 0.4916 0.9916 Esto nos indica que la probabilidad de que se mueran ms de 60 pollos es de 99.16%

55

Capitulo 7 MUESTREO
METODOS DE SELECCIN DE UNA MUESTRA AL AZAR. La clave de un procedimiento de muestreo es garantizar que la muestra sea representativa de la poblacin. Este muestreo puede ser probabilistico, cuando todos los elementos de la poblacin tienen la misma probabilidad de ser escogidos; o intencional cuando el investigador selecciona bajo un criterio la muestra. Los mtodos probabilisticos son: Azar simple Por estratos Conglomerados Sistemtico.

Azar simple: Este mtodo es de gran importancia cuando la poblacin no es grande o siendo grande, se concentra en un rea pequea. Tambin cuando las caracteristicas que se investigan presentan poca variabilidad o cuando la poblacin facilita su enumeracin para su seleccin. Ejemplo. En una empresa avcola hay 1.000 trabajadores, 600 son obreros, 250 tcnicos y 150 profesionales. Si se quiere seleccionar una muestra de 200 personas. La probabilidad de ser seleccionada ser: P = casos favorables / casos posibles P = 200 / 1.000 = 0.2, lo cual indica que el 20% de los obreros corresponde a 120, de los tcnicos 50 y 30 profesionales. Por estratos: Para el muestreo estratificado se divide la poblacin en varios grupos o estratos con el fin de dar representatividad a los distintos factores que integran la poblacin de estudio, la condicin de la estratificacin es la presencia en cada estrato de las caractersticas que conforman la poblacin.

56

Este proceso de estratificacin requiere que la poblacin sea dividida en grupos homogneos donde cada elemento tiene una caracterstica tal que no le permite pertenecer a otro estrato. Para la seleccin de los elementos o unidades de cada estrato se usa el mtodo del muestreo aleatorio simple o al azar. Dentro de este mtodo encontramos tres casos. Muestras de igual tamao: En este tipo de muestreo debe seleccionarse un nmero igual de electos en cada grupo. Mediante procedimiento al azar. Muestreo proporcional: En este caso el tamao de la muestra se escoge de tal forma que sea proporcional al tamao poblacional del mismo. Afijacin optima: Utiliza la mejor sub divisin posible de una muestra total, reparticin en todos los estratos, considerando tanto la variacin como el tamao de cada estrato adems se tiene en cuenta el costo de la investigacin.

Ejemplo: Utilizando el ejercicio de la empresa avcola se puede decir que obreros, tcnicos y profesionales son importantes para establecer comparaciones y se decide escoger 80 personas en cada estrato, en este caso la probabilidad de ser escogido no ser igual para cada estrato, esto dependera del estrato en que el individuo se encuentre as: Obreros 80 / 600= 0.133 Tcnicos 80 / 250 = 0.32 Profesionales 80 / 150 = 0.53.

Por conglomerados: Existen situaciones en las cuales no se puede aplicar el muestreo aleatorio simple ni el estratificado, ya que no se dispone de un listado con el nmero de elementos de la poblacin ni en los estratos. En este caso tpicamente los elementos de la poblacin encuentran de manera natural agrupados en conglomerados cuyo numero si se conoce. Por ejemplo un rbol de naranjas forma un conglomerado de naranjas para la investigacin de infestacion de insectos, una parcela en un bosque contiene un conglomerado de rboles, para estimar volmenes de madera.

57

Una vez que los conglomerados han sido escogidos se debe conformar un marco que liste o codifique todos los conglomerados de la poblacin. Entonces selecciona una muestra aleatoria de conglomerados de esta poblacin mediante los mtodos vistos anteriormente. Sistematizada: Es una de las formas prcticas de escoger una muestra dentro de un intervalo, donde el intervalo se calcula as: K = N / n, donde N es el tamao de la poblacin y n el de la muestra. Ejemplo. Si se quiere tomar una muestra de 500 viviendas en un barrio que tiene 2.000 viviendas, el intervalo de seleccin ser K = 2.000 / 500 = 4. Para iniciar el proceso de seleccin sistemtica se escoge un nmero al azar entre 1 y 4, a partir del nmero seleccionado y cada 4 viviendas se hace una escogencia, hasta completar la muestra.

TAMAO DE LA MUESTRA: Unos de los principales problemas que se debe resolver antes de efectuar un trabajo de investigacin que requiere recoleccin de informacin muestral es la determinacin del tamao de la muestra. Dado que el muestreo es costoso y requiere de tiempo, el objetivo al seleccionar una muestra es obtener una cantidad especifica de informacin a una costo mnimo. Cuando una poblacin es uniforme una muestra pequea produce la misma cantidad de informacin que una muestra grande, si la poblacin es muy diferente entre si, una muestra pequea puede ser un reflejo muy deficiente de las caractersticas de la poblacin. Las decisiones sobre el tamao de la muestra se toma de acuerdo a la variabilidad inherente en la poblacin de mediciones y a la exactitud que se requiere del estimador. A mayor variabilidad de la poblacin, mayor es el tamao de la muestra que se requiere para mantener un determinado grado de exactitud en la estimacin El tamao de la muestra se obtiene aplicando la formula que sigue: N = M.Zc2.P ( 1 P ) / M.E2 + Zc2 .P ( 1 p).

58

Siendo. N el tamao de la muestra M tamao de la poblacin Zc Valor critico para la distribucin normal segn margen de error P Valor de la probabilidad de variabilidad de la poblacin. Se toma 0.5 como mxima variabilidad. E margen de error Veamos un ejemplo: Segn las estadsticas de la secretaria de educacin hay 120.500 alumnos matriculados en los niveles de primaria y secundaria con un margen de error del 5% la muestra que se seleccione al azar debe tener un tamao de

N = 120.500.(1.96)2 (0.5).(0.5) / 120.500. (0.05)2 + (1.96)2.(0.5).(0.5) N = 383.

59

BIBLIOGRAFIA.

SUAREZ AGUDELO, Fabio. Fundamentos de estadstica. Rojas Eberhard Editores. Santa fe de Bogota. 1991. GAYARDO, Yolanda; GAFARO, Aurora; VALERO, Sandra. Probabilidad Estadstica. Centro de educacin virtual y a distancia, Universidad de Pamplona. 2002. VIEIRA, Sonia. Introduccin a la bioestadstica. Campus Editora. Ri de Janeiro. 1986. MARTINEZ BENCARDINO, Ciro. Estadstica Comercial. Editorial norma, Santa fe de Bogota.1981.

60

Anda mungkin juga menyukai