OBJETIVO GENERAL:
Familiarizar al estudiante las herramientas necesarias que le permitirn, resolver e interpretar
problemas estadsticos reales.
OBJETIVOS ESPECFICOS
1. Conocer los conceptos bsicos de la estadstica.
2. Conocer la importancia de la estadstica y su aplicacin en la vida cotidiana.
3. Diferenciar entre el dato cualitativo y cuantitativo.
4. Describir medidas de medidas de tendencia central
5. Describir medidas de dispersin.
6. Conocer la importancia de la computadora en la estadstica.
ASIGNATURA: ESTADISTICA I
TEMA SUBTEMAS
INTRODUCCIN A LA 1.1. Definicin de Estadstica
ESTADSTICA 1.2. Cules son las ramas de la Estadstica?
1.3. Historia de la estadstica
1.4. Aplicacin e Importancia de la estadstica.
2.1. Organizacin de los datos
2.2. Tablas de distribucin de frecuencias para
variables cualitativas
2.3. Tablas de distribucin de frecuencias para
TABULACIN DE DATOS.
variables discretas.
2.4. Tablas de distribucin de frecuencias para
variables continuas. Intervalos de clase,
frecuencias.
Definicin
Historia
Los comienzos de la estadstica pueden ser hallados en el antiguo Egipto, cuyos faraones lograron
recopilar, hacia el ao 3050 antes de Cristo, prolijos datos relativos a la poblacin y la riqueza del
pas. De acuerdo al historiador griego Herdoto, dicho registro de riqueza y poblacin se hizo con el
objetivo de preparar la construccin de las pirmides. En el mismo Egipto, Ramss II hizo un censo
de las tierras con el objeto de verificar un nuevo reparto.
En el antiguo Israel la Biblia da referencias, en el libro de los Nmeros, de los datos estadsticos
obtenidos en dos recuentos de la poblacin hebrea. El rey David por otra parte, orden a Joab,
general del ejrcito hacer un censo de Israel con la finalidad de conocer el nmero de la poblacin.
Tambin los chinos efectuaron censos hace ms de cuarenta siglos. Los griegos efectuaron censos
peridicamente con fines tributarios, sociales (divisin de tierras) y militares (clculo de recursos y
hombres disponibles). La investigacin histrica revela que se realizaron 69 censos para calcular los
impuestos, determinar los derechos de voto y ponderar la potencia guerrera.
Pero fueron los romanos, maestros de la organizacin poltica, quienes mejor supieron emplear los
recursos de la estadstica. Cada cinco aos realizaban un censo de la poblacin y sus funcionarios
pblicos tenan la obligacin de anotar nacimientos, defunciones y matrimonios, sin olvidar los
recuentos peridicos del ganado y de las riquezas contenidas en las tierras conquistadas. Para el
nacimiento de Cristo suceda uno de estos empadronamientos de la poblacin bajo la autoridad del
imperio.
Durante los mil aos siguientes a la cada del imperio Romano se realizaron muy pocas operaciones
Estadsticas, con la notable excepcin de las relaciones de tierras pertenecientes a la Iglesia,
compiladas por Pipino el Breve en el 758 y por Carlomagno en el 762 DC. Durante el siglo IX se
realizaron en Francia algunos censos parciales de siervos. En Inglaterra, Guillermo el Conquistador
recopil el Domesday Book o libro del Gran Catastro para el ao 1086, un documento de la
propiedad, extensin y valor de las tierras de Inglaterra. Esa obra fue el primer compendio
estadstico de Inglaterra.
demogrficos y econmicos.
de derecho). No fue hasta 1940, que a diferencia de los otros, este censo se
hasta la fecha.
DIVISIN DE LA ESTADSTICA
La Estadstica para su mejor estudio se ha dividido en dos grandes ramas: la Estadstica Descriptiva
y la Inferencial.
ESTADSTICA
ESTADSTICA
Estadstica
Estadsticadescriptiva Estadstica
descriptiva EstadsticaInferencial
Inferencial
En muestreo se entiende por poblacin a la totalidad del universo que interesa considerar, y que es
necesario que est bien definido para que se sepa en todo momento que elementos lo componen
Muestra: Los estadsticos emplean la palabra muestra para describir una porcin escogida de la
poblacin. Matemticamente, podemos describir muestras y poblaciones al emplear mediciones
como la Media, Mediana, la moda, la desviacin estndar. Cuando estos trminos describen una
muestra se denominan estadsticas.
Una estadstica es una caracterstica de una muestra, los estadsticos emplean letras latinas
minsculas para denotar estadsticas y muestras.
Datos Cuantitativos o Variable Cuantitativas: Una variable estadstica es cuantitativa cuando toma un
valor numrico o est asociada a una unidad de medida. Como son, por ejemplo, los datos
correspondientes a la estatura de las personas, el nmero de hijos por familia en determinada
localidad, ingreso percpita, etc.
Variable discreta: aquella que entre dos valores prximos puede tomar a lo sumo un nmero
finito de valores. Ejemplos: el nmero de una familia, el de obreros de una fabrica, el de
alumnos de la universidad, etc.
Variable contina: la que puede tomar los infinitos valores de un intervalo. En muchas
ocasiones la diferencia es ms terica que prctica, ya que los aparatos de medida dificultan
que puedan existir todos los valores del intervalo. Ejemplos, peso, estatura, distancias, etc.
Datos Cualitativos o variables cualitativas: Una variable estadstica es cualitativa cuando solo puede
clasificarse en categora no numricas tales como, color del cabello, sexo, el lugar de residencia, tipo
de residencia, status social, etc. La asignacin de nmeros (la medicin) a los objetos se puede
hacer de acuerdo con reglas diferentes, lo cual origina distintas escalas de medicin que sern
descritas a continuacin.
Escala Nominal: Es aquella en que los nmeros slo se emplean para diferenciar los objetos
o distintas categoras o cuando se emplean nombres. Ejemplos de nmeros con esta
caracterstica son los que usan los jugadores de ftbol, los que aparecen en los carns de los
estudiantes, etc. La escala nominal es la escala de medicin ms dbil.
Escala Ordinal: Es aquella en que los nmeros se utilizan para diferenciar en orden de
supremaca de acuerdo con cierto criterio jerrquico, como son los nmeros que empleamos
para clasificar los distintos estratos socioeconmicos o para designar preferencias. Cuando
los objetos son medidos en escala ordinal los que tengan la misma asignacin se consideran
iguales; pero los que tengan asignaciones diferentes pertenecen a categoras distintas.
Una vez se han precisado las distintas escalas a las que estarn referidos los datos, se resean los
elementos bsicos que forman parte de las distintas maneras como se pueden resumir los datos con
el propsito de tener una visin aproximada de las caractersticas ms sobresalientes de stos.
El primer paso en la organizacin de los datos es la ordenacin de estos, ya sea de mayor a menor o
viceversa. Dicho ordenamiento, ayuda a presentar la pauta que siguen los datos.
Tabla De Frecuencias: Es un arreglo tabular de las frecuencias con que ocurre cada caracterstica en
que se han dividido los datos. Esta caracterstica puede estar determinada por una cualidad o un
intervalo, llamado intervalo de clase. La tabla de frecuencias tambin es conocida con el nombre de
distribucin de frecuencias.
Da de semana Homicidios
Lunes 13
Martes 07
Mircoles 10
Jueves 09
viernes 03
Sbado 18
Domingo 11
Total 71
Fuente: Marte 06 de septiembre de 2011/ El Siglo.
Pasos para la construccin de una tabla de distribucin de frecuencia o Reglas Generales para
construir las distribuciones de frecuencias por intervalos
Antes de construir la tabla de frecuencias hay que agrupar los datos de estas variables en intervalos.
La forma de hacerlo es la siguiente:
Determinar valores mximos y mnimos de los datos. R d .mayor d .menor
Determinar el nmero de clases o intervalos de clases (K) (utilizando la formula de Sturges).
Ejemplo 1:
En la siguiente tabla se muestra los niveles de colinesterasa de 33 agricultores expuestos a
insecticidas agrcolas:
10.6 12.2 11.8 12.5 10.8 12.7 11.1 16.5 11.4 09.2 15.0
11.5 10.3 08.6 09.9 12.4 08.5 11.9 09.1 10.1 11.6 07.8
14.9 11.3 11.1 12.5 12.3 10.2 12.5 09.7 12.3 12.0 12.4
Construccin de las clases
10.8 12.2
11.5
2
DISTRIBUCIN DE FRECUENCIA
Intervalo Punto fi Fi hi Hi
medio
I1 m1 f1 F1 f 1 f1 / n f1 / n
I2 m2 f2 F2 f1 f 2 f2 / n f1 / n + f 2 / n
I3 m3 f3 F3 f1 f 2 f 3 f3 / n f1 / n + f 2 / n + f 3 / n
. . . . .
. . . . .
. . . . .
In mn fn Fn n fn / n 1 100
Total n 100
S o lu ci n :
Ejemplo 2: Incidentes registrados por la polica nacional en la republica por periodos segn tipo: mes
de junio de 2010.
Incidentes Frecuencia
Robos 189
Hurtos 291
Heridos 120
Homicidios 15
Violencia Domesticas 103
Otros delitos 62
Total de delitos 780
Solucin:
Incidentes registrados por la polica nacional en la republica por periodos segn tipo: mes de junio de
2010.
Incidentes fi Fi hi Hi
Robos 189 189 24.23 24.23
Hurtos 291 480 37.31 61.54
Heridos 120 600 15.38 76.92
Homicidios 15 615 1.92 78.84
Violencia Domesticas 103 718 13.21 92.05
Otros delitos 62 780 7.95 100
Total de delitos 780 --- 100 ---
PRESENTACIN GRFICA DE UNA VARIABLE
REPRESENTACIN GRAFICA
Diagramas de barras. Se utiliza para representar datos cualitativos y cuantitativos, con datos
de tipo discreto. En el eje x se representan los datos ordenados en clases mientras que en el eje
y se pueden representar frecuencias absolutas o relativas.
Homicidios registrados en distrito de Panam, por corregimiento de incidencia. Enero Agosto. Ao 2011.
Distrito Homicidios
24 de Diciembre 25
Alcalde Daz 15
Ancn 3
Bella Vista 0
Betania 5
Calidonia 12
Chilibre 5
Curundu 14
El Chorillo 18
Juan Diaz 18
Las Maanitas 5
Pacora 15
Parque Lefevre 10
Pedregal 9
Pueblo Nuevo 4
Ro Abajo 11
San Felipe 4
San Francisco 7
San Martn 0
Santa Ana 12
Tocumen 20
Total 212
Pesos (Lbs) f F H H
51 60 02 02 4.88 4.88
61 70 05 07 12.20 17.08
71 80 16 23 39.02 56.1
81 90 08 31 19.51 75.61
91 100 10 41 24.39 100.00
Total 41 100.00
El polgono de frecuencia: Para realizar el polgono unimos los puntos medios de las bases
superiores del diagrama de barras o del histograma.
Circular: Las Grficas circulares denominadas tambin grficas de pastel o grficas del
100%, se utilizan para mostrar porcentajes y proporciones. El nmero de elementos comparados
dentro de un grfico circular, pueden ser ms de 5, ordenando los segmentos de mayor a menor,
iniciando con el ms amplio a partir de las 12 como en un reloj. Una manera sencilla de
diferenciar los segmentos es sombrendolos de claro a oscuro, siendo el de mayor tamao el
ms claro y el de menor tamao el ms oscuro.
UNIDAD II
MEDIDAS DE TENDENCIA CENTRAL
MEDIDAS DE TENDENCIA CENTRAL PARA DATOS NO AGRUPADOS
Hay varios tipos de promedios, los cuales sern estudiados a continuacin; sealar cuales el ms
adecuado depende del problema que se est tratando de resolver. Las tres medidas de tendencia
central de uso mas frecuente son: la media, la mediana y la moda.
Las medidas de tendencia central corresponden a valores que generalmente se ubican en la parte
central de un conjunto de datos. (Ellas permiten analizar los datos en torno a un valor central). Entre
stas estn la media aritmtica, la moda y la mediana.
Ejemplo 1: Considere en un laboratorio de forense, 13 cadveres cuyas edades son 25, 18, 32, 25,
16, 15, 18, 30, 25, 25, 18, 30, 18.:
1 n 25 18 32 25 16 15 18 30 25 25 18 30 18
x xi
n i 1
13
295
22.69 22
13
Anlisis: Podemos ver, por la muestra analizada, que la edad promedio es 22 aos.
Ejemplo 2: Los siguientes datos son el nmero de minutos que requirieron estudiantes varones de
nivel universitarios para correr una milla
LA MEDIANA: La mediana de una serie o conjunto de datos es el dato central o de medio, cuando se
ordenan de mayor a menor menor a mayor, segn su magnitud.
n 1
Pos( Mediana )
2
Si el numero de valores es impar, la mediana es el valor medio siempre y cuando todas la
variable sean arregladas en magnitudes de mayor a menor.
Si el numero de valores es par, no existe un solo valor medio, sino que existe dos valores
medios. En tal caso, la mediana corresponde a la media de esos dos datos.
x i / 2 x ( i / 2 ) 1
Posicion( med )
2
Ejemplo 1: Considere en un laboratorio de forense, 13 cadveres cuyas edades son 25, 18, 32, 25,
16, 15, 18, 30, 25, 25, 18, 30, 18.:
Datos ordenados de menor a mayor. 15.0 16.0 18.0 18.0 18.0 18.0 25.0 25.0 25.0
25.0 30.0 30.0 32.0
n 1
Pos( Mediana )
2
13 1
Pos ( Mediana) 7
2
La mediana = 25.0
Ejemplo 2: Los siguientes datos son el nmero de minutos que requirieron estudiantes varones de
nivel universitarios para correr una milla
Datos ordenados de menor a mayor. 5.00 5.48 5.73 5.75 5.77 6.05 6.43 6.66 6.75 6.86
7.24 7.33 7.65 7.67 8.31
15 1 16
Posicion(med ) 8
2 2
La pocin esta en dato 8
Mediana = 6.66
LA MODA: La moda es el valor de las observaciones que se presentan con mayor frecuencia. Si todas
las observaciones son diferentes, entonces no hay moda y tampoco no tiene porque ser nica.
Para ilustrar un conjuntos de valores que tiene mas de una moda, considere en un laboratorio de
forense, 13 cadveres cuyas edades son 25, 18, 32, 25, 16, 15, 18, 30, 25, 25, 18, 30, 18. Se puede
decir que estos datos (observaciones) tienen dos modas 18 y 25.
MEDIDAS DE TENDENCIA CENTRAL PARA DATOS AGRUPADOS
MEDIA ARITMTICA: Generalmente se le denomina media y se define como la suman de los conjuntos
de datos, dividido entre el nmero total de la muestra.
x f i i
x i 1
n
Ejemplo: Tabla de trabajo para calcular la media de los datos agrupados.
Intervalo Media de Clase Frecuencia mifi
de Clase (I) (mi) (fi)
10 19 14.5 05 72.5
20 29 24.5 19 465.5
30 39 34.5 10 345.0
40 49 44.5 13 578.5
50 59 54.5 04 218.0
60 69 64.5 04 258.0
70 79 74.5 02 149.0
Total 57 2086.5
2086.5
x 36.6
57
LA MEDIANA: La mediana es un promedio posicional que no se deja por valores extremos como la
n / 2 F1
media aritmtica. Me Li A
f
n 1 57 1
Solucin: pos ( x ) pos ( x ) 29
2 2
La posicin de la mediana es 29.
57 / 2 24
Me 30 10 Se simplifico los 10.
10
28.5 24
Me 30 10
10
Me 30 28.5 24
Me 30 4.5
Me 34.5
MODA: Para los datos agrupados en una distribucin de frecuencia, con intervalo de clase, primero se
determina la clase que contiene la moda, identificando la clase con el nmero mayor de
observaciones.
d1
Formulas: Mo Li A Formula de Kart Pearson. Mo 3Me 2 x
d
1 d 2
Li= Limite real inferior de la clase que contiene la moda.
d1= diferencia entre la frecuencia de la clase modal y la frecuencia de la clase precedente.
di fi fi 1
d2= diferencia entre la frecuencia de la clase modal y la frecuencia de la clase siguiente.
d 2 fi fi1
A= Amplitud del intervalo.
INDICAR LA DISPERSIN DE LOS DATOS
Una vez que hemos calculado el valor medio, puede ser a veces interesante describir a qu distancia
en torno a la media estn diseminados los valores singulares. Para este fin, podemos elegir entre
diversas estadsticas. La eleccin depende del tipo de media que hayamos usado:
En conexin con la dispersin de valores raramente es interesante. En lugar de ello, si hemos
calculado una, o muchas veces querremos sealar la diseminacin de valores en torno a ella.
Una forma adecuada para esto es la desviacin de cuartiles. Un "cuartil ms alto" es aquel
valor que es sobrepasado por el 25% del conjunto de todas las mediciones; del mismo, modo
el 25% de todos los valores son ms bajos que el "cuartil bajo". La desviacin media de los
cuartiles a partir de la mediana es llamada desviacin de cuartiles y es calculada con facilidad
dividiendo por la mitad la diferencia de los cuartiles.
Una estadstica alternativa y muy simple es el rango: la diferencia entre el mayor y el menor
valor.
En conexin con las muchas veces queremos calcular la desviacin estndar. Si los valores
se miden a partir de una formula ser, Sin embargo, si la desviacin estndar en ambas
frmulas, n es el nmero de los valores, y los valores de cada variable sustituirn a x uno tras
otro. Raramente un investigador se molestar en realizar por s mismo el clculo, porque el
algoritmo necesario para esto existe incluso en calculadoras de bolsillo.
A la raz cuadrada de la desviacin estndar se llama varianza, y tambin sta es usada con
frecuencia para describir y analizar la dispersin.
Si, al analizar los datos, se descubre alguna asociacin entre las variables, esto no significa que
necesariamente alguna de ellas dependa de la otra. Una fuerte correlacin entre, digamos, A y B,
puede deberse a cuatro razones alternativas:
A es la causa de B.
B es la causa de A.
Tanto A como B son causadas por C.
La asociacin de A y B es causada por una pura coincidencia.
El investigador debe elegir deliberadamente una de estas alternativas. No hay medios en el anlisis
estadstico para la tarea de descubrir la explicacin causal para una asociacin estadstica. En
muchos casos, la teora original del investigador puede proporcionar una explicacin; si no, el
investigador debe usar su sentido comn para clarificar la causa.
Tabulacin
La tabulacin es una forma habitual de presentar las asociaciones entre dos o ms variables. Una
tabla tiene la ventaja de que en ella puede disponerse bien una cantidad extensa de datos y se
conservan las cifras exactas. Una desventaja es que una tabla grande no es ilustrativa: raras veces
revela algo ms que las ms obvias regularidades o interdependencias entre datos. Algunas
abreviaturas convencionales usadas en tablas se presentan bajo el encabezado.
Toda serie cronolgica es intrnsecamente discontinua, es decir, obtiene un valor discreto para cada
periodo de tiempo. Esto es por lo que la presentacin elegida para una serie cronolgica suele ser
una curva "en escalera", que es en principio lo mismo que un histograma donde las columnas se
dibujan una junto a otra.
Si dirigimos una mirada ms detenida a la variacin de la serie cronolgica, sta suele revelar
componentes, todos los cuales tienen sus regularidades especficas que pueden ser analizadas. Los
ms habituales de estos componentes son:
- tendencia
- variacin peridica
- variacin coyuntural
Un mtodo ms refinado y exacto para la tarea arriba mencionada es haber encontrado la ecuacin
que se ajusta de forma ptima a la tendencia, sta habitualmente es tambin presentada de forma
grfica, posiblemente junto con el diagrama de dispersin original.
Una variacin peridica es una variacin cclica recurrente en forma similar una y otra vez. El
periodo de variacin suele ser una unidad natural de tiempo, como un ao o un da.
Por ejemplo, el consumo de energa de un edificio vara simultneamente con tres frecuencias:
ritmos anual, semanal y diario. Estos se calculan uno cada vez, por el siguiente mtodo,
bsicamente el mismo en los tres casos:
La variacin peridica anual se halla haciendo un grupo de los valores para enero, otro de los
de febrero, etc. Entonces, para cada uno de estos doce grupos se calcula la media y
finalmente las doce medias se presentan como la variacin anual.
Cuando calculan los ritmos semanales, habr siete grupos, es decir, uno para cada da de la
semana. Se calcula la media para cada uno de los siete grupos, y las siete medias conforman
la variacin semanal.
El ritmo diario de 24 mediciones diarias se calcula de forma tal que todos los valores se
disponen en grupos de 24. Las 24 medias indican entonces la variacin diaria buscada.
Cuando se ha encontrado la variacin peridica, sta se presenta, sea grficamente como curva de
la longitud de un periodo, o bien numricamente como un ndice. Este ndice habitualmente se hace
a partir de una base de 100 ( 1,00), y sus valores peridicos se obtienen cuando las medias
peridicas (por ejemplo mensuales) se dividen por la media comn del conjunto de los datos.
Una variacin de coyuntura tiene lugar repetidamente en la misma manera que una variacin
peridica, pero su longitud y forma varan.
Para revelar la variacin de coyuntura, la tendencia y las variaciones peridicas de los datos han de
ser halladas primero. Tras esto, la tendencia y las variaciones peridicas se eliminan de los datos.
Esto se hace por ejemplo dividiendo todos los valores individuales por el ndice de la variacin
peridica, y por la frmula de la tendencia tal y como se ha hallado por el mtodo de anlisis de
regresin.
Tras estas operaciones, los datos slo incluyen (de forma suplementaria a la variacin aleatoria) la
variacin de coyuntura. La variacin coyuntural se presenta grficamente como una curva o
numricamente, como un ndice de coyuntura, del mismo modo que el ndice de variacin
mencionado anteriormente.
La variacin aleatoria es habitualmente eliminada mediante la media flexible. Por ejemplo, en datos
que contienen valores mensuales, esto se hace sustituyendo para cada valor mensual una media
que comprende a ese mes y los meses vecinos.
La media de cinco o siete meses puede tambin usarse, aunque la desventaja de esto es que puede
oscurecer incluso la variacin que podra interesar al investigador.
La variacin aleatoria no es necesariamente una perturbacin que haya de ser eliminada. Si hay una
gran cantidad de ella, el investigador podra intentar plantearse las razones para esta variacin: es
causada por un factor importante o interesante que debiera ser incluido en la hiptesis del proyecto
de investigacin?
Todos los anlisis de series cronolgicas que acaban de mencionarse son hoy realizados
normalmente con un ordenador.
Aqu slo era posible presentar los mtodos ms habituales de anlisis estadstico. Otras guas
sobre metodologa son, por ejemplo.: Friedman, Pisani, Purves, Adhikari: Statistics.
Cuando la informacin deseada se ha extrado de los datos, la credibilidad de los resultados debiera
ser, como una fase separada, antes de aplicarlos en la prctica.
ACTIVIDAD I
2) Un canal de televisin realiz un estudio para determinar qu tipo de programas prefera ver la
gente en el horario de 4:00 p.m a 9:00 p.m. Los resultados fueron los siguientes:
71 65 66 61 54 93 60 86 70 70
73 73 55 63 56 62 76 54 82 79
76 68 53 58 80 85 56 61 61 64
65 62 90 69 76 79 77 54 64 74
65 65 61 56 63 80 56 71 79 84
ACTIVIDAD II
Medidas de tendencia central
6) Calcula las medidas de tendencia central para los siguientes datos. Realiza el anlisis
respectivo a las calificaciones de educacin fsica de algunos estudiantes de decimo grado.
26 40 28 30 46 38 40 32 38 40
28 35 40 40 42 50 36 38 40 30
32 36 38 44 34 26 40 40 30 30
7) Una agencia de viaje ofrece tarifas especiales en ciertos cruceros para personas de tercera
edad. El presidente de esta agencia quiere informacin adicional sobre las edades de las
personas que toman cruceros. Una muestra aleatoria de 40 clientes que tomaron un crucero
el ao pasado revela estas edades.
71 65 66 61 54 93 60 86 70 70
73 73 55 55 55 62 76 54 82 79
76 68 53 58 80 85 56 61 61 64
50 62 71 69 76 79 77 54 64 74
Determinar la media, la mediana y la moda de la siguiente distribucin de los costos totales de viaje
de 200 estudiantes en unas vacaciones de dos semanas por Europa.