Anda di halaman 1dari 18

ESTADISTICA

ESTADISTICA. DEFINICIONES Y CONCEPTOS PREVIOS

I.1. ¿Qué es la Estadística?


La estadística se ocupa de los métodos y procedimientos para recoger, clasificar, resumir,
hallar regularidades y analizar los datos, siempre y cuando la variabilidad e incertidumbre
sea una causa intrínseca de los mismos; así como realizar inferencias a partir de ellos, con
la finalidad de ayudar a la toma de decisiones y en su caso formular predicciones.

I.2 Clasificación de la Estadística


Desde el punto de vista del análisis de los datos, podemos clasificar la estadística en:

a) Estadística Descriptiva.- Cuando describe, analiza y representa un grupo de datos


utilizando métodos numéricos y gráficos que resumen y presentan la información contenida
en ellos. O lo que es lo mismo, cuando los resultados del análisis estadístico no pretenden ir
mas allá del conjunto de datos investigados.

b) Estadística Inferencial.- Es aquella que apoyándose en el cálculo de probabilidades y a


partir de datos maestrales, efectúa estimaciones, decisiones, predicciones y otras
generalizaciones sobre un conjunto mayor de datos.

I.3 Aplicaciones de la Estadística


Las técnicas estadísticas pueden servir para obtener un conocimiento amplio sobre la
realidad socio – económica en la que se desempeña una persona dedicada a la
administración y gestión de recursos materiales y humanos, así por ejemplo:

i) Recursos Humanos.- Para una selección adecuada del personal, se suele usar test
de aptitudes y conocimientos deseables en la persona a contratar. Las técnicas
descriptivas son instrumentos adecuados para el tratamiento de las puntuaciones
numéricas alcanzados en dichos test.

ii) Marketing.- Los estudios de mercado dirigidos al conocimiento de la demanda de


productos, productos competidores, efectos de campañas publicitarias, etc., tienen
una gran ayuda en las técnicas estadísticas, las cuales permiten inferir valores de
parámetros poblacionales a partir de la información muestral, considerando un cierto
grado de incertidumbre, la cual puede ser cuantificada en términos de probabilidad.

1
iii) Educación.- Para quienes están dedicados al quehacer educativo, la estadística se
constituye en herramienta fundamental para el análisis de los factores y variables que
inciden en el acto educativo y que permiten aplicar los correctivos necesarios para
analizar, por ejemplo, los índices de analfabetismo, deserción escolar, de
rendimiento, de desaprobación de asignaturas, de repetición, etc.

I.4 Conceptos Básicos


Establecemos a continuación algunas definiciones y conceptos básicos, fundamentales para
el trabajo estadístico, a los cuales haremos referencia continua.

Individuos o elementos.- Personas ú objetos que contienen cierta información que se


desea estudiar.

Población.- Conjunto de individuos o elementos que cumplen ciertas propiedades comunes.


Esta puede ser:
Población finita.- Cuando el número de individuos o elementos puede ser asociado o
relacionado uno a uno con un subconjunto de los números naturales.

Población Infinita.- Cuando el número de individuos esta asociado con un proceso que se
repite un número indefinido de veces.

Muestra.- Es un subconjunto representativo de una población.

Parámetro.- Función definida sobre los valores numéricos de características medibles de


una población.

Estadístico.- Función definida sobre los valores numéricos de una muestra.

Ejemplo:
Si se considera la población formada por todos los estudiantes de secundaria del colegio
“Víctor M. Maurtua” , de la que queremos medir la característica medible altura, entonces:
La “altura media” de todos los estudiantes es un parámetro que denotaremos por “μ” cuyo
valor en particular r puede ser μ =1,63m.
El conjunto formado por los estudiantes del 2do. Año del colegio mencionado es una
muestra de dicha población y la “altura media” de esta muestra es un estadístico, que
denotaremos por “x”, cuyo valor en particular puede ser x =1,60m

Caracteres.- Propiedades, rasgos o cualidades de los elementos de la población. Estos


caracteres pueden dividirse en cualitativos y cuantitativos.

2
Modalidades.- Diferentes situaciones posibles de un carácter. Las modalidades deben ser a
la vez exhaustivas y mutuamente excluyentes. (Cada elemento posee una y solo una de las
modalidades posibles).

Clases.- Conjunto de una o más modalidades en el que se verifica que cada modalidad
pertenece a una y sólo una de las clases.

I.5 Variables Estadísticas


En estadística, cuando hablamos de variables, hacemos referencia a un símbolo tal como:
X, Y, A, B, ...
Que se refiere a un carácter y puede tomar cualquier modalidad de un conjunto
determinado, que llamaremos “dominio de la variable” o “rango”.

Clasificación de las variables


En función del tipo de dominio, las variables se clasifican del siguiente modo.

a) Variables cualitativas o atributos.- Cuando las modalidades posibles son de tipo


nominal.

Ejemplo:
Sea la variable A: color
Esta puede tomar, por ejemplo, seis modalidades
Rojo oscuro, azul oscuro, verde oscuro
Rojo claro, azul claro, verde claro
Es claro que A es una variable de tipo cualitativa, que toma seis modalidades y que puede
agruparse en dos clases: Color oscuro, Color claro

b) Variables Cuasi cuantitativas.- Son las que, aunque sus modalidades sean de tipo
nominal, es posible establecer un orden entre ellas.

Ejemplo:
Si en una competencia de veinte participantes, se estudia la llegada a la meta de los
corredores.
Su clasificación C será una variable cuasicuantitativa con veinte modalidades (en el caso de
que todos llegaran a la meta) y existe un orden implícito entre ellos:

C ∈{1ro., 2do., 3ro., . . . ,19vo., 20vo.}


Una posible agrupación en clases de esta variable es:

Subir al podium = {1ro., 2do., 3ro.}

3
No subir al podium = {4to.,5to., . . . , 20vo.}

Obviamente existe una ordenación natural.


c) Variables Cuantitativas.- Son las que tienen cantidades numéricas (valores) por
modalidades con las que podemos hacer operaciones aritméticas. Dentro de este tipo de
variables podemos distinguir dos grupos:

i. Discretas.- Cuando las modalidades son valores numéricos enteros (0,1,2,3, ...) no
admitiendo siempre una modalidad intermedia entre dos cualesquiera de ellas.

Ejemplo:
El número de hijos, X, de una familia.

Es evidente que cada valor de la variable X ∈{0,1, 2,3,L} es un número natural.

En este caso los valores coinciden con el concepto de modalidad y clase (cada clase está
constituida por una única modalidad). También podríamos haber definido dos clases:
Familias numerosas, Familias no numerosas.

ii. Continuas.- Cuando las modalidades del carácter son todas las clases de valores
posibles definidas por los extremos de clase. En este caso, se verifica que entre dos
modalidades cualesquiera siempre existen modalidades intermedias.

Ejemplo:
La variable altura, X, de un grupo de personas, es una variable continua, puesto que esta
toma valores que están entre la altura de la persona mas baja y la altura de la persona mas
alta.
Notemos que los valores de la variable son números reales.

MEDIDAS DE TENDENCIA CENTRAL


(Medidas de Posición ó de Localización)

Definición.- Son "Valores Numéricos" (estadígrafos), que representan la tendencia de todo el


conjunto de datos estadísticos.
Son los promedios ó valores alrededor de los cuales se agrupan todos los demás.

Clases de Medidas de Tendencia Central


Las medidas de tendencia central más conocidas é importantes son:
1.- La Media Aritmética
2.- La Mediana
3.- La Moda
4
y otos como:
Cuartiles, Deciles y Percentiles.

LA MEDIA ARITMÉTICA

Definición.- Es el promedio de los valores observados de la variable. Es el centro de “gravedad” de


la distribución.

Cálculo de la Media Aritmética ( x )


PARA DATOS SIN TABULAR (Datos no Agrupados).

5
La ( x ) se calcula dividiendo la suma de los valores de la variable entre el número de
observaciones.
Si x1 ; x 2 ; x3 ;  ; x N son los valores de las N variables, entonces la Fórmula es:

x
 xi
N

Ejemplos:
1. La estatura de Los integrantes de un equipo de Basket son:
1,69; 1,72; 1,81; 1,75; 1,83; mt.
Encontrar la talla promedio de los citados jugadores.
Resolución:
Aplicando la fórmula:

x
 xi 
1,69  1,72  1,81  1,75  1,83 8,8
  1,76
N 5 5
Rpta: La talla promedio de los 5 jugadores es 1,76 mt.

2. Hallar ( x ) de la serie: 5;5;5;7;7;8;8;8;8


Resolución:
Observamos que el valor 5 se repite 3 veces, el valor 7 se repite 2 veces y el valor 8 se
repite 4 veces, entonces la media será:
5 3  7 2   8 4  15  14  32 61
x    6,8
9 9 9
Rpta.: La media aritmética de la serie es 6,8

La media aritmética así calculada se llama "Media Aritmética Ponderada" el ejemplo clásico
de ponderación se refiere al llamado "coeficiente" ó "peso" en ciertos exámenes, por
ejemplo:

6
En un examen las pruebas presentan los siguientes coeficientes ( f i )

 Prueba Oral (3)


 Prueba Escrita (2)
 Práctica (1)
Si las calificaciones obtenidas por un alumno son:
-Prueba Oral (09)
-Prueba Escrita (12)
-Práctica (14)
Aplicando la ponderación, la “nota promedio" será:

x
 09 3  12 2  141 
27  24  14 65
  10,8  11
6 6 6
Rpta.: La nota promedio es 11

FORMULA DE LA MEDIA ARITMETICA PONDERADA

x
 x i
f
i

N

Ejemplo:

7
3. Las notas finales de un estudiante en Matemática, Química, Ingles y Educación Física son
respectivamente: 11, 13, 12, y 15. Si la importancia que se asigna a estas asignaturas es de
4, 3, 2 y 1 respectivamente. Determinar el promedio ponderado.
Resolución:
Ordenando los datos en una TABLA, tenemos:

Asignaturas Notas xi Ponderación f i x f


i i

Matemáticas 11 4 44
Química 13 3 39
Ingles 12 2 24
Ed. Física 15 1 15
10 122

Aplicando la Fórmula:

x
 x i
fi   122  12,2
N 10
PARA DATOS TABULADOS
Tabla de datos cuantitativos discretos (sin intervalos) (Se usa la fórmula de la x
Ponderada)

x
 x i
fi 
N

Tabla de datos cuantitativos continuos (con intervalos) En la parte de la Media


Aritmética a partir de tabla con intervalos se usa la Mcl. (Marca de clase) para
reportar el valor de cada elemento incluido en su respectivo intervalo.
Las fórmulas a usar son:

I) METODO PONDERADO

k
 f  Mcl
i 1
x
N

Donde:
f : frecuencia

Mcl : marca de clase de cada intervalo

8
II) METODO ABREVIADO

k
 f d ; donde
i 1
x  A C
N

Donde:
A : Marca de clase del intervalo de mayor frecuencia
d : Desviación con respecto a " A " (N1 Z
Z diferenciados en una unidad).
N : Suma de frecuencias
C : Tamaño ó amplitud del intervalo de clase.
Ejemplo:
4. La siguiente muestra corresponde a los pesos (en Kg.) de un grupo de estudiantes.
Elabore la TDF y hallar la media aritmética por los dos métodos.

9
44 45 50 46 47 41 47 46 51 46 56 46 47 45 61
53 68 53 55 54 46 47 61 51 47 51 52 59 58 50
62 49 65 46 45 47 58 47 50 53 49 54 63 49 53
51 45 40 57 50 53 42 49
N=53

Resolución:
11 Según la fórmula de H. STURGES. k  1  3,3 log N 

k  1  3,3 log 53  1  3,31,7242  1  5.68986  6,69

k  7 (Tabla con 7 intervalos de clase).


21 R  M m  R  68  40  28  R  28

R 28
31 C  C 4  C4
k 7
41 D  kC  R , entonces D  7 4  28  D  28  28  0

(" k " y " C " son números satisfactorios para elaborar la tabla).

Intervalo de clase N1 de alumnos


Mcl. f*Mcl D f*d
(peso en Kg) f

<40-44> 3 42 126 -1 -3
44-48 18 46 828 0 0
48-52 12 50 600 1 12
52-56 9 54 846 2 18
56-60 5 58 290 3 15
60-64 4 62 248 4 16
64-68 2 66 132 5 10
53 2710 68

L L 40  44 84
Mcl  i s
   42 A  46 (Marca de clase del intervalo de mayor
2 2 2
frecuencia)
Mcl  A 42  46
d  d  1
C 4
C4
I) Método Ponderado II) Método Abreviado
k k
 f  Mcl  f d
i 1 i 1
x x  A C
N N

10
2710 68
x  51,13 Kg x  46   4  46  5,13  51,13 Kg.
53 53
Importancia de la  x  .- Es importante porque:

11
-La  x  es el centro de la gravedad de la distribución
-Es la medida de tendencia central más estable
-Es el valor preferido en los cálculos estadísticos por ser el más fiable
-Es el promedio que representa mejor al grupo.
LA MEDIANA (Md)

Definición.- Es el valor que divide al total de las observaciones ó distribución en dos partes iguales.
Esto significa que cada parte equivale al 50% del total de datos.

Cálculo de la Mediana
DATOS SIN TABULAR
Si x1 ; x 2 ; x3 ;  ; x n son los datos muestrales o poblacionales tales que

x1  x 2  x 3    x n (se ordena la serie en forma ascendente ó descendente). Se presentan

dos casos.

 x n 1 ; Si n es impar

 2
Md    
 12  x  x  ; Si n es par
  n n2 
  2 2 

CUANDO EL N1 DE DATOS ES IMPAR:


La Mediana será el dato que ocupa el centro de la serie ó distribución.
Ejemplo:
5. Determinar la mediana de los datos siguientes.
7, 19, 20, 16, 18, 9, 12
Resolución:
Tenemos que n  7 (número impar), luego:
Md  x n 1  x 7 1  x 8  x 4
2 2 2

Ordenamos los datos de menor a mayor:


7 9 12 16 18 19 20
      
x1 x2 x3 x4 x5 x6 x7

Md = 16
Porque ocupa el Término Central de la Serie.

CUANDO EL N1DE DATOS ES PAR:


La Mediana es igual al promedio de los Valores Centrales.

Ejemplo:
6. Determinar la mediana de los datos siguientes.
15, 13, 12, 9, 19, 7, 17, 16

Resolución:
Ordenando, tenemos que:
7 9 12 13 15 16 17 19
       
x1 x2 x3 x4 x5 x6 x7 x8

Aquí n  8 (número par), luego:

   
Md 
1
x x
2 n n 2
  1 x  x
 2 8 8 2  2 4 5 2

  1 x  x  1 13  15  1  28  14
2

 2 2   2 2 
7 9 12 13 15 16 17 19
       
x x x x x x x x
1 2 3 4
14 5 6 7 8

Md = 14
Note que en el caso de un número de datos impar, la mediana no pertenece al conjunto de
datos.

Ejemplo:
7. Los sueldos de 6 trabajadores son:
300, 400, 500, 250, 400, 600 nuevos soles
¿Cuál es la mediana de los sueldos?
Resolución:
Ordenando, tenemos que:
250 300 400 400 500 600
     
x1 x2 x3 x4 x5 x6

Aquí n  6 (número par), luego:


   
Md 
1
x x
2 n n 2
  1 x  x
 2 6 6 2  2 3 4 2
 2

  1 x  x  1  400  400  1  800  400 Nuevos
 2 2   2 2 

soles

Interpretación:Significa que del total de trabajadores que son 6, hay tres de ellos o sea el
50% tienen sueldos inferiores a S/.
400 y el otro 50% tienen sueldos superiores
a S/.400.

DATOS TABULADOS:
Se presentan dos casos, según que los datos se distribuyan en TDF sin intervalos (datos
discretos) y TDF con intervalos (datos continuos).
1oTabla sin intervalos
Las fórmulas a emplear son:

1.

Md 
Si

Ejemplo:
8.

fi
X
fi

X X
3

Resolución :
N
2

4
no coincide con algún

Dada la siguiente tabla de datos discretos:


i

13

10
55  65
2

Tabla con intervalos


X
15
28
33
46
58
65
82
7
100

i
13
9


25

Determinar la mediana de los datos.


Resolución:

9.
100
2  F 
25
35
55
65
75
X 4 1 85
Entoncesi la95
15
Xi
13
14
23
15
16
12 28
mediana es:

2
22

fi

f
10
13
20
17
16
12
10
98
 60

i
35

Fi 
13
27
50
65
81

100

F
Fi  , entonces:

Donde Fi  es la menor frecuencia acumulada que supera por primera vez a

2. Si
N
coincide con F j 1 , entonces: Md 

93 33
20

10
23
43
60
76
88
98
55 65
19

Ejemplo:

17

98
2
Md  X i

X j 1  X j

16

Clase Mediana.- Es el intervalo de clase cuya frecuencia absoluta acumulada alcanza la

Las fórmulas a emplear son:

- Si
N
2
2

75
16

4 1
12
85
12

Entonces la mediana es:


Md  X 4  46

Este valor de la mediana supera a 43 observaciones que no es más de la mitad de los datos
y es superado por 98 – 60 = 38 observaciones que tampoco es más de la mitad.

mitad del número total de datos o supera por primera vez esa mitad.

no coincide con algún


Md  Lm  C m 


Fm  , entonces la mediana esta dada por:

N
2  Fm 1 
fm



10
95
10

Usando la condición 2.

Determinar la mediana de los datos.

Usando la condición 1.

F  43
N
2

Dada la siguiente tabla de datos discretos:


46 58 65 82
Donde:
Lm : Límite inferior de la clase mediana
Cm : Ancho de clase de la clase mediana

N : Número total de datos


fm : Frecuencia absoluta de la clase mediana
Fm 1 : Frecuencia absoluta acumulada hasta la clase inmediata anterior a la clase mediana

N Fm 1 entonces :
- Si coincide con
2

Md  L
m

Ejemplo:
10. Hallar la mediana del ejemplo 4 anterior.
Resolución:

PESO Kg. (X)


N1 DE ALUMNOS F
i
I f
i
i
N 53
Se halla   26,5 No
 40  44 3 3 2 2
Fm 1
coincide  44  48 18 21 con algún Fm  ;

También:  48  52 12 33 C  52  48  4
Se aplica la fórmula:
C  52  56 9 42
l
F
m a  56  60 5 47
s
e  60  64 4 51
f
 64  68
m
M
e
2 53
d
i 53
a
n
a  N
 Fm 1 
Md  Lm  C m 
2
  48  4 26,5  21   48  1,83  49,83 Kg .
 fm   12 
 
Interpretación:El 50% de estudiantes en dicha distribución tienen pesos menores a 49,83Kg
y el otro 50% sus pesos son mayores a 49,83Kg.
Importancia de la (Md): Es importante porque:
 Da a conocer el punto medio exacto de distribución o sea el punto correspondiente al 50%
de la serie; cuando entre los datos hay valores extremos, ya que estos afectan el valor de
la media aritmética.
 Los valores extremos no la alteran.
LA MODA (Mo)

Definición.- Se define como el valor que se presenta con mayor frecuencia en una serie ó
distribución de datos. O también, la moda localiza el valor cuya frecuencia es máxima.
La moda no siempre existe y si existe no siempre es única. Un conjunto de datos que
tiene dos modas, se llama bimodal; si tiene tres modas, se llama trimodal; etc.

Cálculo de la Moda
DATOS NO TABULADOS o NO CLASIFICADOS
Si x1 ; x 2 ; x3 ;  ; xn es un conjunto de datos, tales que x1  x2  x3    xn , entonces la moda
es el dato que se repite con mayor frecuencia.

Ejemplo:
11. Determinar la moda del conjunto de datos  4;7;6;6;9;16;14;6;6;7;11
Resolución:
Ordenando los datos: 4;6;6;6;6;7;7;9;11;14;16
Vemos que el valor que más se repite es: 6 (Se repite 4 veces), por lo tanto:
Mo  6

DATOS TABULADOS o CLASIFICADOS


Tabla sin intervalos
Es una tabla de frecuencia sin intervalo de clase. La Moda es el dato que tiene la mayor
frecuencia de la tabla.

Ejemplo:
12. Determinar la moda de los datos de la tabla siguiente:
Xi fi
9 26
12 34
Resolución:
15 21
X
18i f
48 i
21
9 31
26
24
12 17
34
15 21
Moda 18 48 Mayor Frecuencia
21 31
24 17

Luego: Mo = 18

Tabla con intervalos

Si el Polígono de Frecuencias correspondiente tiene un solo máximo (máximo absoluto), se dice que
la distribución es unimodal. Si tiene más de un máximo (máximos relativos), se dice que la
distribución es multimodal (Bimodal, Trimodal, etc)

Clase Modal.- Es aquel intervalo de clase que contiene la frecuencia máxima.


Para hallar la Moda en una tabla con intervalo de clase se aplica la siguiente fórmula:

  
Mo  L C  1 
Mo Mo   
 1 2 

Donde:
LMo : Límite inferior de la clase Modal (Intervalo de clase que tiene la mayor frecuencia).
C Mo : Ancho de clase de la clase Modal.
1  f Mo  f Mo 1 : Diferencia de la frecuencia simple de la clase modal y la frecuencia de

la clase inmediata Inferior.


 2  f Mo  f Mo1 : d2 = Diferencia de la frecuencia de la clase modal y la frecuencia de la

clase inmediata superior.


Del ejemplo anterior tenemos:

PESO (Kg.)  X  N1 DE ALUMNOS


I ( fi )
i

13
 40  44

 44  48 18

C
l  48  52 12
a
s 9
e
 52  56 C Mo  48  44  4
1  18  13  5
M  56  60 5
o  2  18  12  6
d
a  60  64 4
l

 64  68 2

Reemplazando en la fórmula tenemos:


  
Mo  LMo  C Mo  1   44  4 5   44  20  504  45,82 Kg.
   5 6 11 11
 1 2 

Interpretación:En dicha distribución la mayoría de estudiantes tienen un peso aproximado


de 45,82Kg.
Importancia de la (Mo): Es importante porque:
Da a conocer en forma inmediata que dato (puntaje, peso, talla, etc.) es el más frecuente.

Observaciones:

1.- La Moda no siempre existe en una distribución de frecuencias.


2.- Puede existir 2 ó más Modas para una distribución de frecuencia.

Anda mungkin juga menyukai