ESTADÍSTICA DESCRIPTIVA
ÍNDICE
ESTADÍSTICA DESCRIPTIVA
¿Qué es estadística?
3
E) En Psicología: para elaborar las escalas de los test y cuantificar aspectos del
comportamiento humano (por ejemplo los test que se aplican a los candidatos
para un cargo en una empresa), si el funcionamiento familiar influye en el riesgo
suicida.
F) En Medicina: determinar el estado de salud de la población, si un cierto tipo de
vacuna puede curar a un grupo de personas y poder inferir a la población.
Definición:
4
se lleva a cabo para mostrar relaciones de causa y efecto, así como para
probar hipótesis y teorías científicas.
A. Población:
Es la totalidad de individuos o de elementos (empresas, personas, objetos etc.)
que cumplen o satisfacen la o las características en estudio. Por el número de
elementos que la componen la población se clasifica en finita e infinita.
B. Muestra:
Está constituida por una parte de los individuos o elementos que componen la
población, seleccionada de acuerdo a cierta técnica con el fin de obtener
información acerca de la población, de la cual proviene. La muestra debe ser
seleccionada de manera que sea representativa, es decir tenga características
similares a las de su población.
C. Parámetro:
Es una medida descriptiva que resume una característica de la población, es
decir constituye el valor real, verdadero; su cálculo implica utilizar toda la
información contenida en la población; entre los más conocidos tenemos:
La media poblacional (μ)
La varianza poblacional (σ2)
La proporción poblacional (P) etc.
D. Estadístico:
Es una medida que describe una característica de la muestra, se calcula a
partir de los datos observados en la muestra; es decir constituyen los
estimadores de cada uno de sus respectivos parámetros; entre estos tenemos:
5
La media muestral (X)
La varianza muestral (S2)
La proporción muestral (p)
E. VARIABLE:
Es una característica definida en la población de acuerdo a cierto interés en
una investigación estadística, que puede tomar dos o más valores (cualidades
o números). Puede ser una característica medible (peso, precio, ingresos,
temperatura etc.) o una cualidad no medible (estado civil, calidad, color, sexo
etc.). Se puede representa con las letras X, Y, Z.
6
ni insatisfecho; 4 = Satisfecho; 5 = Muy satisfecho) o también el grado de
depresión, etc.
7
Ejemplo:
Venta = Y Precio = X
Podemos notar que el rol que asuma una determinada variable como
dependiente o independiente en una investigación, va a depender con qué
variable se asocie.
Niveles de medición:
A. Escala nominal
B. Escala Ordinal
C. Escala de Intervalos
D. Escala de Razón
8
II. ORGANIZACIÓN Y PRESENTACIÓN DE DATOS
Son artificios útiles para resumir datos que se puede usar para calcular
probabilidades. A partir de la tabla de frecuencias se puede construir una tabla de
probabilidades; cada valor de la tabla de frecuencias se divide por el número total de
observaciones para formar la tabla de probabilidades.
9
Semiabiertos (traslapado) [a,b>; contiene siempre al valor inferior pero no el
superior.
Intervalos con límites reales de Clase: valores numéricos enteros, los
intervalos de clase no se traslapan. Para transformarlo al intervalo de clase
semiabierto se debe elegir adecuadamente sus límites de clase, sin modificar
sus frecuencias. Los limites reales de los intervalos de clase se obtendrán
restando y sumando 0.5 (mitad de la unidad de medida = 1) al límite inferior y
superior.
Valor de X
Porcentaj
Marca de fi Fi hi Hi
Clase e 100 hi
clase
[LI1 – LS1> (LI1+ LS1) / 2 F1 F1 h1 H1
[LI2 – LS2> (LI2+ LS2) / 2 F2 F2 h2 H2
. . . . . .
. . . . . .
10
k k
Total f
i 1
i n h
i 1
i n
Los gráficos dan una idea mucho más sintética que los cuadros estadísticos, unas
veces su finalidad es simplemente tratar de demostrar la evolución de un
determinado fenómeno, pues mientras que la interpretación de un cuadro estadístico
requiere ciertos conocimientos, cualquiera puede comprender fácilmente que una
línea ascendente indica un aumento del fenómeno estudiado.
11
resumiendo un intervalo numérico que muestra las frecuencias de clases
elegidas arbitrariamente.
12
III. DESCRIPCIÓN DE DATOS: MEDIDAS DE POSICIÓN.
Son medidas que permiten determinar el centro o punto central de un conjunto de datos, su
determinación precisa puede variar en función de cómo definimos el centro; se divide en
tres categorías:
13
La suma de los cuadrados de las desviaciones de la media de los números en el
conjunto de datos es un valor mínimo: ∑ (X - µ)² es un valor mínimo y ∑ (X -X)²
es un valor mínimo.
WX
Xw X w = Media ponderada
W
X = Es la observación individual
Características de la Mediana:
Todo conjunto de datos tiene una mediana
La mediana no es sensible a los valores extremos
No tienen ciertas propiedades matemáticas valiosos para poderla usar en otros
cálculos.
D. La moda: Es el valor que ocurre con más frecuencia. Si los datos ocurren con
una frecuencia de dos, más de una vez, los datos no tendrán moda.
Características de la Moda:
Algunos conjuntos de datos no tienen una moda.
Algunos conjuntos de datos tienen más de una moda.
No tienen ciertas propiedades matemáticas valiosos para usarla en otros
cálculos.
14
3.1.2. A partir de datos agrupados: Al trabajar con datos que han sido agrupados
en una distribución de frecuencia, no se conoce cuales son las observaciones
individuales. Se supone que las observaciones en cada clase son iguales al
punto medio de la clase. Le compensa debido a que posiblemente algunas de
las observaciones superen al punto medio, mientras que otros queden por
debajo de él. Dada esta suposición; se debe de tener en cuenta la frecuencia
y los puntos medios de cada clase cuando se calcula la media utilizando
datos agrupados.
fM fM
A. Media aritmética: X ag
n f
n/2 F
Mediana Lmd c
fmd
15
C. Moda: Como por definición la moda es la observación que ocurre con mayor
frecuencia; se hallará en la clase que tenga la frecuencia más alta, llamada
la clase modal. Se utiliza la siguiente formula.
Da
Moda Lmo (c)
Db Da
16
3.2. Medidas de posición relativa
3.2.1. Percentiles: El primer percentil es el valor por debajo del cual se localizan no
más del 1 % de las observaciones, y el resto por encima. Por lo tanto, los
percentiles son valores que dividen la muestra ordenada en forma ascendente
o descendente en 100 partes iguales.
er
P1 = 1 percentil, deja 1% de las observaciones menores o iguales a él y el
99% superiores a él.
avo
P99 = 99 percentil, deja 99% de las observaciones menores o iguales a él
y el 1% superiores a él.
17
IV. MEDIDAS DE DISPERSIÓN O DE VARIABILIDAD
Las medidas de tendencia central son valores en una distribución y las medidas de
variabilidad son intervalos, designan distancias o un número de unidades en la escala de
medición.
Debemos tener en consideración que una medida de dispersión se puede utilizar para
describir con más detalle un conjunto de datos y dar una idea sobre la naturaleza de las
observaciones que han sido recogidas para su análisis, entre estas tenemos:
4.1. El rango:
Cuanto más grande sea el rango, mayor será la dispersión de los datos de una
distribución. Siempre que la distribución contenga un valor extremo, el rango indicara
una variación excesiva.
18
Hallar la media de estas desviaciones respecto de la media elevada al
cuadrado.
Una muestra está algo menos dispersa que la población de la que se toma. Por
lo tanto hay una tendencia a que la desviación típica o estándar de la muestra
sea algo menor que la desviación estándar de la población.
19
artificial de S, y para ello dividimos por un número algo pequeño n –1, en lugar
de hacerlo por n.
Una desviación estándar pequeña significa que los valores tienden a estar
muy cerca de la media. Una desviación estándar grande indica que los valores
se encuentran ampliamente dispersos alrededor de su media.
Método abreviado:
2 N 2 2 nx 2
2 2 ; S2 S S2
N n 1
f M 2 nx 2
De datos agrupados: S2 S S2
n 1
Nota
La varianza mide el grado de dispersión de la observaciones individuales en
torno a su media
El método abreviado reduce el cálculo aritmético, pero no informa sobre la
naturaleza de la varianza.
20
4.2.3. Desviación Media: Es la media aritmética de las desviaciones respecto a la
media aritmética, son tener en cuenta los signos; es decir, tomando el valor
absoluto, puede utilizarse otros promedios (ejemplo la mediana).
N i X n i X
DM datos agrupados DM fi
i 1 N i 1 N
X DM X DM ; X DM , están concentrados el 58% de datos
S
CV (100)
x
Es una dispersión relativa que mide el grado de homogeneidad de un conjunto
de datos. Le considera homogéneo cuando tiene una mayor concentración
alrededor de la media aritmética.
CV 6% datos homogéneos
21
22