CIENCIAS SOCIALES
CIENCIAS SOCIALES
1
Estadística Descriptiva Angélica Reyna
ISBN: EN TRÁMITE
2
Estadística Descriptiva Angélica Reyna
Horacio Romero
Director de Ediciones y Publicaciones
3
Estadística Descriptiva Angélica Reyna
AGRADECIMIENTOS
4
Estadística Descriptiva Angélica Reyna
INDICE
Pp.
58
5. NÚMEROS ÍNDICE .......................................................................................................... 59
5.1 Números índice simples: Relativos en cadena y eslabonados ................................... 64
5.2 Números índice complejos: No ponderados y ponderados ......................................... 68
5.3 Índices de precios de Laspeyres, Pashe, y Fisher .....................................................
5.4 Deflación de series estadísticas, poder de compra, cambio de periodo base, 72
empalme de índices con bases diferentes ................................................................
5
Estadística Descriptiva Angélica Reyna
6
Estadística Descriptiva Angélica Reyna
7
Estadística Descriptiva Angélica Reyna
Las etapas del método científico varían según el área de conocimiento en que se
use. En general, se parte de la observación, que permite la definición de un problema;
basados en los conocimiento existentes se plantean hipótesis plausibles sobre el problema
a investigar; a partir de aquí se procede a la experimentación, contrastación empírica y/o a
la reflexión, a través de las cuales se pretende la comprobación y el establecimiento de
resultados que apuntan a la conformación de principios y leyes.
En las Ciencias Sociales, el método científico adopta algunas particularidades que lo
distinguen del método de las Ciencias Naturales y que provienen de las características de
sus objetos de estudio.
Estas particularidades se refieren básicamente a la etapa de contrastación empírica.
Mientras en las Ciencias Naturales es factible la experimentación en laboratorio, en las
Ciencias Sociales existen límites éticos a la experimentación, ya que involucraría a seres
humanos y podría violar sus derechos esenciales. De ahí que en Ciencias Sociales la
contrastación empírica implique más frecuentemente la documentación de las situaciones.
Como se muestra en el esquema previo desarrollado por científicos sociales y
presentado por Bunge (1989), en el caso de las Ciencias Sociales, el proceso de
investigación estrictamente dicho parte del cúmulo de conocimientos disponibles, que
hacen que el investigador observe o detecte problemáticas o lagunas de conocimiento.
8
Estadística Descriptiva Angélica Reyna
MARCO
TEÓRICO
DISEÑO FASE
PROBLEMA DE EMPÍ-
INVESTIGACIÓN RICA
FENÓMENOS SOCIALES
CONCRETOS
Bunge, 1989.
9
Estadística Descriptiva Angélica Reyna
DISEÑO
DEL PROYECTO
10
Estadística Descriptiva Angélica Reyna
11
Estadística Descriptiva Angélica Reyna
recursos disponibles. Esta necesidad dio lugar al uso y desarrollo de las primeras técnicas
estadísticas basadas, exclusivamente, en el recuento y presentación de datos.
La Historia nos muestra que las primeras estadísticas fueron realizadas, con efectos
recaudatorios en la mayoría de los casos, por los gobernantes de las grandes civilizaciones
antiguas, para conseguir conocer el número de bienes que poseía el Estado y cómo
estaban repartidos entre la población. Del uso exclusivo de estas técnicas por el Estado
deriva el término Estadística.
Cronología
Siguiendo a Olguín Quiñónez, se pueden señalar como eventos estadísticos relevantes:
3050 a.C. Herodoto señala la realización de un recuento de las riquezas y población de
Egipto, para conocer los recursos humanos y económicos disponibles para construir las
pirámides.
2238 a.C. Chu King en el libro de Confucio señala la realización de una estadística
industrial y comercial por el emperador Yao de China.
1400 a.C. Ramsés II realizó un censo de las tierras de Egipto a fin de efectuar un nuevo
reparto.
1490 a.C. según aparece en el Pentateuco, Moisés levantó un censo para conocer el
número de guerreros que disponían las tribus de Israel.
1080 a.C. David, según aparece en el Libro de Los Reyes, vuelve a levantar un censo para
conocer qué número de guerreros disponían las tribus de Israel.
Los griegos realizaron diversos censos con fines tributarios, reparto de tierras, así como
disponibilidad de recursos y guerreros para sus campañas.
Durante la época romana se contabilizan, al menos, la realización de 69 censos con
diversos fines: tributarios, número de hombres con derecho al voto y posibilidades para
la realización de sus campañas militares.
758 Pipino el Breve realiza recopilaciones estadísticas.
762 Carlomagno recoge información estadística sobre las tierras propiedad de la Iglesia.
Siglo IX En Francia se realizan recuentos parciales de siervos.
1060 En Inglaterra, Guillermo el Conquistador hace recuentos parciales de siervos.
Siglo XIV En Inglaterra, Eduardo II hace recuentos de siervos.
12
Estadística Descriptiva Angélica Reyna
Con el nacimiento de las Naciones, la Estadística adquiere rigor científico en las técnicas de
recogida y presentación de datos que van a facilitar el análisis de las conclusiones y, por
tanto, la toma de decisiones.
1540 Sebastián Münster realizó una recopilación estadística de los recursos nacionales
alemanes, en la que se incluía la organización política de la nación alemana, así como
sus instituciones sociales, su comercio y su potencia militar. Estudios parecidos fueron
realizados durante el siglo XVI en Italia y Francia.
Siglo XVII La estadística demográfica tiene un gran auge, a fin de saber si la población se
modificaba aumentando o disminuyendo o si éste era un parámetro estático. Estos
estudios dieron lugar a la creación de los índices de natalidad y mortalidad y al posterior
desarrollo del estudio de la dinámica de la población por la Demografía.
Siglo XVII y principios del XVIII Se desarrolla la Teoría de las Probabilidades, teoría que
proporciona a la Estadística métodos de investigación que le permiten alcanzar la
categoría de ciencia. El primer tratado sobre esta teoría fue escrito por Bernouilli, en el
que dice que la regularidad que aparece en el orden social se debe a la probabilidad
más que al designio sobrenatural.
Siglo XVII Son conocidos los trabajos realizados por Pascal y Farmat sobre problemas de
juegos de azar, que tuvieron sus antecedentes en algunos matemáticos del siglo XV
como Paccioli, Cardano, Tartaglia, Kepler y Galileo.
1796-1874 Quételet aplicó la teoría de las probabilidades a las ciencias sociales,
elaborando una teoría determinista en la que las características de un hombre quedarían
determinadas por su entorno social, con lo que se podrían aplicar el principio de los
promedios, pudiéndose hablar de un hombre medio.
Siglo XIX A principios de este siglo se desarrollan dos nuevas teorías matemáticas de gran
influencia en la teoría estadística que son: la teoría de los errores de observación de
Laplace y Gauss y la teoría de los mínimos cuadrados desarrollada por los dos
anteriores y Legendre.
Siglo XIX Es a fines de este siglo cuando Sir Francis Galton desarrolla el método de la
correlación, que tiene por objeto medir la influencia relativa de los factores sobre las
variables. De este método partió el método de correlación creado por Karl Pearson.
Los progresos más recientes en el campo de la estadística se refieren al cálculo de
probabilidades basado en el principio del indeterminismo, que supone que la uniformidad
de la naturaleza debe considerarse como una serie de posibles resultados procedentes
13
Estadística Descriptiva Angélica Reyna
de cualquier causa o causas dadas, más que de un único resultado exacto y preciso en
cada caso.
Estas tres acepciones de la palabra Estadística no son independientes entre sí, sino
más bien determinan tres momentos de su evolución histórica, por lo que pueden
considerarse complementarias.
La primera acepción es la concepción más antigua y la más vulgarmente conocida.
Está ligada a una necesidad, prácticamente exclusiva, de la Administración del Estado y en
su utilización ya lleva implícito, que los censos o recuentos deben ser conjuntos coherentes
de datos numéricos y que deben presentarse de una forma ordenada y sistemática.
La segunda acepción amplía el campo de la Estadística, incluyendo un estudio de
los datos obtenidos, que proporciona una medidas que permiten identificar y comparar las
diferentes estadísticas.
La tercera acepción la asociada al cálculo de probabilidades, confiriéndole el rango
de ciencia. Está asociación permite a la Estadística, crear unos modelos de estudio
capaces de obtener una predicción de comportamientos de los hechos sometidos a su
estudio.
También se le ha entendido como: El conjunto de métodos científicos, o bien,
técnicas, que facilitan el análisis e interpretación de la información obtenida en un censo o
recuento.
Objetivo de la Estadística
Los datos estadísticos se obtienen de observaciones numéricas de conjuntos que se
caracterizan por la variación que muestran sus componentes. Estos datos nos permiten el
14
Estadística Descriptiva Angélica Reyna
15
Estadística Descriptiva Angélica Reyna
de una población, como son las medidas de tendencia central, dispersión, forma y
concentración, o bien la distribuciones de frecuencias, entre otros.
16
Estadística Descriptiva Angélica Reyna
17
Estadística Descriptiva Angélica Reyna
18
Estadística Descriptiva Angélica Reyna
implica, conocer en cada elemento, el valor que toma cada variable o la modalidad que
presenta cada atributo o variable cualitativa.
10.1. Estos datos observados, valores y modalidades, se podrán clasificar
dependiendo del tipo de medidas que se utilice para su presentación.
a) Medida nominal.- Cuando los datos obtenidos se clasifican sin que exista ninguna
relación de orden o distancia entre los mismos.
b) Medida ordinal o jerárquico.- Cuando solo es posible establecer una relación de
orden, bien de mayor a menor o viceversa.
c) Medida de intervalo.- Cuando los datos pueden clasificarse ordenándolos y, al
mismo tiempo, es posible medir una distancia entre dos medidas cualesquiera.
d) Medida de razón.- Cuando los datos se relacionan con otros usando escalas.
La observación, en el caso de una variable cuantitativa, supone obtener un valor
numérico para cada elemento. Existen varios sistemas diferentes para obtener estos
valores numéricos:
a) Aplicando una unidad de medida normalizada (litro, metro, etc.).
b) Empleando un sistema de puntuaciones, cuando no existe unidad de medida
normalizada (notas de clase).
c) Asignando un rango a cada elemento de la población (número de orden de peor a
mejor).
Los dos últimos modos de observación b) y c) son subjetivos y, por tanto, pueden
dar resultados diferentes dependiendo de la persona que realice la valoración.
10.2. Clasificación de las observaciones en función del tiempo
Observaciones transversales: Son observaciones que se realizan en un instante
determinado (o intervalo de tiempo). Observaciones temporales o longitudinales: Son las
diferentes observaciones que se realizan a lo largo del tiempo (o de intervalos de tiempo).
10.3. Clasificación de las observaciones en función de los elementos
observados
Observación exhaustiva: Cuando se hace una observación de todos los elementos
de la población. Esta observación se conoce como CENSO.
Observación parcial: Sólo se puede observar una parte de los elementos de la
población. A esta parte de la población se le denomina, dependiendo del método de
selección, Subpoblación o Muestra. Se utilizan observaciones parciales cuando los
19
Estadística Descriptiva Angélica Reyna
20
Estadística Descriptiva Angélica Reyna
la relación entre el generador y usuario de la fuente, por el tipo de dato que maneja, por la
materia que aborda o por la accesibilidad de la información.
21
Estadística Descriptiva Angélica Reyna
TIPOS DE DATOS
CRITERIO TIPO DEFINICIÓN
PRIMARIO
Si el usuario es el mismo que las
SEGÚN QUIEN PRODUCE
genera adhoc a su investigación
Y USA EL DATO
SECUNDARIO Si el usuario no las generó
SEGÚN SI ES CAPTADO DIRECTOS Datos que se consiguen de manera
POR OBSERVACIÓN DEL (OBSERVADOS) simple y sin mayores supuestos, o
ELEMENTO A DESCRIBIR que representan series de números
O SI LO PROPORCIONA absolutos.
UN TERCERO O ES UNA
ESTIMACIÓN INDIRECTOS Son tratados o indirectos los
(ESTIMADOS) obtenidos luego de operaciones de
cálculo cuya aplicación requiere de
supuestos.
22
Estadística Descriptiva Angélica Reyna
23
Estadística Descriptiva Angélica Reyna
Por último algunas características pueden ser medidas en un sentido estricto, por
ejemplo: ingreso, estatura, edad, peso tiempo diario de trabajo, etcétera. Esto lo ponemos
de manifiesto para que sea claro el hecho de que los datos numéricos pueden diferir en
cuanto al tipo de “medición” que es factible aplicarles, según sea una u otra medición la que
admitan los datos; también será diferente el tipo de manipulación matemática a la que
podemos sujetarlos.
COCIENTES
O RAZONES: implica el uso de parámetros de medición
24
Estadística Descriptiva Angélica Reyna
Nivel ordinal
En este nivel las unidades de las subclases guardan una cierta relación entre sí, esto se
pone de manifiesto cuando estamos en posibilidad de establecer la relación mayor que (>)
o menor que (<) respecto a las características de las unidades escaladas. Por ejemplo
cuando clasificamos a los miembros de una comunidad en estratos alto, medio y bajo, se
puede establecer que: alto > medio >bajo; o a la inversa: bajo < medio < alto. Si en un
concurso de oratoria se debe jerarquizar a los participantes de acuerdo con las
calificaciones de los jueces, pueden ser ordenados a partir del más al menos apto y estos
constituye una escala ordinal.
Las medidas estadísticas más comúnmente empleadas en este nivel son: mediana,
cuantilas, coeficiente ρ (rho) de Spearman, τ (tau) de Kendall, ω de Kendall.
En el nivel ordinal la distancia entre dos unidades no es conocida Por ejemplo no se
determina qué distancia existe entre un miembro del estrato medio respecto a otro del
estrato alto, pero sí se conoce su relación en cuanto al rango o jerarquía.
En el nivel ordinal los números que se asignan a las características permiten
determinar el orden o la posición jerárquica en una escala, pero no tienen significado en lo
referente a ¿cuánto? O ¿cuántas veces?, porque son cualidades no aditivas.
Nivel de intervalo
El nivel de intervalo tiene, además de las propiedades de la escala ordinal, la propiedad de
que la distancia entre dos valores es de una magnitud conocida, lo cual da a esta escala un
mayor grado de perfección. En la escala de intervalo el punto cero y la unidad de medición
son arbitrarios. La razón entre dos intervalos es siempre independiente del punto cero y de
la unidad que se emplee en la medición.
Un ejemplo ilustrativo y sencillo de escalas de intervalo lo constituyen las escalas
empleadas en la medición de la temperatura: grados centígrado, Fahrenheit y Kelvin, esta
última empleada en la ciencia física. Nos referimos a las dos primeras escalas por ser más
comunes.
Temperaturas equivalente en las dos escalas:
Grados Fahrenheit 32 50 68 86 104 122 176 212
Grados centígrados 0 10 20 30 40 50 80 100
25
Estadística Descriptiva Angélica Reyna
40 – 30 = 1 104 – 86 = 1
30 – 20 86 - 68
Nivel de razón
Se caracteriza porque tiene un punto cero verdadero, es decir absoluto, además de poseer
las características de la escala de intervalo; esto es, las distancias entre dos valores de la
escala son conocidas en el sentido cuantitativo y su “razón” es independiente de las
unidades empleadas; en las escalas empleadas en la medición de longitudes, pesos y
masas, el punto cero es absoluto, real; por ejemplo en las unidades metro, yarda,
kilogramo, libra, metros cúbicos, puesto que un 2valor cero indica ausencia de medición;
esto es, inexistencia. En la escala de intervalo no podemos afirmar, verbigracia, que 0
grados centígrados indique ausencia de temperatura.
En la escala de razón se da una razón igual entre dos valores de escalas diferentes,
por ejemplo kilogramos y libras; la razón entre 40 y 25 kilogramos es igual a la razón entre
40 y 25 libras. Esto es, mantienen la proporcionalidad.
La escala de razón reúne todas las propiedades de las escalas nominal, ordinal y de
intervalo, además de poseer un cero absoluto; es decir, equivalencia, mayor o menor que,
razón conocida entre dos intervalos y entre dos valores de escala.
El nivel de razón, se denomina así, porque se utilizan parámetros estándares, donde
lo observado es calibrado o medido en razón del parámetro o unidad de medida.
26
Estadística Descriptiva Angélica Reyna
INCREMENTOS % = F - I (100)
I
27
Estadística Descriptiva Angélica Reyna
Los datos obtenidos de la observación de uno o más caracteres de los elementos de una
población son, generalmente, un conjunto de datos sin orden y de volumen elevado. Para
su análisis se les debe dar un tratamiento previo, que exige una ordenación de los datos
obtenidos para cada carácter y una presentación adecuada que permita el análisis de sus
variaciones. Para que la presentación de los datos obtenidos de la observación sea
adecuada se usan tablas y gráficas estadísticas. La tabla estadística es una agrupación de
datos ordenados con arreglo a un criterio lógico; este proceso se llama tabulación.
Hay que tener en cuenta que todo proceso de reducción, y por tanto de tabulación,
implica la pérdida de parte de la información, lo cual origina un error en los cálculos que se
realicen. La existencia de este error es inevitable si se quiere disponer de una presentación
de datos manejable, pero siempre debe mantenerse dentro de márgenes controlados.
La distribución de frecuencias es una estadística basada en la reducción de datos,
mediante agrupación de los mismos considerando su repetición o frecuencia. En este tipo
de estadísticas los elementos pierden su individualidad, en beneficio de un mejor
conocimiento del comportamiento general.
Registro de datos
No caso Edad Sexo (Hombre Lugar de Lugar de residencia
o Mujer) nacimiento actual
1
2
3
4
5
6
7
8
9
Total
28
Estadística Descriptiva Angélica Reyna
4. DISTRIBUCIÓN DE FRECUENCIAS
4.1 Distribución de frecuencias unidimensionales simples y acumuladas, absolutas y
relativas
Manejo de los datos obtenidos en la observación
29
Estadística Descriptiva Angélica Reyna
1. Las modalidades deben definirse con precisión, haciendo explícitos las definiciones y
criterios de clasificación.
30
Estadística Descriptiva Angélica Reyna
2. Las modalidades deben ser exhaustivas, debiéndose establecer todas las modalidades
posibles.
3. Las modalidades deben ser mutuamente excluyentes: cada caso debe pertenecer a
una sola modalidad y nada más que a una.
Cuando una variable cualitativa o atributo tiene solo dos modalidades se le llama
atributo dicotómico. Cuando tiene más de dos modalidades se le llama atributo múltiple.
Sexo Frecuencia Frecuencia Absoluta Frecuencia Frecuencia Relativa
Absoluta Simple Acumulada (Ni) Relativa Simple en Acumulada en %
(ni) % (%fi) (%Fi)
Hombres
Mujeres
3 3
2 2
1 1
0 0
1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9
Edades
Edades
31
Estadística Descriptiva Angélica Reyna
10 10
8 8
6
6
4
4
2
2
0
0 1 2 3
Si los elementos observados y los valores o modalidades de las4 variables
5 6 7 8
también 9
1 2 3 4 5 6 7 8 9 Edades
son muchos, es adecuado
Edades
agrupar los datos obtenidos para su representación gráfica,
usando clases e intervalos.
Clase.- Es el grupo donde se reúnen varios valores distintos de una variable. La
frecuencia de casos en la clase será la suma de las frecuencias de cada uno de los valores
incluidos en la clase.
Intervalo.- Cada clase tiene un intervalo definido por sus límites inferior y superior,
conocidos como límites de clase (Li-n = límite inferior y Li =límite superior), donde n indica la
longitud de los intervalos.
Los intervalos, frecuentemente, acaban en un número (límite superior) que es el
mismo con el que empieza el intervalo siguiente (límite inferior). Por convenio, las
observaciones que tengan este valor se anotan en el primer intervalo.
32
Estadística Descriptiva Angélica Reyna
Valores ordenados: 1, 3, 4, 5, 5, 6, 6, 7, 8, 8, 9
Intervalos Frecuencia de Valores incluidos
De 0 a 3 = 1, 3
De 3 a 6 = 4, 5, 5, 6, 6
De 6 a 9 = 7, 8, 8, 9
Li Li-n
Límite ___ Límite = amplitud de intervalo
Superior inferior
3 – 0 = 3
6 – 3 = 3
9 – 6 = 3
La amplitud de los intervalos puede ser constante o no, e incluso carecer de límite
superior o inferior, en este caso se le conoce como intervalos de clase abierta. Cuando
ambos límites son cerrados se representan entre paréntesis ( , ). Cuando ambos son
abiertos se representan entre corchetes [ , ]. Si un límite es abierto y otro cerrado se usará (
, ] ó [ , ).
Si los intervalos son de amplitud constante, su valor se puede obtener dividiendo el
recorrido de la variable entre el número de clases con las que se quiere presentar la
distribución.
33
Estadística Descriptiva Angélica Reyna
Valores ordenados: 1, 3, 4, 5, 5, 6, 6, 7, 8, 8, 9
Suma acumulada: 1 + 3 + 4 + 5 + 5 + 6 + 6 + 7 + 8 + 8 + 9 = 62
Li-n –Li ni xi
Intervalos Frecuencia x Marca de
clase
De 0 a 3 = 2 x 1.5 = 3.0
De 3 a 6 = 5 x 4.5 = 22.5
De 6 a 9 = 4 x 7.5 = 30.0
55.5
Error de agrupamiento: 62 – 55.5 = 6.5
Li-n –Li ni xi
Intervalos Aporte Frecuencia x Marca de Aporte
Clase estimado Error
De 0 a 3 = 4 2 x 1.5 = 3.0 1.0
De 3 a 6 = 26 5 x 4.5 = 22.5 3.5
De 6 a 9 = 32 4 x 7.5 = 30.0 2.0
55.5 6.5
Este se obtiene uniendo mediante rectas cada par consecutivo de valores (frecuencia
absoluta-intervalo), formando una curva ascendente.
Para el diseño de los gráficos existe la “Regla de los tres cuartos de altura”: “En la
representación gráfica de las frecuencia el eje vertical debe hacerse de tal modo que la
altura del punto máximo sea aproximadamente igual a tres cuartos de la longitud del eje
horizontal.”
34
Estadística Descriptiva Angélica Reyna
30
60
20
40
10
20
0 0
1-2,499 2,500-4,999 5,000-9,999 10,000-14,999 15,000 y más 1-2,499 2,500-4,999 5,000-9,999 10,000-14,999 15,000 y más
Gráficas de atributos
a. Diagrama de rectángulos: Los atributos no se expresan numéricamente sino por sus
modalidades. Para su representación gráfica se puede utilizar el mismo método que para
las variables, situando en abscisas las modalidades y en ordenadas las frecuencias. Como
las modalidades carecen de amplitud numérica, se representarán cada una de ellas por un
segmento de amplitud constante, por lo que la altura de los rectángulos corresponderá con
su frecuencia. Los rectángulos no suelen presentarse unidos, para evitar dar una idea de
continuidad en las modalidades del atributo.
b. Diagrama de sectores: se representa un círculo dividido en tantos sectores como
modalidades o valores presenta la variable. La amplitud de estos sectores es proporcional
al valor de la frecuencia correspondiente.
c. Pictogramas: Se basan en la repetición de una figura que representa la unidad de
frecuencia.
d. Cartogramas: Se usan para representar estadísticas geográficas o espaciales,
identificando color o marca con cada modalidad.
e. Diagrama de puntos: Se usa sólo el punto extremo del diagrama de barras.
35
Estadística Descriptiva Angélica Reyna
10.0
8.0
6.0
4.0
2.0
0.0
G P aca
ali arit
O apauz
C ali R s
rit Ci a Sala
G a ju b la
H ro
Si li scco
D hua
m onngo
l i ra
Z nal o
C aca oa
a as
ali T en oo
D fo rnlax tes
l
F e l im r
rreto
Jaas o
C Coa ia
A ui Mpeuila
Ba guanta or che
de a
ax s
ja Napya s
o o u
ra
ja sc na el o
b lg
hi r
ue a
au o
rn
hu c
c
C rac
n e
Taida
hi te
Ta Sura
am h
fo
ua u
Ve
ist
Q
Ba
Son medidas que, resumiendo las tablas estadísticas, permiten diferenciar una distribución
de otra, lográndose la comparación entre distribuciones de frecuencias correspondientes a
poblaciones diferentes. Estas medidas cumplen la propiedad de proporcionar una única
solución para cada distribución de frecuencias.
36
Estadística Descriptiva Angélica Reyna
Moda (Mo): Es el valor más frecuente, el más común, el que se repite más veces. Si
existen varios valores de la variable con idéntica frecuencia y éstas, además, son las
mayores, se dirá que la distribución es plurimodal.
Las edades de 9 niños son: 0, 9, 3, 2, 5, 6, 8, 6, 4. ¿Cuál es la moda?
Mediana (Md): Si se ordenan todos los valores de la variable en sentido creciente o
decreciente, la mediana es el valor que ocupa el lugar central, con l que deja a cada uno de
sus lados el mismo número de observaciones. Se representa por Md. Si la serie de
números ordenados es impar será el valor que ocupa la posición central y si es par será la
media de los dos valores centrales.
Ejemplo:
Las edades de 9 niños son: 0, 9, 3, 2, 5, 6, 8, 6, 4. ¿Cuál es la mediana?
Las edades ordenadas son: 0, 2, 3, 4, 5, 6, 6, 8, 9
El valor que ocupa la posición central es el 5. Cuatro edades son inferiores y otras 4
son superiores; luego la mediana es igual a 5.
Ejemplo:
Las ventas efectuadas por los vendedores de una empresa han sido, en millones de
pesos, las siguientes: 45, 54, 62, 39, 73, 48, 53, 70, 49, 56. ¿cuál es la mediana? ¿qué
significa?
Los valores ordenados: 39, 45, 48, 49, 53, 54, 56, 62, 70, 73.
Los valores centrales son 53 y 54, entonces la mediana se encuentra entre ambos,
obteniendo por la media o promedio aritmético:
Me = 53 + 54 = 53.5
2
Media aritmética simple (X): Razón entre la suma de todos los valores de los casos
y el número de elementos del conjunto. La media aritmética indica el valor que
correspondería a cada caso si el valor total de la variable aportado por cada uno de ellos se
distribuyera equitativamente entre todos los casos. (Promedio aritmético simple)
_
X = x1 +x2+...+xn = Σ xi
N N
Ejemplo: Hallar la media aritmética de los valores 25, 15, 35, 20, 5
Media aritmética ponderada (X): Ponderar significa determinar el peso de cada
cosa. Algunas veces interesa conocer el peso o importancia que tiene cada uno de los
37
Estadística Descriptiva Angélica Reyna
valores de una variable o la marca de clase. Para ello se multiplica cada valor de la variable
o la marca de clase por su frecuencia. La media aritmética ponderada es el promedio de los
valores ponderados. La media aritmética ponderada indica el valor que correspondería a
cada caso si el valor total de la variable aportado por cada uno de ellos según su peso
específico (ponderado) se distribuyera equitativamente entre todos los casos. (Promedio
aritmético ponderado)
_
X = n1x1 +n2x2+...+nkxk = Σ n i x i = Σ n i x i
n1 + n2 +... + nk Σn i N
38
Estadística Descriptiva Angélica Reyna
Md
Q1 Q2 Q3
Los cuantiles se pueden presentar en porcentaje, por ejemplo: los cuartiles serían
los porcentajes 25%, 50% y 75%, que dividen el total de los casos en cuatro partes. Los
percentiles serían los valores enteros del 1 al 100.
39
Estadística Descriptiva Angélica Reyna
Medias de dispersión relativas (Se obtienen por cocientes o razones entre magnitudes de
la misma dimensión, por lo que siendo adimensionales permiten comparaciones entre
distribuciones).
Coeficiente de apertura
Recorrido relativo
Desviación cuartílica
Coeficiente de variación
R1 = Q3 – Q1
Ejemplo: 3, 5, 6, 7, 10, 12, 15, 18
Q1 = 5 +6 / 2 = 5.5
Q2 = Mediana = 7+10 / 2 =8.5
Q3= 15 + 12 / 2 = 13.5
R1 = 13.5 – 5.5 = 8
40
Estadística Descriptiva Angélica Reyna
La fórmula nos señala que deben obtenerse las diferencias existentes entre cada
dato y la media aritmética del conjunto, sumar todas las diferencias y dividir dicha suma
entre el número de elementos que componen el conjunto. Como algunas diferencias
respecto a la media son positivas y otras negativas, si las sumamos el resultado será cero.
Por lo tanto, la fórmula indica con las dos barras | | que las diferencias sean absolutas,
todas positivas.
Ejemplo:
Casos según __ __
edad X- X | X- X |
5 5 – 8.94 = -3.94 3.94
5 5 – 8.94 = -3.94 3.94
5 5 – 8.94 = -3.94 3.94
5 5 – 8.94 = -3.94 3.94
6 6 – 8.94 = -2.94 2.94
7 7 – 8.94 = -1.94 1.94
8 8 – 8.94 = -0.94 0.94
8 8 – 8.94 = -0.94 0.94
9 9 – 8.94 = 0.06 0.06
10 10 – 8.94 = 1.06 1.06
41
Estadística Descriptiva Angélica Reyna
Varianza
Si en lugar de utilizar valores absolutos para eliminar el problema del signo de las
desviaciones, se elevan éstas al cuadrado se obtiene una nueva medida de dispersión
conocida como varianza. Si se obtiene de los valores muestrales se expresa como S2, y por
la letra griega sigma al cuadrado σ 2 si lo es de los valores de la población.
La varianza se puede definir como la media aritmética de las desviaciones de los
valores obtenidos de la variable con respecto a su media aritmética elevadas al cuadrado.
_
σ2 = Σ ( xi - X ) 2
N
42
Estadística Descriptiva Angélica Reyna
σ = Σ (X – X ) 2
N
Aquí también se obtienen las diferencias de cada uno de los valores con respecto a su
promedio aritmético. Para evitar que la suma de estas diferencias resulte en cero, se elevan
al cuadrado, por lo que siempre serán positivas.
Población A. Edades 5, 5, 5, 5, 6, 7, 8, 8, 9, 10, 11, 11, 12, 13, 14, 14 años
___ __
X- X ( X- X ) 2
Casos
5 5 – 8.94 = -3.94 15.52
5 5 – 8.94 = -3.94 15.52
5 5 – 8.94 = -3.94 15.52
5 5 – 8.94 = -3.94 15.52
6 6 – 8.94 = -2.94 8.64
7 7 – 8.94 = -1.94 3.76
8 8 – 8.94 = -0.94 0.88
8 8 – 8.94 = -0.94 0.88
9 9 – 8.94 = 0.06 0.004
10 10 – 8.94 = 1.06 1.12
11 11 – 8.94 = 2.06 4.24
11 11 – 8.94 = 2.06 4.24
13 12 – 8.94 = 3.06 9.36
13 13 – 8.94 = 4.06 16.48
14 14 – 8.94 = 5.06 25.60
14 14 – 8.94 = 5.06 25.60
0 162.884
43
Estadística Descriptiva Angélica Reyna
Varianza: _
σ2 = Σ ( xi- X ) 2 = 162.884 = 10.18 años
N 16
Desviación estándar:
__________ ________ _____
___
2
σ = Σ (X – X ) = 162.884 = 10.18 = 3.19 años
N 16
Promedio de desviaciones _
PD = Σ | x- X | = 45.0 = 2.81 años
N 16
Población B. Edades 3, 35, 1, 2, 3.7 años
__ __
Casos X- X ( X- X ) 2
1 1 – 8.94 = -7.94 63.04
2 2 – 8.94 = -6.94 48.16
3 3 – 8.94 = -5.94 35.28
3.7 3.7 – 8.94 = -5.24 27.46
35 35 – 8.94 = 26.06 679.12
0 853.06
Varianza:
__
σ2 = Σ ( xi- X ) 2 = 853.06 = 170.61 años
N 5
Desviación estándar:
__________ ________ _____
___
2
σ = Σ (X – X ) = 853.06 = 170.61 = 13.06 años
N 5
Promedio de desviaciones:
__
PD = Σ | xi- X | = 52.12 = 10.42
N 5
44
Estadística Descriptiva Angélica Reyna
CA = Xn
X1
Ejemplo: Con los valores 12, 6, 7, 10, 18, 4, 3, 9, calcular el coeficiente de apertura.
CA = 18 = 6
3
2.- Recorrido relativo. Es el cociente entre el recorrido y la media aritmética. Representa el
número de veces que el recorrido contiene a la media aritmética.
RR = R
X
Ejemplo: Con los valores 12, 6, 7, 10, 18, 4, 2, 9, y la media aritmética = 8.6, calcular el
recorrido relativo. RR = 15/ 8.6 = 1.74
a) RSI = Q3 - Q1 b) Q = Q3 – Q1
Q3 + Q1 2
Ejemplo: Con los datos 3, 5, 6, 7, 10, 12, 15, 18, y Q1 = 5.5 y Q3 = 13.5, calcular el recorrido
semi-intercuartílico.
45
Estadística Descriptiva Angélica Reyna
Ejemplo: Con los valores 21, 35, 36, 38, 45, cuya media aritmética es 35 y su desviación
típica 7.823, calcular el coeficiente de variación.
2º. Ejemplo: Se han estudiado tres distribuciones obteniéndose las siguientes medidas:
Las distribuciones 1ª y 2ª tienen la misma media aritmética, por lo que la más representativa
es la 1ª en tanto su dispersión es menor (S1 = 6). Su coeficientes de variación respectivos
serán:
CV1 = 6 / 20 = 0.3 CV2 = 10 / 20 = 0.5
CV3 = 15 / 30 = 0.5, que es igual a la 2ª. Por lo tanto, la representatividad de la media de las
distribuciones 2ª y 3ª es la misma, pero menor que la de la 1ª.
46
Estadística Descriptiva Angélica Reyna
Simétrica: la figura puede doblarse por su eje vertical y ambas ramas o colas de la curva
coincidirán. Si la distribución es campaniforme, simétrica y las dos colas son asíntotas del
eje de abscisas se le denomina Distribución de Gauss o de Laplace-Gauss. Esta
distribución es la más importante en Estadística y se le conoce como Distribución Normal.
47
Estadística Descriptiva Angélica Reyna
Asimétrica a la derecha o a la izquierda: según en qué lado este la cola más larga de la
curva. La asimetría a la derecha se llama positiva y a la izquierda es negativa.
Moderadamente o significativamente asimétricas: Dependiendo de la magnitud de la
asimetría, a mayor asimetría se le considera significativa.
48
Estadística Descriptiva Angélica Reyna
La curva normal es cóncava hacia abajo entre –1 y +1. Es cóncava hacia arriba a la
derecha de +1 y a la izquierda de –1.
El área total bajo la curva es igual a 1. El área a la derecha de la media es igual a
0.5 y, por simetría, a su izquierda es también de 0.5 .
49
Estadística Descriptiva Angélica Reyna
a) Puntajes estándar
Es necesario entonces estandarizar las distribuciones normales reduciéndolas a un patrón
único, a una nueva escala comparable, transformando los datos originales a una nueva
variable conocida con el nombre de puntaje o puntuación estándar y que se simboliza con
la letra zeta minúscula, empleando la siguiente fórmula:
_
z=X–X
σ
Con ello se puede transformar cualquier valor X de la distribución en su
correspondiente puntaje zeta. Para toda distribución normal: el número de casos de la serie
se transforma a uno (N= 1), la media aritmética a cero (X = 0) y la desviación estándar a
uno (σ =1).
Entonces, cuando una variable en una población tiene una distribución cercana a la
normal es posible determinar con cierta aproximación la proporción, el porcentaje o el
número de casos comprendidos entre dos valores especificados. Con la tabla de áreas bajo
la curva normal que indica el área de la media aritmética o z = 0 al valor z calculado, se
puede a través de una simple resta obtener cualquier área. En las gráficas se señalan
algunas áreas:
50
Estadística Descriptiva Angélica Reyna
51
Estadística Descriptiva Angélica Reyna
Momentos
Los momentos permiten obtener medidas sumarias de conjuntos de datos que por contener
información variable resulta difícil de captar en su características esenciales. Los momentos
potenciales son utilizados para el cálculo de indicadores referentes a la forma de las
distribuciones.
Momentos Naturales. Entre los momentos potenciales se encuentran los Momentos
Naturales, que se refieren de manera directa a la variable, es decir, son momentos respecto
al origen de la distribución. Si X1, X2, ..., Xn, son los valores que toma la variable X, el
momento a la potencia r de la variable se indica como:
___
m r = Σ (X – X) r
__________________________
m 2 = Σ (X – X) 2 = σ2
_________________________
m r = Σf (X – X) r
__________________________
52
Estadística Descriptiva Angélica Reyna
EDADES DE 75 NIÑOS
___ ___ ___ ___ ___
X f fX (X-X) (X-X)
2
f(X-X)
2
f(X-X)
3
f(X-X)
4
1 2 2 -2 4 8 -16 32
2 5 10 -1 1 5 - 5 5
3 11 33 0 0 0 0 0
4 5 20 1 1 5 5 5
5 2 10 2 4 8 16 32
Suma 25 75 26 0 74
___
X = ΣfX = 75 = 3
___________ _______
Σf 25
___
m0 = Σf (X –X) 0 = Σf = 1
___________________________ _______
Σf Σf
___
m1 = Σf (X –X) 1 = 0 = 0
__________________________ _______
Σf Σf
___
m2 = Σf (X –X) 2 = 26 = 1.04 = σ2
_________________________ ______
Σf 25
m0 = 1 y m1 = 0 no se requiere calcularlos.
___
Σf 25
____
m4 = Σf (X –X) 4 = 74 = 2.96
___________________________ _______
Σf 25
Σf
53
Estadística Descriptiva Angélica Reyna
Medida de asimetría
Con las medidas de asimetría se intenta medir si las observaciones están dispuestas
simétrica o asimétricamente respecto a un valor central, generalmente la media aritmética, y
cuál es el grado de esta asimetría. La asimetría mide, interesando el signo de la asimetría
para poder identificar hacia qué extremo se prolongan los casos, estimando las
desviaciones respecto a la media usando la potencia de grado tres, que permite conservar
el signo de la desviación.
_ _
m3 = Σ (xi – X)3 ni ó m3 = Σ f (X – X)3
N Σf
Este coeficiente m3 se le conoce como momento de tercer orden con respecto a la media.
54
Estadística Descriptiva Angélica Reyna
b2 = m4
___________
4
S
S4
55
Estadística Descriptiva Angélica Reyna
Curva de Lorenz
La curva de Lorenz se utiliza para conocer la concentración de la distribución mediante
porcentajes de frecuencias relativas acumuladas. Fue creada para estudiar la distribución
de la renta, pero actualmente se utiliza para medir otras variables.
La curva de Lorenz describe la relación entre la frecuencia relativa acumulada de
casos por categoría (Pi) y la frecuencia ponderada por el valor de la variable acumulada
relativa (Qi), que expresa el volumen acumulado de la variable en cada categoría en
porcentaje.
En el eje de las abscisas (X) corren los valores de la frecuencia acumulada relativa
de los casos por categoría (Pi), en tanto en el eje de las ordenadas (Y) corren los valores de
la frecuencia ponderada por el valor de la variable relativa acumulada (Qi).
Ambos valores (Pi y Qi) son porcentajes acumulados, por lo que sus valores
correspondientes a la última categoría o clase serán siempre 100, por lo que la curva estará
dentro de un cuadrado de 100 por 100.
Si cada pareja de porcentajes acumulados de Pi y Qi fuera igual mantendrían una
relación 1 a 1, definiendo una línea recta en diagonal dentro del cuadrado. En tanto las
frecuencias acumuladas de casos (Pi) y de valores (frecuencia ponderada Qi) no presentan
la misma distribución la línea que se trace estará separada de la diagonal. Si la separación
de la curva de Lorenz es poca, indicará que la concentración es mínima; en la medida que
la curva de Lorenz se separe de la diagonal expresa el incremento de la concentración.
Ejemplo:
56
Estadística Descriptiva Angélica Reyna
Índice de Gini
El valor del índice de Gini se puede obtener por dos métodos aproximados:
a)
n-1
IG = Σ (Pi - Qi )
i =1
____________________
n-1
Σ Pi
i =1
57
Estadística Descriptiva Angélica Reyna
Será 1 cuando cualquier Qi es igual 0 a excepción del último individuo que recibirá el valor
total, concentración máxima.
Medial o mediala
Recordando que la mediana es el valor de la variable que deja a su derecha el mismo
número de frecuencias que a su izquierda, de forma similar definiremos al medial, pero en
lugar de tratar frecuencias se tratará del producto del valor de variable por su frecuencia o
el volumen de la frecuencia ponderada.
58
Estadística Descriptiva Angélica Reyna
ML = Li-1 + 50 – Qi-1 ci
ni
donde Li-1 es el límite inferior del rango en que se encuentra el 50% de la frecuencia
ponderada acumulada, Qi-1 es la frecuencia ponderada acumulada del rango anterior y ni =
% xi ni sin acumular del rango donde se ubica el 50% de la frecuencia ponderada, y ci es la
amplitud del rango.
5. NÚMEROS ÍNDICE
Los números índice son medidas estadísticas que se emplean frecuentemente para mostrar
los cambios que se dan en una variable, en un componente o grupos de componentes
relacionados entre sí. Como es un indicador que se desarrolló por economistas, es común
su aplicación para conocer los cambios en el costo de vida al consumidor, salarios, costo de
la alimentación, precios y cantidades de materias primas, de productos. Actualmente
también se aplica para conocer los cambios o variaciones en fenómenos sociales. Los
procedimientos que se emplean en la obtención de los números índice se basan en la
aplicación de porcentajes. Los números índice calculan las variaciones relativas de los
valores de una variable o de un grupo de variables, obtenidos en diferentes situaciones
en el espacio o en el tiempo, con respecto a uno de referencia. Estos valores relativos
permiten la comparación y, por tanto, facilitan la predicción de su evolución.
La magnitud analizada puede presentarse de una forma simple, como es el precio
de una mercancía o de una forma compleja como pueden ser los precios de un grupo de
mercancías diferentes. En función del tipo de magnitud los números índice se clasifican en
Simples y Complejos. Los números índice siempre se dan en porcentaje, por lo que
59
Estadística Descriptiva Angélica Reyna
aunque las fórmulas de los números índice suelen aparecer sin el factor 100, en general
aquí se señalará.
Los números índices simples o elementales nos permiten conocer los cambios que presenta
una variable, con el tiempo o en el espacio, con respecto a uno de sus valores que se toma
como término de comparación o base de referencia.
Un índice simple es el resultante de dividir el precio, cantidad o valor de un artículo,
en un periodo determinado de tiempo, entre el precio, cantidad o valor de ese mismo
artículo, en un periodo considerado como base.
It0 = Xt (100)
________
X0
Donde
It0 = indice del periodo t con respecto al periodo 0 ó base.
Xt = Valor de la magnitud en el periodo t.
X0 = Valor de la magnitud en el periodo base.
Por ejemplo:
Precio del kg
Precio relativo = de miel en 2002 (100) = 50 (100) = 142.86 %
Precio del kg 35
de miel en 1999
60
Estadística Descriptiva Angélica Reyna
Simbólicamente:
Pa o Pb el precio del periodo dado o de comparación
P0 o Pa el precio del periodo base
Precio relativo = Pn = Pb
P0 Pa
1992 1993 1994 1995 1996 1997 1998 1999 2000 2001
1.64 1.65 2.02 1.90 1.73 1.75 2.70 2.30 2.57 2.53
61
Estadística Descriptiva Angélica Reyna
El índice anterior indica que el precio en 1992 de la miel fue de 64.8% respecto al año
base 2001 = 100; es decir, 35.2% menor que en 2001 (100 – 64.8 = 35.2).
Convencionalmente se emplea:
Indice = Qb (100)
Qa
62
Estadística Descriptiva Angélica Reyna
Miles de toneladas
Indice = producidas en 1997 (100) = 1508 (100) = 117.17 %
Miles de toneladas 1287
producidas en 1990
Indice 1997 = P 2001 (100) = 1508 (100) = 1508 (100) = 133.65 %
______________ __________________________________________ _________________
Pb = Pa/b Qb = Qa/b
Pa Qa
1) Existencia. Todo número índice debe existir y ha de tener un valor finito distinto de cero.
2) Identidad. Los relativos de los precios y cantidades con relación a un mismo periodo son
siempre igual a uno. Esto es, el índice de una variable en un período con respecto a la
misma variable en el mismo periodo es igual a 1 o 100%:
Pa/a = 1 y Qa/a = 1
Si al valor del periodo dado le aumentamos en una porción k, el valor que toma la
variable será xi (1 + k), con lo que el nuevo índice será:
63
Estadística Descriptiva Angélica Reyna
p0 q0 v0
5) Inversión, tiempo inverso o reversión temporal. Indica que si dos periodos se
intercambian, los precios, las cantidades y los valores relativos son recíprocos el uno al
otro. Así, el producto de los índices de un año a con respecto a otro b, por el año b con
respecto al año a es igual a la unidad.
64
Estadística Descriptiva Angélica Reyna
Si Pa, Pb, Pc, representan los precios en intervalos sucesivos de tiempo, entonces
se pueden representar los precios relativos de cada intervalo de tiempo con respecto al que
le antecede:
Pa/b, Pb/c, Pc/d = Pb , Pc , Pd
Pa Pb Pc
Los relativos en cadena serán:
Los números índices en cadena nos permite conocer las variaciones relativas
interanuales (interperiodos) de los valores que ha adoptado la variable.
En virtud de la propiedad circular de los relativos, los precios relativos de un periodo
de comparación respecto a otro tomado como base, pueden expresarse en términos de
relativos o cadenas.
Pe = Pe Pd Pc Pb
Pa Pa Pb Pc Pd
Los índices simples, que se refieren a un solo componente, aunque cumplen las
propiedades matemáticas señaladas, presentan dos problemas que deberán considerarse
en su construcción y manejo:
65
Estadística Descriptiva Angélica Reyna
b) El periodo base no debe estar muy distante del periodo de comparación. En los
índices de precios es común tomar un año como base y éste se utiliza en ocasiones hasta
por 20 o más años; sin embargo llega un momento en que la lejanía de los dos periodos es
tal que la comparación no resulta clara ni útil, por lo que se hace necesario el cambio del
periodo base por otro más reciente.
66
Estadística Descriptiva Angélica Reyna
uno de los aspectos más importantes y por lo mismo deberá procederse con el
mayor cuidado. Lo ideal es seleccionar una cantidad suficientemente grande de
componentes, pero se debe tomar en consideración los costos de recolección y
cálculo. Por lo general deberán incluirse a los componentes más esenciales del
concepto que se pretende medir. Los artículos componentes del índice
generalmente se obtienen de muestras, por lo que se hace necesario que éstas
tengan la mayor eficacia posible.
c) Determinación de los promedios. La construcción de un índice compuesto requiere
promediar los valores del año base y del año de comparación; es decir, lo que se
compara son los promedios y no los precios, cantidades o valores solos. Una vez
que se han seleccionado los componentes debidamente, debemos considerar la
importancia que tiene cada uno de ellos en el índice.
Indice agregativo = ΣPb (100) = p1b +p2b + p3b + ...+ pnb (100)
(de precios) ΣPa p1a +p2a + p3a + ...+ pna
donde
ΣPa = suma de los precios de los artículos en el año base
ΣPb = suma de los precios de los artículos en el año de comparación.
También se le llama índice de la media agregativa simple, puesto que puede calcularse
usando la media aritmética de cada período, ya que el número de agregados debe ser igual
en ambos períodos.
67
Estadística Descriptiva Angélica Reyna
Ejemplo: Una industria ferretera comercializa tres productos, cuyos precios de venta
en 1990 y 19995 son:
PRODUCTO PRECIO 1990 PRECIO 1995
A $ 1,250 pesos/kg $ 2,025 pesos/kg
B $ 5,832 pesos/m2 $ 7,650 pesos/m2
C $ 3,600 pesos/docena $ 5,427 pesos/docena
O bien
IA = = ΣP95 (100) = ( 2025 +7650 + 5427)/3 (100) = 5034 (100)= 141.38 %
ΣP90 (1250 + 5832 + 3600)/3 3560.7
I A = ΣPb (100) = ΣP95 (100) = 2025 +7650 + 452.25 (100) = 10127.25 (100)= 137.19 %
ΣPa ΣP90 1250 + 5832 + 300 7382
68
Estadística Descriptiva Angélica Reyna
Pa (100)
N
Ejemplo: Con los datos del ejemplo anterior sobre la industria ferretera, se puede
calcular el índice de los precios:
PRODUCTO PRECIO 1990 PRECIO 1995
A $ 1,250 pesos/kg $ 2,025 pesos/kg
B $ 5,832 pesos/m2 $ 7,650 pesos/m2
C $ 3,600 pesos/docena $ 5,427 pesos/docena
En los índices de precios al consumidor se puede tomar como base de las ponderaciones
las cantidades de los elementos que componen el consumo.
69
Estadística Descriptiva Angélica Reyna
70
Estadística Descriptiva Angélica Reyna
Una variación al índice de Laspeyres es el método del año típico, que calcula la
razón entre los precios de los dos periodos, ponderados con las cantidades en un año
típico, que se elige por alguna especial significación.
Las desventajas del índice son las siguientes:
a) No toma en consideración que ciertos componentes (mercancías, artículos) cambian
su importancia –por ejemplo en el consumo- con el transcurso del tiempo.
b) Tiende a sobrestimar los cambios de precio, ya que de acuerdo a la ley de oferta y
demanda las personas tienen a comprar menos cuando los precios son altos y más
cuando los precios son bajos, especialmente tratándose de artículos que no son
absolutamente esenciales (elasticidad de la demanda), por lo que Σ Pb Qa (el costo
de las mercancías en el año de comparación) será por lo general más alto, pues las
personas comprarán mayores cantidades de las mercancías a menores precios y a
la inversa. Por esto el costo total deberá ser menor que el indicado por PbQa, ya
que la composición de la canasta cambia con el cambio de precios.
Este índice calcula la razón entre los precios de los dos periodos, ponderados ambos con
las cantidades del año de comparación. Se calcula por:
Donde
Σ Pa Qb = valor total de los componentes en el periodo de comparación a los precios del
periodo base.
Σ Pb Qb = valor total de los componentes (mercancías) en el periodo de comparación a los
precios de este periodo.
A diferencia del índice de Laspeyres, las cantidades que se consideran en el índice
son las del año de comparación y no las del año base, por lo que el índice de Paasche mide
el costo de una “canasta de mercado” o “canasta básica” o un conjunto de artículos en el
tiempo de comparación (generalmente el actual) respecto a lo que la “canasta” actual
costara si la obtuviésemos a los precios del periodo base, lo cual equivaldría a transportar
un conjunto de mercancías actuales al pasado para valorar su precio de entonces.
71
Estadística Descriptiva Angélica Reyna
De acuerdo con la ley de la oferta y la demanda, el índice de Paasche tiende a ser más
bajo de lo que debiera ser. El índice de Laspeyres es considerablemente más sencillo de
calcular que el de Paasche, ya que éste requiere del empleo de nuevos factores de
ponderación en cada año que se añade y además se requiere recalcular los índices en los
años anteriores. Esto es, cuando comparamos varios años con el periodo base, las
ponderaciones del índice de Paasche son variables a lo largo del tiempo, por lo que para su
elaboración es necesario obtener información de cada periodo sobre precios y cantidades,
a diferencia del de Laspeyres que sólo necesita la información del año base y el precio del
año en estudio.
El índice ideal de Fisher da un valor intermedio entre los índices de Laspeyres y Paasche.
IF = Σ Pb Qa x Σ Pb Qb
Σ Pa Qa Σ Pa Qb
72
Estadística Descriptiva Angélica Reyna
En el caso de los índices de precios, los factores de ponderación son las cantidades
o volúmenes. En el caso de los índices de cantidades, los factores de ponderación son los
precios. Dado que las cantidades pueden estar indicadas en diferente tipo de unidades:
kilogramos, libras, piezas, metros lineales, metros cúbicos, metros cuadrados, etc., se
requiere del empleo de un factor de ponderación.
Índice de valor
El índice de valor de un conjunto de productos en dos periodos de tiempo viene dado por:
Deflación
En el caso de los ingresos, por ejemplo, es común referirse a ingresos reales y a ingresos
nominales. Debido al incremento del costo de vida o inflación, el poder de compra de la
moneda decrece. El problema consiste en precisar cuál es el ingreso real a pesar de que
73
Estadística Descriptiva Angélica Reyna
Poder de compra
Para determinar el poder de compra de la unidad monetaria, en México el peso, a lo largo
de varios periodos, se divide $1 entre el índice de precios del año, y se multiplica por 100.
En este sentido se tendría que en el año base, donde el índice de precios es igual a 100, el
poder adquisitivo de $1 es igual a $1; conforme el índice de precios sea mayor a 100, el
poder adquisitivo del peso será menor y se expresará en fracciones de peso (p.e., $0.5,
$0.10)
Poder de compra = 1 .
Número índice
Antes se señaló la conveniencia de que el periodo base de los números índice no esté muy
alejado del de comparación. Por ello resulta necesario cambiar el periodo base en algún
momento dado, cuando se trata de series prolongadas.
74
Estadística Descriptiva Angélica Reyna
El cambio de base puede efectuarse recalculando los números índice, pero este
procedimiento es por lo general difícil de realizar. Un método más sencillo consiste en dividir
los números índices obtenidos con base en el antiguo periodo, entre el número índice del
nuevo periodo base, siendo 100 el número índice para el nuevo periodo base.
Los períodos empalmados no son totalmente comparables entre sí porque sus índices se
han obtenido con diferentes variables y diferentes ponderaciones, pero no existe otro
recurso para dar continuidad al índice complejo. En consecuencia, en la utilización de los
números índice debe tenerse siempre presente que un índice no debe tomarse como una
medida exacta, sino como un indicador de la evolución de un fenómeno.
75
Estadística Descriptiva Angélica Reyna
(xi, yj), (1 ≤ i ≤ h ), (1 ≤ j ≤ k)
Tablas simples: cuando en columnas sucesivas van ordenados los valores de la variable x,
de la variable y, y las frecuencias absolutas, relativas y/o ponderadas, correspondientes a
los pares de valores (x,y).
Xh yk nh.
X1 y1 n11
X1 y2 n12
... ... ...
X1 yn n1n
X2 y1 n21
X2 y2 n22
.... ... ...
Xh yk nhk
Ejemplo: Escriba las frecuencias absolutas y relativas bidimensionales de la siguiente
distribución de 20 hogares, donde X = salario (bajo=1, medio=2 y alto=3) y Y= gasto
76
Estadística Descriptiva Angélica Reyna
(bajo=1, medio=2 y alto=3) : (2,1), (3,2), (1,2), (2,1), (2,2), (2,3), (3,1), (3,3), (2,3), (1,1),
(3,1), (2,2), (1,2), (2,3), (3,3), (2,1), (2,3), (1,2), (1,3), (2,2).
xi yi ni fi
N=20 1
Establecer como tabla simple, agrupando en los intervalos apropiados, los siguientes pares
de valores de variables bidimensionales observados en 40 microempresas, donde x =
número de empleados en la empresa, y Y= días en que saldaron microcréditos sin intereses
:
(15,65) (18,94) (22,70) (28,105) (21,130) (32,84) (35,96) (39,142) (47,86) (11,73) (15,100)
(24,62) (25,90) (26,121) (30,60) (33,99) (38,126) (10,80) (29,69) (26,116) (22,122) (35,74)
(37,97) (30,140) (21,81) (25,125) (27,147) (38,88) (39,119) (22,102) (28,148) (35,79)
(21,121) (24,144) (30,71) (31,72) (32,73) (33,74) (35,75) (37,77)
xi yi ni
10-20 60-90
10-20 90-120
10-20 120-150
20-30 60-90
20-30 90-120
20-30 120-150
30-40 60-90
30-40 90-120
30-40 120-150
40-50 60-90
N=
77
Estadística Descriptiva Angélica Reyna
Contando con una tercera variable se puede establecer una tabla tridimensional, o
bien, si sólo se presentan dos variables se vuelve a una tabla bidimensional. El siguiente
problema se puede resolver usando una tercera variable para obtener frecuencias
ponderadas.
Si sabemos que a las empresas de 10-20 empleados les prestaron $1,000 ; a las de
20-30 empleados les prestaron $1,500 ; a las de 30-40 les prestaron $2,000 ; y a las de 40-
50 les prestaron $2,500 ¿en qué tiempos se recuperarán los créditos y cuál será el plazo
máximo de recuperación?
xi yi ni w nw
10-20 60-90 $1,000
10-20 90-120 $1,000
10-20 120-150 $1,000
20-30 60-90 $1,500
20-30 90-120 $1,500
20-30 120-150 $1,500
30-40 60-90 $2,000
30-40 90-120 $2,000
30-40 120-150 $2,000
40-50 60-90 $2,500
N= Σ=
yi ni nw F% nw
60-90
90-120
120-150
N
Tablas de doble entrada: En las tablas de correlación los valores x1, x2, ..., xh
corresponden a todos y cada uno de los valores observados en la población o en la
muestra para la variable x, o en su caso, a las distintas marcas de clase en que se ha
dividido el recorrido de la variable; otro tanto puede decirse respecto a la variable y, y a sus
valores y1, y2, ..., yk. En las tablas de doble entrada se coloca en la primera fila los valores
de la variable x y e la primera columna por la izquierda los valores de la variable y.
78
Estadística Descriptiva Angélica Reyna
En esta tabla nij determina la frecuencia conjunta del par de valores (xj, yj) y ni. Y n.j
denominan las frecuencias marginales de las variables y, x.
1. Privada-comedor: 110
2. privada-no comedor : 70
3. Concertada-comedor : 15
4. concertada-no comedor : 5
5. Pública-comedor: 10
6. Pública-no comedor: 90
79
Estadística Descriptiva Angélica Reyna
xi 3 4 5 6 6 7 7 8 10
yj 2 5 5 6 7 6 7 9 10
ni 4 6 12 4 5 4 2 1 2
Y 2 5 6 7 9 10 n i.
X
3
4
5
6
7
8
10
n.j
Y 20 30 40
X
3 - - 1
8 3 6 3
13 7 2 2
18 1 - -
xi yi ni
80
Estadística Descriptiva Angélica Reyna
Distribuciones marginales: vienen definidas por los valores que toma la variable y las
frecuencias de los mismos, con independencia de los valores que tome la otra variable.
Son, por tanto, distribuciones de frecuencias ordinarias de x o de y. En una tabla de doble
entrada corresponden a la última columna y al último renglón.
xi 3 4 5 6 6 7 7 8 10
yj 2 5 5 6 7 6 7 9 10
ni 4 6 12 4 5 4 2 1 2
81
Estadística Descriptiva Angélica Reyna
Y=5 X1 nj
4 6
5 12
n.j = 18
X=7 Yj nj
6 4
7 2
ni. = 6
Diagramas de dispersión
Los valores de una distribución estadística bidimensional son pares de números reales de la
forma (xi,yi). Si representamos estos pares en un sistema de ejes cartesianos se obtiene un
conjunto de puntos sobre el plano. A este conjunto de puntos se le llama diagrama de
dispersión o nube de puntos.
Máx. (x) 3 4 5 6 6 7 7 8 10
Mín (y) 2 5 5 6 7 6 7 9 10
No. Días 4 6 12 4 5 4 2 1 2
82
Estadística Descriptiva Angélica Reyna
83
Estadística Descriptiva Angélica Reyna
Varianzas marginales de x e y
La varianza marginal de x viene dada por la expresión:
h _ h _
sx2 = Σ ni. (xi-x) 2
= 2
Σ xi ni. – x 2
i =1 i =1 _
n n
La varianza marginal de y viene dada por la expresión:
k _ k _
2 2 2 2
sy = Σ n.j (yj-y) = Σ yj n.j – y
j =1 j =1 _
n n
A la raíz cuadrada positiva de las varianzas marginales se le denomina desviación
típica marginal de x e y, y se representa por sx y sy.
84
Estadística Descriptiva Angélica Reyna
h k _ _ h k _ _
Sxy = Σ Σ (xi – x) (yj – y) nij = Σ Σ nij xi yj - x y
i=1 j=1 i=1 j=1 _
n n
Si la covarianza es positiva indica que hay una dependencia directa entre ambas
variables. Por ejemplo: al disminuir o aumentar los valores de x, disminuyen o aumentan los
de la variable y.
Momentos
h k
ars = Σ Σ xir yjs nij / n
i=1 j= 1
h k h _
1 0
a10 = Σ Σ xi yj nij / n = Σ xini. / n = x
i = 1 j =1 i=1
h k k _
0 1
a01 = Σ Σ xi yj nij / n = Σ yjn.j / n = x
i=1 j=1 j=1
85
Estadística Descriptiva Angélica Reyna
h k k
0 2
a02 = Σ Σ xi yj nij / n = Σ yj2n.j / n
i=1 j=1 j=1
h k _ _
1 0
m10 = Σ Σ (xi – x) (yj – y) nij / n = 0
i=1 j=1
h k _ _ h _
m20 = Σ 2 0
Σ (xi – x) (yj – y) nij / n = Σ (xi – x) ni./n = sx2 2
i=1 j=1 i=1
h k _ _ k _
m02 = Σ Σ (xi – x) (yj – y) nij / n = Σ (yi – y) n.j/n = sy2
0 2 2
i=1 j=1 j=1
h k _ _
m11 = Σ Σ (xi – x) (yj – y) nij / n = sxy
i=1 j=1
86
Estadística Descriptiva Angélica Reyna
Las relaciones entre las variables pueden observarse estadísticamente en un rango que va
desde la dependencia hasta la independencia, es decir, la ausencia de relación entre las
variables.
La relación más simple es aquella que se da entre dos variables. Los diferentes casos
de relación que puede haber entre dos variables son los siguientes:
a) Dependencia causal unilateral: una variable influye en la otra, pero no al contrario.
La variable que influye en la otra se llama independiente. La otra variable
dependiente. Este tipo de dependencia se expresa por la función:
y = f (x)
f (x,y) = 0
Así, por ejemplo, los precios y cantidades de una cierta sustancia están en relación
directa.
d) Concordancia: Dos variables pueden ser independientes entre sí, pero existir entre
ellas una cierta concordancia. Un ejemplo de ello es la designación de valoraciones
en un concurso. Las designaciones hechas por una serie de personas que son entre
sí independientes, pero puede haber cierta concordancia entre las designaciones.
e) Dependencia casual: En algunos casos en que no hay vínculo entre dos variables,
hay una dependencia debida al azar que carece de significado desde el punto de
vista estadístico.
87
Estadística Descriptiva Angélica Reyna
Y\X X1 X2 Total
88
Estadística Descriptiva Angélica Reyna
X1 X2
89
Estadística Descriptiva Angélica Reyna
Y\X X1 X2 Total
Medición de la asociación
En el caso de que las diferencias entre los porcentajes o entre las frecuencias observadas y
esperadas fuese notoria, estaríamos frente a 2 variables que se encuentran relacionadas o
asociadas. Aquí, la asociación de variables se da si las frecuencias de la intersección de
sus modalidades (Y1X1) aparece en un número mayor de casos que el esperado si fuesen
independientes estadísticamente.
90
Estadística Descriptiva Angélica Reyna
Y \ X X1 X2 Total
Y1 100 0
Y2 0 100
Total 100 100 100
La diferencia o discrepancia D entre las dos celdas del primer renglón Y1X1 vs Y1X2,
basta para detectar la ausencia de independencia estadística (ya que el 2º renglón es
complementario al primero, basta ver el primer renglón de la tabla).
D = (Y1X1) - (Y1X2)
________________ ________________
X1 X2
Y \ X X1 X2 Total
Y1 0 100
Y2 100 0
Total 100 100 100
D= 0: independencia estadística
Sin embargo, D no permite medir claramente otro tipo de relaciones entre variables
donde sólo se acepte, por ejemplo, la relación directa en una categoría y la independencia
entre las otras categorías. Esta limitación persiste aún si se estima como una frecuencia
pondera, llamada determinante. De tal manera, D y el determinante ∆ resultarían con
límites indeterminados, es decir, el rango en que corre el indicador variaría de distribución a
distribución. D sirve para identificar la ausencia de independencia estadística, es decir,
detectar la asociación entre variables, pero no permite determinar el grado de asociación
entre ellas.
91
Estadística Descriptiva Angélica Reyna
Coeficiente Fi ( Φ )
Este coeficiente cierra el recorrido del determinante al intervalo ± 1, normalizándolo por la
raíz cuadrada del producto de las frecuencias marginales:
El recorrido de fi es: -1 ≤ Φ ≤ 1
Coeficiente Q de Yule
Este coeficiente de asociación aplicable a tablas de dos por dos proviene de otra opción
para cerrar el recorrido del determinante al intervalo ± 1, usando la suma del producto de la
diagonal principal más el producto de la diagonal secundaria. Si el denominador es cero
92
Estadística Descriptiva Angélica Reyna
implica que las variables son independientes, y el resultado de la división, es decir, Q será
igual a cero.
Para que Q alcance el valor máximo basta con que una frecuencia de la diagonal
secundaria sea nula; también Q alcanza el valor mínimo de su recorrido cuando una
frecuencia de la diagonal principal es nula.
Si X2 Y2 Si X1 Y1 ó Y2
Si X2 Y1 Si X1 Y2 ó Y1
Medida chi-cuadrado (X 2)
e1 e2 ek ej ej
93
Estadística Descriptiva Angélica Reyna
Ensayos de significación
En la práctica, las frecuencias esperadas se calculan de acuerdo con una hipótesis nula H0.
2
Si bajo esta hipótesis el valor calculado de X es mayor que algún valor crítico (tal como X
2 2
0.95 o X 0.99, que son los valores críticos a los niveles de significación de 0.05 y 0.01,
respectivamente), se deduce que las frecuencias observadas difieren significativamente de
las esperadas y se rechaza la hipótesis nula H0 al nivel de significación correspondiente: las
frecuencias ej =oj, no difieren significativamente. En caso contrario, se aceptará o al menos
no se rechazará. Este procedimiento se llama ensayo o prueba de chi-cuadrado de la
hipótesis.
2
Debe advertirse que en aquellas circunstancias en que X esté muy próxima a cero
debe mirarse con cierto recelo, puesto que es raro que las frecuencias observadas
concuerden demasiado bien con las esperadas. Para examinar tales situaciones, se puede
2 2 2
determinar si el valor calculado de X es menor que X 0.05 oX 0.01, en cuyos casos se
decide que la concordancia es bastante buena a los niveles de significación de 0.05 ó 0.01,
respectivamente.
La prueba chi-cuadrado puede ser empleada para determinar de qué forma distribuciones
teóricas tales como la normal, binomial, etc., se ajustan a distribuciones empíricas, es decir,
aquellas que se obtienen de los datos censales o muestrales.
94
Estadística Descriptiva Angélica Reyna
Tablas de contingencia
Suceso E1 E2 E3 ... Ek
Frecuencia
n1 n2 n3 ... nk
observada
Frecuencia
e1 e2 e3 ... ek
esperada
La tabla anterior, en la que las frecuencias observadas ocupan una sola fila, es una
tabla de clasificación simple. Puesto que el número de columnas es k, también se llama
tabla 1 x k (léase “1 por k”). Extendiendo estas ideas se llaga a las tablas de clasificación
doble o tablas h x k, en las que las frecuencias observadas ocupan h filas y k columnas. En
otros textos de estadística también se les llama tablas r x c, es decir, tablas de frecuencias
observadas de r renglones y c columnas. Tales tablas se llaman a menudo tablas de
contingencia, de acuerdo al tipo de variable.
Correspondiéndose con cada frecuencia observada en una tabla de contingencia h x
k, hay una frecuencia teórica o esperada que se calcula bajo alguna hipótesis y según las
reglas de probabilidad, como se señaló arriba con el uso de las frecuencias marginales.
Estas frecuencias que ocupan las casillas de una tabla de contingencia se llaman también
frecuencias elementales.
Para estudiar la concordancia entre las frecuencias observadas y esperadas, se
2
calcula el estadístico X :
X2 = Σ (nj – ej)2
j _______
ej
donde la suma se extiende a todas las casillas de la tabla de contingencia, los símbolos nj y
ej representan, respectivamente, las frecuencias observadas y esperadas en la casilla j.
Esta suma contiene hk términos. La suma de todas las frecuencias observadas se denota
por N y es igual a la suma de todas las frecuencias esperadas.
Los ensayos o pruebas de significación para tablas h x k son análogos a los de las
tablas 1 x k. Las frecuencias esperadas son halladas bajo una determinada hipótesis Ho.
Una hipótesis normalmente supuesta es la de que las dos clasificaciones son
independientes entre sí. Las tablas de contingencia pueden extenderse a un número mayor
de dimensiones. Así, por ejemplo, se pueden tener tablas h x k x l donde estén presentes 3
clasificaciones.
95
Estadística Descriptiva Angélica Reyna
2
Fórmulas sencillas para el cálculo de X
2
Se puede obtener fórmulas sencillas para el cálculo de X que se basen únicamente en las
frecuencias observadas. En tablas de 2 x 2 se calcula como:
I II Totales
A a1 a2 NA
B b1 b2 NB
Totales N1 N2 N
X2 = N(a1b2 –a2b1)2 = N ∆2
(a1+b1) (a2+b2)(a1+a2)(b1+b2) N1N2NANB
I II III Totales
A a1 a2 a3 NA
B b1 b2 b3 NB
Totales N1 N2 N3 N
NA N1 N2 N3 NB N1 N2 N3
En esta fórmula se ha empleado el resultado general, válido para todas las tablas de
contingencia,
X 2 = Σ nj2 - N
ej
96
Estadística Descriptiva Angélica Reyna
Coeficiente de Contingencia
Una medida del grado de relación, asociación o dependencia de las clasificaciones en una
tabla de contingencia es dada por
C= X2
X2 +N
Que se llama coeficiente de contingencia. A mayor valor de C, mayor es el grado de
asociación. El número de filas y columnas de la tabla de contingencia determina el valor
máximo de C, que no es nunca superior a uno. Si el número de filas y columnas de una
tabla de contingencia es igual a k, el máximo valor de C viene dado por
(k –1) / k
r= X 2 __
N (k-1)
En este tema se estudia la regresión tratando de encontrar una función matemática que
relacione lo mejor posible las distintas variables de una función de manera que, conocidos
determinados valores de las variables, se puedan calcular otros con una gran aproximación.
Para realizar matemáticamente estos ajustes se requiere estudiar las distintas
posibilidades de ajuste de los valores de las variables para ver cuál es el más conveniente
97
Estadística Descriptiva Angélica Reyna
en cada caso. Existen diversos métodos de ajuste, pero los más comunes son los de
mínimos cuadrados y polinomios ortogonales.
La teoría de la correlación y regresión es muy reciente (1869) debiéndose su
descubrimiento al inglés Sir Francis Galton (1822-1917). Sus trabajos fueron posteriormente
desarrollados por el también inglés Karl Pearson (1857-1933).
Ajuste de curvas
En una distribución bidimensional (xi, yi, ni) en la que existe una relación causal entre las
variables X e Y, se procederá a estudiar dicha relación desde el punto de vista estadístico.
Esta relación causal se conoce también con el nombre de Modelo Teórico.
Para hacer dicho estudio se siguen los siguientes pasos:
98
Estadística Descriptiva Angélica Reyna
X
Curva de Gompertz ............................................ Y = a · b + g
Curva logística ................................................... Y = (a · bX + g) -1
Curva geométrica ............................................... Y = a · Xb
Y
Y
X
X
Relación Exponencial Relación lineal directa o positiva (recta)
Y
Y
X
X
Relación lineal inversa o negativa (recta) No existe relación
X
Curva cúbica o polinomial de 3er grado
99
Estadística Descriptiva Angélica Reyna
Métodos de ajuste
Existen varios métodos para determinar la función específica que determina la dependencia
o relación entre las dos variables que estamos buscando. La utilización de estos métodos
normalizados de aproximación permiten homogeneizar resultados, de forma que, una vez
definido un método se obtendría el mismo resultado, cualquiera que fuera la persona que lo
realizara evitando así un ajuste libre que daría diferentes curvas. Los principales métodos
de ajuste de curvas son:
- de una recta
- de una parábola
100
Estadística Descriptiva Angélica Reyna
1. Los residuos pueden tener signo positivo o negativo de modo que pueden anularse
entre sí, y esconder un error importante.
Este método puede calcularse genéricamente para una curva pero dada la
utilización más frecuente de la recta, aquí revisaremos por separado los procedimientos,
aunque ambos tienen la misma estructura y la misma base de cálculo.
Aquí tratamos de buscar la ecuación de una recta que represente la relación lineal entre las
dos variables X e Y. Dicha recta nos da el valor de la variable dependiente en función de la
101
Estadística Descriptiva Angélica Reyna
variable independiente con el menor error posible. Ello se consigue aplicando el método de
mínimos cuadrados.
Y* = a + b Xi
Así, en cada uno de los valores hallados de Yi* se comete un error de estimación
cuyo valor es: ei = Yi – Yi* - (a + b Xi)
∂ S = 0 2 (Y1 –a bX1) (-1) + 2 (Y2 – a – bX2) (-1) + ... + 2 (Yn – a – bXn) ( –1) = 0
∂a
∂ S = 0 2 (Y1 –a bX1) (-X1) + 2 (Y2 – a – bX2) (-X2) + ... + 2 (Yn – a – bXn) ( –Xn) = 0
∂b
∑ Yi = a N + b ∑Xi
102
Estadística Descriptiva Angélica Reyna
N ∑X2 – (∑X)2
x = X-X, y= Y-Y
b = ∑xy ; a = 0
∑x2
∑ Y = a + b ∑X
N N
Lo que equivale a :
Y = a+bX
_ _
Es decir, que la recta de regresión pasa por el punto (X, Y), punto definido por los
valores medios que satisface a la ecuación y pertenece a ella.
R2 = SRy2
Sy2
2
Donde SRy es la varianza residual obtenida después de realizar el ajuste.
103
Estadística Descriptiva Angélica Reyna
a) Cuando R2 = 1, significa que no hay errores o residuos y, por tanto, todas las variaciones
de Y vienen explicadas por X;
b) Si, por el contrario, R2 = 0, quiere decir que la función de regresión no explica ninguna de
las variaciones de Y, con lo que se entiende que dicha función de regresión no es
válida.
r= 1 - Sry
Sy2
104
Estadística Descriptiva Angélica Reyna
Bibliografía
105