DE TAMAULIPAS, A.C.
ANTOLOGÍA
ESTADÍSTICA Y SU LABORATORIO I
1
ÍNDICE
OBJETIVO GENERAL DE LA ANTOLOGÍA 4
BLOQUE I
UNIDAD I.- INTRODUCCIÓN A LA ESTADÍSTICA
Objetivo de la Unidad 5
1.1 Definición de Estadística 5
1.2 Historia 5
1.3 Aplicaciones 6
1.4 Clasificación 8
1.5 Terminología Básica 9
1.6 Recopilación y Arreglo de la Información 11
1.7 Representación Gráfica 14
Actividades de Aprendizaje del Bloque I 20
BLOQUE II
UNIDAD II.- MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN PARA
DATOS NO AGRUPADOS
Objetivo de la Unidad 21
2.1 Medidas de Posición y Dispersión para Datos No Agrupados 21
2.1.1 Medidas Descriptivas 22
2.1.2 Análisis de Datos por Estadística Descriptiva para Datos No Agrupados 23
2
3.1.4 Medidas de Tendencia Central 44
3.1.5 Medidas de Dispersión 47
Actividades de Aprendizaje del Bloque II 48
BLOQUE III
UNIDAD IV.- DISTRIBUCIÓN DE PROBABILIDAD
Objetivo de la Unidad 49
4.1 Distribución Normal 49
4.2 Distribución Binomial 57
4.3 Distribución Poisson 62
3
OBJETIVO GENERAL DE LA ANTOLOGÍA
4
BLOQUE I
UNIDAD I
INTRODUCCIÓN A LA ESTADÍSTICA
1.2 Historia
El vocablo statistik proviene de la palabra italiana statista (que significa “estadista”). Fue
utilizada por primera vez por Gottfried Achenwall (1719-1772), un profesor de
Marlborough y de Göttingen.
La estadística oficial es tan vieja como la historia registrada. El Viejo Testamento contiene
varios informes sobre levantamiento de censos. Los gobiernos de los antiguos Babilonia,
Egipto y Roma reunieron registros detallados sobre población y recursos. En la Edad
5
Media, los gobernantes empezaron a registrar la propiedad de la tierra. En el año 762 de
nuestra era, Carlomagno pidió una descripción detallada de las propiedades de la Iglesia.
A principios del siglo IX terminó la enumeración estadística de los siervos que habitaban
los feudos. Por el año 1806, Guillermo el Conquistador ordenó que se escribiera el
Domesday Book, un registro de la propiedad, extensión y valor de las tierras de Inglaterra.
Este trabajo fue el primer resumen estadístico de Inglaterra.
Debido al temor que Enrique VII sentía por la peste, Inglaterra empezó a registrar sus
muertos en 1532. Aproximadamente por esta misma época, la ley francesa requirió al
clero que registrara bautismos, defunciones y matrimonios. Durante un brote de peste, a
finales del siglo XVI, el gobierno inglés empezó a publicar semanalmente las estadísticas
de mortalidad. Esta práctica continuó y por el año 1632, estos Bills of Mortality (Listas de
Mortalidad) contenían listados de nacimientos y muertes clasificados según el género. En
1662, el capitán John Graunt utilizó 30 años de dichos listados para hacer predicciones
sobre el número de personas que morirían a causa de diferentes enfermedades, y sobre
la proporción de nacimientos, de ambos sexos, que podía esperarse. Resumido en su
trabajo, Natural and Political Observations. Made upon the Bills of Mortality
(“Observaciones Naturales y Políticas. Hechas con las Listas de Mortalidad”), el estudio
de Graunt fue uno de los primeros análisis estadísticos. Por el éxito conseguido al usar
registros anteriores para predecir sucesos futuros, Graunt fue nombrado miembro de la
Royal Society original. (Levin & Rubin, 2004)
1.3 Aplicaciones
6
Hay muchos métodos sugeridos por diferentes autores; a continuación, se presenta un
resumen muy sencillo elaborado con varios de estos métodos.
7
investigador establecer una conclusión acerca del problema y, en algunas
ocasiones elaborar sugerencias para la solución del mismo.
En estadística, un investigador debe contar con elementos que le permitan probar sus
hipótesis; estos elementos son las variables de la investigación. (Rodríguez Franco,
Pierdant Rodríguez, & Rodríguez Jiménez, 2014)
1.4 Clasificación
Se consideran dos fases en el campo de la estadística. En primer lugar, está la fase que
sólo se limita a la descripción de un conjunto de datos sin llegar a conclusiones o
generalizar con respecto a un grupo mayor. A esta fase se le da el nombre de “Estadística
Descriptiva” o “Deductiva”. En la segunda, ella implica el análisis mediante la cual trata de
llegar a conclusiones acerca de un grupo más grande o población, basado en la
información de un grupo menor o muestra, procedimiento o técnica denominada como
“Estadística Inductiva” o “Inferencia”.
8
cálculo de promedios, proporciones, varianza de una o más variables relacionadas.
(Martínez Bencardino, 2012)
POBLACIÓN Y MUESTRA
9
Por otra parte, la población; viene definida por la tarea o investigación estadística a
realizarse. Y como la medición o conteo de la característica especificada por la
investigación se hace a cada unidad elemental, se puede considerar a la población como
la totalidad de valores posibles de una característica particular especificada por la
investigación estadística. En este sentido la población consiste en un conjunto de datos
estadísticos que se reúnen de acuerdo con la formulación de una investigación estadística
o con la definición de la población específica.
Se representa por una letra del alfabeto. Por ejemplo, en la población constituida por los
empleados de la universidad, algunas variables estadísticas definidas en esta población
son:
10
W: "ingresos mensuales", Valores: Números reales positivos.
Es importante tener en cuenta, si el análisis estadístico se está haciendo con una muestra
o con una población. En ambos casos las medidas descriptivas son las mismas. Para
diferenciarlos, los parámetros de la población se representan por letras griegas. (Cordova
Zamora, 2003)
11
Pasos en la selección de una muestra:
Siguiendo el esquema de Kinnear y Taylor (1993), los siguientes son los pasos para
definir una muestra:
1. Definir la población.
2. Identificar el marco muestral.
3. Determinar el tamaño de la muestra.
4. Elegir un procedimiento de muestreo.
5. Seleccionar la muestra.
El método de muestreo utilizado para estimar el tamaño de una muestra depende del tipo
de investigación que desea realizarse y, por tanto, de las hipótesis y del diseño de
investigación que se hayan definido para desarrollar el estudio. (Bernal Torres, 2010)
12
Imagen No. 1.- “Determinación de la Población y la Muestra Objeto de Estudio”. (Bernal Torres, 2010)
13
El tipo de estudio que se realiza también influye en la determinación del tamaño de
la muestra; los estudios descriptivos, por ejemplo, demandan un mayor tamaño en
la muestra que los estudios experimentales. Sin que se trate de una norma, suele
mencionarse la conveniencia de que en los estudios descriptivos se tomen
muestras que incluyan del 10 al 20% de la población total, mientras que en los
estudios de tipo experimental suele hablarse de muestras de 30 elementos como
“muestras suficientemente grandes”.
Inclusive la técnica que se utilice para la obtención de la muestra tiene que ver con
la determinación del tamaño de la misma; un muestreo aleatorio simple puede
requerir mayor tamaño de muestra que un muestreo estratificado cuando hay alta
variabilidad en la población.
Una vez que hayan sido recolectados los datos muéstrales, debemos “conocerlos”. Una
de las formas más útiles de conocer los datos es usar una técnica inicial de exploración
de análisis de datos que resultará en una representación gráfica de los datos. La gráfica
revelará visualmente patrones de comportamiento de la variable bajo estudio. Hay
diversas formas gráficas de describir datos. El tipo de datos y la idea que se va a
representar determina el método que se va a utilizar. (Johnson & Kuby, 2008)
14
Gráficos para Datos Cualitativos:
Gráficas de círculos y gráficas de barras: son gráficas que se usan para resumir datos
cualitativos, o por atributos, o datos categóricos. Las gráficas de círculos (diagramas de
pastel) muestran la cantidad de datos que pertenecen a cada una de las categorías como
parte proporcional de un círculo. Las gráficas de barras muestran la cantidad de datos que
pertenecen a cada una de las categorías como un área rectangular de tamaño
proporcional.
Ejemplo:
Tabla No. 1.- “Tabla de Datos para Graficación”. (Johnson & Kuby, 2008)
15
Imagen No. 2.- “Gráfica Circular y de Barras para Datos Cualitativos”. (Johnson & Kuby, 2008)
Diagrama de Pareto: es una gráfica especial de barras. En ésta, las barras se presentan
de la categoría más numerosa a la menos numerosa. Incluye una gráfica de líneas que
muestra los porcentajes acumulativos y las cantidades para las barras. (Johnson & Kuby,
2008)
Imagen No. 3.- “Gráfica de Pareto para Datos Cualitativos”. (Johnson & Kuby, 2008)
16
Gráficos para Datos Cuantitativos:
Una razón importante para construir una gráfica de datos cuantitativos es el hecho de
presentar la distribución de los mismos.
Gráfica de Puntos: Una de las gráficas más sencillas empleadas para exhibir una
distribución es la gráfica de puntos.
La gráfica de puntos presenta los datos de una muestra al representar cada dato con un
punto ubicado a lo largo de una escala que puede ser horizontal o vertical. La frecuencia
de los valores se representa a lo largo de la otra escala. (Johnson & Kuby, 2008)
Ejemplo:
Tabla No. 2.- “Gráfica de Pareto para Datos Cualitativos”. (Johnson & Kuby, 2008)
Observe la forma en la que se “agrupan” los datos de la tabla 2 están concentrados cerca
del centro y más dispersados cerca de los extremos.
17
La presentación de una gráfica de puntos es una técnica que conviene usar cuando se
empiezan a analizar los datos. Produce una imagen de los datos que los clasifica en
orden numérico. (Ordenar datos es ponerlos en una lista en orden de jerarquía según el
valor numérico). (Johnson & Kuby, 2008)
Este tipo de histograma tiene la misma forma que un histograma de frecuencias absolutas
construido a partir del mismo conjunto de datos. Esto es así debido a que, en ambos, el
tamaño relativo de cada rectángulo es la frecuencia de esa clase comparada con el
número total de observaciones. (Levin & Rubin, 2004)
Ejemplo:
Imagen No. 4.- “Distribución de Frecuencias Relativas de los Niveles de Producción de una Muestra de 30
Telares para Alfombra Utilizando Intervalos de Clase de 0.3 Yardas”. (Levin & Rubin, 2004)
18
Polígonos de frecuencias: los polígonos de frecuencias son otra forma de representar
gráficamente distribuciones tanto de frecuencias como de frecuencias relativas. Para
construir un polígono de frecuencias señalamos éstas en el eje vertical y los valores de la
variable que estamos midiendo en el eje horizontal, del mismo modo en que se hizo con el
histograma. A continuación se grafica cada frecuencia de clase trazando un punto sobre
su punto medio y conectamos los puntos sucesivos resultantes con una línea recta para
formar un polígono (una figura con muchos lados).
Imagen No. 5.- “a) Polígono de Frecuencias de Nivel de Producción de una Muestra de 30 Telares para
Alfombra Utilizando Intervalos de Clase de 0.3 Yardas, b) Histograma Trazado a partir de los Puntos del
Polígono de Frecuencia”. (Levin & Rubin, 2004)
19
Ojivas: Una distribución de frecuencias acumuladas nos permite ver cuántas
observaciones están por encima de ciertos valores, en lugar de hacer un mero registro del
número de elementos que hay dentro de los intervalos. Por ejemplo, si deseamos saber
cuántos telares tejen menos de 17.0 yardas, podemos utilizar una tabla que registre las
frecuencias acumuladas “menores que” de nuestra muestra. La gráfica de una distribución
de frecuencias acumuladas se conoce como ojiva. (Levin & Rubin, 2004)
Imagen No. 6.- “Ojiva “Menor que” de la Distribución de Niveles de Producción de una Muestra de 30 Telares
para Alfombra”. (Levin & Rubin, 2004)
20
BLOQUE II
UNIDAD II
MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN PARA DATOS NO
AGRUPADOS
Objetivo de la Unidad: Identifica y calcula cada una de las medidas de tendencia central
y de dispersión en un estudio estadístico, por medio de las técnicas de datos no
agrupados para conocer el comportamiento de una población o muestra a partir de las
medidas estadísticas.
Es importante tener en cuenta que las medidas resumen son informativas para datos
homogéneos y que pueden ser muy engañosas cuando mezclamos distintas poblaciones.
En estos casos es más adecuado identificar las razones de la heterogeneidad, dividir los
datos en dos poblaciones distintas y calcular las medidas características en cada una de
ellas. (Peña Sanchez de Rivera, 2014)
A los conjuntos de datos se les denomina colección de datos, mismos que se pueden
clasificar en:
No agrupados, cuando los datos que las conforman a lo más guardan un orden
secuencial de acuerdo con su valor.
21
Agrupados, cuando los datos que las conforman han sido catalogados dentro de
un grupo de rangos denominados intervalos de clase en atención a que
representan al grupo de rangos en los que se puede subdividir la colección,
permitiendo clasificar los datos de acuerdo con su valor dentro de los mismos.
Medidas de dispersión.- Señalan qué tan alejados están los valores de una
colección de datos con respecto a un valor de centralización, que por lo general es
la media. Entre las medidas más comunes se encuentran: el rango, la varianza, la
desviación estándar, el coeficiente de variación.
Medidas de posición o cuartiles.- Son los valores que permiten dividir la colección
ordenada de datos en partes iguales con el mismo número de datos en cada
segmento. Los cuartiles más comunes son:
22
o Los percentiles, los cuales dividen la colección en 100 partes iguales,
considerando que existen 99 percentiles (P1, P2, P3,… P99).
Medidas de forma.- Son los valores que permiten establecer como están
distribuidos los valores de una colección de datos. Las medidas principales son:
Sesgo o asimetría y Apuntamiento. (Alvarado Verdín, 2014)
Este tipo de análisis se recomienda cuando el número de datos que estructuran una
colección de datos permite su manejo y cómputo de manera ágil. Para que las cifras
ofrezcan un significado es conveniente ordenarlas, sugiriendo en este caso de menor a
mayor, de acuerdo con sus valores.
18 5 11 52 35 52 72
5 11 18 35 52 52 72
Ordenar los datos permite contar con una mejor perspectiva de los mismos, pudiendo
establecer las diferencias entre los diferentes valores. (Alvarado Verdín, 2014)
23
DETERMINACIÓN DEL VALOR DE LA MEDIA
∑𝑛𝑖=1 𝑥𝑖
𝑥̅
𝑛
Donde
5+11+18+35+52+52+72
𝑥̅ = = 35
7
5 11 18 35 52 52 72
𝑥̅
(Alvarado Verdín, 2014)
24
respecto. Éste es el caso porque el cálculo de la media puede inflarse (aumentar) o
desinflarse (disminuir) debido a puntuaciones o valores extremos. Puntuaciones muy
altas, o valores extremos positivos, inflan el valor de la media "agrandando" la suma de x
(es decir, Σx) en el numerador de la fórmula. Puntuaciones sumamente bajas en una
distribución, o valores extremos negativos, desinflan el valor de la media "encogiendo" Σx.
Por ejemplo, suponga que calculamos la cantidad media del dinero en efectivo que llevan
10 estudiantes. Idealmente, esta media debe indicarnos cuál es la cantidad típica. Pero
suponga que un estudiante cobró un cheque por $400 y nuestro cálculo es el siguiente,
donde x = la cantidad de dinero en efectivo de cada estudiante (para simplificar, se
redondea al dólar más cercano). (Ritchey, 2001)
Σ𝑥 5 + 2 + 6 + 10 + 8 + 2 + 9 + 11 + 5 + 400 458
𝑥̅ = = = = 45.8 ≈ 46
𝑛 10 10
Por obvias razones, esta media de $46 no representa la cantidad de dinero promedio
típico, o la tendencia central que los alumnos suelen portar en efectivo. La mayoría de los
estudiantes tiene menos de $10, y reportar una media de $46 es engañoso.
Tenga presente que nuestro objetivo es usar estadísticos de muestras para estimar los
parámetros de una población. Si se reporta una media muestral inflada o disminuida, se
presentará un resumen distorsionado de las puntuaciones que obtienen los sujetos en una
población. Esta limitación de la media es un problema especial con muestras pequeñas;
cuanto menor sea la muestra, mayor será la distorsión que genere un valor extremo.
(Ritchey, 2001)
25
DETERMINACIÓN DEL VALOR DE LA MEDIANA
En el caso de la colección en análisis, esta cuenta con un número impar de datos, por lo
que el valor de la mediana es el que cumple con la regla 1, antes mencionada,
coincidiendo con la posición y el valor de la media. (Alvarado Verdín, 2014)
5 11 18 35 52 52 72
𝑥̅
Md
En el caso de la moda (Mo), es el valor o valores que tienen la mayor frecuencia, o sea,
son los que más se repiten.
Con referencia a lo anterior, debe considerarse que en una colección de datos puede
haber más de una moda, por lo que una colección puede ser:
26
Puede observarse que la colección es modal ya que el valor que más se repite es el 52,
considerando que cuenta con una frecuencia con valor 2. (Alvarado Verdín, 2014)
5 11 18 35 52 52 72
Mo
El sesgo describe cómo es la distribución de los datos, ya que indica hacia dónde tienden
a concentrarse éstos. Una distribución puede ser:
Imagen No. 7.- “Tipos de Sesgo en las Distribuciones”. (Gutiérrez Banegas, 2012)
27
Para este ejemplo la gráfica muestra una distribución sesgada a la izquierda, lo que
presume que la concentración de los datos está hacia la derecha, o sea, hacia los datos
más grades.
Imagen No. 8.- “Gráfica con Sesgo Negativo”. (Gutiérrez Banegas, 2012).
Rango:
R = Xmáx − Xmín
28
Algunas desventajas que presenta el rango son:
Esto nos indica que entre el valor máximo y mínimos de la colección de datos hay una
diferencia de 67 puntos. (Gutiérrez Banegas, 2012)
Si esto se realiza, se encuentra que el valor promedio es cero, ya que la media equilibra
las desviaciones tanto por arriba como por debajo de la misma, tal como se muestra en el
siguiente problema resuelto. (Alvarado Verdín, 2014)
Tabla No. 3.- “Diferencia Entre un Valor Específico y la Media de los Datos”. (Alvarado Verdín, 2014)
29
Por tanto, no se puede establecer la diferencia o desviación promedio de los valores de la
colección con respecto a la media, pero para evitar esto se procede a elevar las
diferencias al cuadrado a efecto de evitar los números negativos y obtener un promedio
de las desviaciones; a esta parámetro se le denomina varianza (s2), pero ha de
observarse que la varianza expone el promedio de las desviaciones al cuadrado por lo
que un valor más significativo lo propone la desviación estándar, la cual es la raíz
cuadrada del valor de la varianza. Considerando la colección:
Tabla No. 4.- “Diferencia Entre un Valor Específico y la Media de los Datos Elevados al Cuadrado” (Alvarado
Verdín, 2014)
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑆2 = = 618.66
𝑛−1
𝑆 = √𝑆 2 = 24.87
COEFICIENTE DE VARIACIÓN
30
Esta medida es el coeficiente de variación y se representa como porcentaje:
𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟
( 𝑥 100) %
𝑀𝑒𝑑𝑖𝑎
(Anderson, Sweeney, & Williams, 2008)
24.87
( 𝑥 100) %
35
= 71.05 %
El coeficiente de variación indica que la desviación estándar muestral es 71.05 % del valor
de la media muestral.
Cuando se tiene una muestra, el coeficiente de variación puede ser utilizado para calificar
estadísticamente la calidad de las estimaciones. Para ello se consideran los siguientes
criterios:
Al interpretar los datos para el ejemplo, es posible establecer que la desviación representa
el 71.05 % de la media. En términos del ejercicio, podría interpretarse que los datos
varían 71.05 % alrededor de la media, lo cual intuye que la precisión de estimación de los
parámetros para esta población es poco precisa.
31
MEDIDAS DE POSICIÓN PARA DATOS NO AGRUPADOS
𝑃
PSp = (n+1)( )
100
Donde
Psp = Posición del percentil P.
N = Número de elementos de la colección.
La fórmula anterior arroja la posición del percentil de interés, por lo que se deberá
determinar el valor de éste mediante diferencias y proporciones. (Alvarado Verdín, 2014)
P =25
N=7
Por tanto,
25
PS25 = (7+1)( )= 2
100
Donde se interpreta que el valor del primer cuartil corresponde al del dato ubicado en la
posición 2 de la colección ordenada, que es en este caso Q1= PS25 =11. (Alvarado Verdín,
2014)
Tabla No. 5-. “Valor del Percentil 25, que es Equivalente al Cuartil1” (Alvarado Verdín, 2014)
32
En el caso del 80avo percentil P = 80:
80
PS80 = (7+1)( )= 6.4
100
Diferencia = 72 - 52 = 20
Por tanto,
33
UNIDAD III
MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN PARA DATOS
AGRUPADOS
Objetivo de la Unidad: Identifica y calcula cada una de las medidas de tendencia central
y de dispersión en un estudio estadístico, por medio de las técnicas de datos agrupados
para conocer el comportamiento de una población o muestra a partir de las medidas
estadísticas.
Si las variables son cualitativas (no numéricas) las clases pueden ser cada uno de sus
valores.
Ejemplo: la variable x es igual a la calidad del artículo elaborado. Los valores que toma la
variable son: x = b cuando el artículo es bueno y x = d cuando el artículo es defectuoso.
(Quevedo Urías & Pérez Salvador, 2014)
b, b, d, b, b, b, b, d, d, b, b, b, b, d, b
34
Los datos se agrupan en dos categorías:
Tabla No. 6.- “Distribución de Datos Cualitativos”. (Quevedo Urías & Pérez Salvador, 2014)
Cuando los datos son números enteros, las clases pueden ser cada uno de los posibles
valores de la variable.
3, 2, 4, 0, 0, 1, 1, 2, 2, 0, 3, 1, 0, 1, 0, 2, 1, 0, 5, 3
Los datos se pueden agrupar en seis categorías como se observa en la tabla. (Quevedo
Urías & Pérez Salvador, 2014)
Tabla No. 7.- “Distribución de Datos Cuantitativos”. (Quevedo Urías & Pérez Salvador, 2014)
35
Entre las reglas más comunes tenemos:
Una regla empírica que consiste en determinar el entero más cercano a √𝑛, en
donde n es el número total de observaciones.
2016)
Tamaño de los intervalos de clase: es la diferencia entre los límites o linderos superiores e
inferiores. (Quevedo Urías & Pérez Salvador, 2014)
36
La suma de las frecuencias relativas es igual a 1, independientemente del número de
datos que se tengan.
Ejemplo:
Tabla No. 8.- “Ingresos Mensuales de 100 Familias Pobres”. (Venereo Bravo, 2016)
Si estudia la tabla anterior concluirá que el valor más bajo es 450 y el más alto 485,
por tanto, R = 485 – 450 = 35.
37
Dada la cercanía entre ambos resultados (7 y 7.6), utilizaremos 7 como el número de
clases.
4.- El siguiente paso consiste en determinar los límites de clase, tanto el inferior como
el superior, tomando en cuenta que ya establecimos que 5 debe ser el ancho de
clase. Para la primera clase se coloca como límite inferior (Li) el valor más pequeño
de los datos y como límite superior Ls = Li + (longitud del intervalo – 1), es decir, Li =
450 y Ls = 450 + (5 – 1) = 454. Para calcular Ls se le ha restado a 5 un 1 ya que éste
último es la unidad más pequeña de los datos.
38
Tabla No. 9.- “Intervalos de Clase”. (Venereo Bravo, 2016)
Como se puede apreciar, el límite superior de la última clase (484) es menor al valor
máximo de los datos (485), cuando en realidad, debe ser igual o mayor que él. Para
intentar resolver la situación que se presenta en este caso o en cualquier otro caso
similar, podemos disminuir el número de intervalos a 6, recalcular los nuevos límites de
clase y ver si la situación queda resuelta.
35
Longitud de los intervalos = = 5.83 ≈ 6
6
Como se puede apreciar en la tabla, la situación que se presentaba con el límite superior
de la última clase ha quedado resuelta.
5.- A continuación, debemos obtener los límites reales de clase, los cuales se
obtienen restándole media unidad (u/2) a los límites inferiores de clase y sumándole
39
esa misma cantidad a los límites superiores. En nuestro ejemplo u = 1, por tanto, la
cantidad a sumar y restar es 0.5. Así, el límite real inferior (Lri) de la primera clase es
450 – 0.5 = 449.5 y el límite real superior (Lrs) de esta clase es 455 + 0.5 = 455.5, el
límite real inferior (Lri) de la segunda clase es 456 – 0.5 = 455.5 y el límite real
superior (Lrs) de esta clase es 461 + 0.5 = 461.5 y así para el resto de las clases.
6.- El siguiente paso consiste en determinar la marca de clase o punto medio de cada
uno de los intervalos, el cual se obtiene hallando la semisuma entre los dos límites
del intervalo, es decir, para la primera clase (450 + 455) / 2 = 452.5 para la segunda
clase (456 + 461) / 2 = 458.5 y así sucesivamente.
Tabla No. 12.- “Incorporación de la Columna Marcas de Clase”. (Venereo Bravo, 2016)
40
Tabla No. 13.- “Incorporación de las Frecuencias Absolutas de cada Clase”. (Venereo Bravo, 2016)
8.- Al igual que para el caso de una variable discreta, podríamos presentar la
distribución de frecuencias relativas de los ingresos mensuales de las 100 familias
pobres con la finalidad de poner en evidencia la parte del total de las observaciones
que pertenece a cada una de las clases. (Venereo Bravo, 2016)
Tabla No. 14.- “Incorporación de las Frecuencias Relativas de cada Clase”. (Venereo Bravo, 2016)
41
Representaciones gráficas:
Imagen No. 9.- “Histograma de los Ingresos Mensuales de 100 Familias Pobres”. (Venereo Bravo, 2016)
Imagen No. 10.- “Polígono de Frecuencias de los Ingresos Mensuales de 100 Familias Pobres”. (Venereo
Bravo, 2016)
42
Imagen No. 11.- “Polígono de Frecuencias Relativas de los Ingresos Mensuales de 100 Familias Pobres”.
(Venereo Bravo, 2016)
Una alternativa más general y útil para situaciones similares a la anterior, consiste en
calcular las frecuencias absolutas acumuladas.
43
Tabla No. 15.- “Columnas de Frecuencias Absolutas y Relativas Acumuladas”. (Venereo Bravo, 2016)
Imagen No. 12.- “Polígono de Frecuencias Absolutas Acumuladas”. (Venereo Bravo, 2016)
Observe que los valores utilizados en el eje horizontal corresponden a los límites
superiores de cada una de las clases. (Venereo Bravo, 2016)
Media: La media aritmética para datos agrupados viene dada por la expresión:
∑𝑛1 𝑓𝑘 × 𝑥𝑘
𝑥̅ =
𝑛
44
Donde k es el número de clases, fk la frecuencia absoluta de la clase k-ésima y xk la
marca de clase de la clase k-ésima. (Venereo Bravo, 2016)
En nuestro ejemplo:
𝑛+1 100+1
Como sabemos, la mediana está ubicada en la posición = = 50.5
2 2
Si estudia la tabla 14 podrá percatarse que la posición 50.5 (entre 50 y 51) se encuentra
ubicada en la tercera clase o intervalo, la cual tiene una frecuencia acumulada igual a 71.
(Venereo Bravo, 2016)
(𝑛+1)
2
−(𝐹+1)
Me = [ ]w + LM
𝑓𝑀𝑒
Donde:
45
(100+1)
2
−(45+1)
Me = [ ]6 + 462 = 463.04 ≈ 463
26
Moda: Cuando los datos están agrupados en una distribución de frecuencias es razonable
pensar que la Moda está ubicada en la clase con una mayor frecuencia. A partir de esta
clase modal podemos calcular el valor de la Moda utilizando la siguiente expresión:
𝑑1
Mo = LMo +[ ]w
𝑑1 +𝑑2
Donde:
Según los datos que se observan en la tabla 14, la clase modal es la tercera y
adicionalmente:
LMo = 456
d1 = 29 - 26 = 3
d2 = 29 – 16 = 13
w=6
3
Mo = 456 +[ ]6 = 457.12 ≈ 457
3+13
(Venereo Bravo, 2016)
46
3.1.5 Medidas de Dispersión
2
∑𝑛1 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )2
𝑆 =
𝑛−1
Coeficiente de Variación:
𝑆 8.61
( 𝑥 100) % = ( 𝑥 100) %
𝑥̅ 463.96
= 1.85 %
Al interpretar los datos para el ejemplo, es posible establecer que la desviación representa
el 1.85% de la media. En términos del ejercicio, podría interpretarse que los datos varían
1.85% alrededor de la media, lo cual intuye que la precisión de estimación de los
parámetros para esta población es precisa. (Venereo Bravo, 2016)
47
Actividades de Aprendizaje del Bloque II
48
BLOQUE III
UNIDAD IV
DISTRIBUCIÓN DE PROBABILIDAD
Una distribución normal es aquella donde la media, la mediana y la moda de una variable
son iguales entre sí y la distribución de las puntuaciones tiene forma de campana.
También nos referimos a esto como una "curva normal". Una distribución normal es
simétrica (es decir, equilibrada en cada lado). Su media, mediana y moda se localizan en
el centro de la distribución. La presencia de la mediana aquí asegura la simetría porque,
por definición, la mediana divide por la mitad una distribución ordenada de puntuaciones.
Puesto que la moda está en el punto central de una distribución normal, el pico de la
curva se localiza allí (ver imagen 7).
49
La calificación z se encuentra con la fórmula.
𝑉𝑎𝑙𝑜𝑟−𝑀𝑒𝑑𝑖𝑎 𝑥− 𝑥̅
Z= =
𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 𝑠
(Johnson & Kuby, 2008)
𝑥− 𝑥̅ 470−463.96
a) Z = = = 0.70
𝑠 8.61
𝑥− 𝑥̅ 450−463.96
b) Z = = = -1.62
𝑠 8.61
Esto significa que el ingreso de 470 está a aproximadamente 0.7 desviaciones estándar
arriba de la media, y el ingreso de 450 está aproximadamente a 1.62 de una desviación
estándar debajo de la media.
50
La imagen 13 muestra los intervalos de 1, 2 y 3 desviaciones estándar alrededor de la
media de una distribución aproximadamente normal. Por lo general estas proporciones no
se presentan de manera exacta en una muestra, pero los valores observados estarán
cercanos cuando una muestra grande se tome de una población normalmente distribuida.
Si una distribución es aproximadamente normal, será casi simétrica y la media dividirá la
distribución en dos (la media y la mediana son iguales en una distribución simétrica).
51
están incluidos dentro de 3 desviaciones estándar de la media (de 439.48 a 488.44). Esta
información se puede poner en una tabla para comparación con los valores dados por la
regla empírica (vea la tabla.16). (Johnson & Kuby, 2008)
Hay un número ilimitado de distribuciones de probabilidad normal, pero por fortuna todas
están relacionadas con una distribución: la distribución normal estándar. La distribución
normal estándar es la distribución normal de la variable estándar z (llamada “puntaje
estándar” o “puntaje z”).
La tabla 16 es una lista de las probabilidades asociadas con los intervalos desde la media
(ubicada en z = 0.00) hasta un valor específico de z. Las probabilidades de otros
intervalos pueden hallarse usando las entradas de tabla y las operaciones de adición y
sustracción, de acuerdo con las propiedades precedentes. Veamos varias ilustraciones
52
que demuestran la forma de usar la tabla 16 para hallar probabilidades del puntaje normal
estándar, z.
Tabla No. 17.- “Área de Distribución Norma Estándar”. (Johnson & Kuby, 2008)
53
Ejemplo: Encuentre el área bajo la curva normal estándar entre z = 0 y z = 1.52.
Imagen No. 14.- “Área Bajo la Curva Normal Estándar entre z = 0 y z= 1.52”. (Johnson & Kuby, 2008)
La tabla 17 está diseñada para dar el área entre z = 0 y z = 1.52 directamente. El puntaje
z está ubicado en los márgenes, con las unidades y décimas de dígito por todo el lado
izquierdo y centésimas de dígito en la parte superior. Para z = 1.52, localice la fila
marcada 1.5 y la columna marcada 0.02; en su intersección encontrará 0.4357, la medida
del área o la probabilidad para el intervalo z = 0.00 a z = 1.52 (vea la tabla 18). Expresado
como una probabilidad: P (0.00 < z < 1.52) = 0.4357. (Johnson & Kuby, 2008)
Tabla No. 18.- “Área de Distribución Norma Estándar para z= 1.52”. (Johnson & Kuby, 2008)
Recuerde que una de las propiedades básicas de probabilidad es que la suma de todas
las probabilidades es exactamente 1.0. Como el área bajo la curva normal representa la
medida de probabilidad, el área total bajo la curva en forma de campana es exactamente:
Esta distribución también es simétrica respecto a la recta vertical trazada por z = 0, que
corta el área en dos en la media.
54
Ejemplo: Encuentre el área a la izquierda de z = 1.52: P (z < 1.52).
El total del área sombreada está formado por 0.4357 hallado en la tabla y el 0.5000 que
está a la izquierda de la media. Por tanto, sumamos 0.4357 a 0.5000.
Imagen No. 15.- “Área a la Izquierda Bajo la Curva Normal Estándar z = 1.52”. (Johnson & Kuby, 2008)
P (z ≤ 1.52) = P (z < 0) + P (0 < z < 1.52) = 0.5000 + 0.4357 = 0.9357 (Johnson & Kuby,
2008)
Ejemplo: Supongamos que la edad (X) con la que los estudiantes egresan de la
Universidad Laica Eloy Alfaro de Manabí sigue una distribución normal con media
poblacional igual a 24 años y una varianza poblacional igual a 0.12 años, es decir, X ∼ N
(26, 0.12). Calcule la probabilidad que al seleccionar al azar un estudiante recién
egresado de esta institución educativa, su edad sea menor a 24.5 años.
24.5−24 0.5
P (x < 24.5) = P (𝑍 < ) = (𝑍 < 0.35) = P (x < 1.43) = 0.9236 (ver tabla 19)
√0.12
(Venereo Bravo, 2016)
55
Tabla No. 19.- “Área de Distribución Norma Estándar Acumulada”. (Anderson, Sweeney, & Williams, 2008)
56
4.2 Distribución Binomial
2. En cada ensayo hay dos resultados posibles. A uno de estos resultados se le llama
éxito y al otro se le llama fracaso.
Si se presentan las propiedades 2, 3 y 4, se dice que los ensayos son generados por un
proceso de Bernoulli. Si, además, se presenta la propiedad 1, se trata de un experimento
binomial. En la imagen 16 se presenta una sucesión de éxitos y fracasos de un
experimento binomial con ocho ensayos.
57
los cinco lanzamientos. ¿Presenta este experimento las propiedades de un experimento
binomial? ¿Cuál es la variable aleatoria que interesa?
Observe que:
2. En cada ensayo hay dos resultados posibles: cara o cruz. Se puede considerar
cara como éxito y cruz como fracaso.
Imagen No. 16.- “Sucesión Posible de Éxito y Fracasos en un Experimento Binomial de Ocho Ensayos”.
(Anderson, Sweeney, & Williams, 2008)
58
Otro ejemplo, considere a un vendedor de seguros que visita a 10 familias elegidas en
forma aleatoria. El resultado correspondiente de la visita a cada familia se clasifica como
éxito si la familia compra un seguro y como fracaso si la familia no compra ningún seguro.
Por experiencia, el vendedor sabe que la probabilidad de que una familia tomada
aleatoriamente compre un seguro es 0.10. Al revisar las propiedades de un experimento
binomial aparece que:
2. En cada ensayo hay dos resultados posibles: la familia compra un seguro (éxito) o
la familia no compra ningún seguro (fracaso).
3. Las probabilidades de que haya compra y de que no haya compra se supone que
son iguales en todas las visitas, siendo p = 0.10 y 1 - p = 0.90.
4. Los ensayos son independientes porque las familias se eligen en forma aleatoria.
(Anderson, Sweeney, & Williams, 2008)
59
En las aplicaciones de los experimentos binomiales se emplea una fórmula matemática
llamada función de probabilidad binomial que sirve para calcular la probabilidad de x
éxitos en n ensayos. (Anderson, Sweeney, & Williams, 2008)
𝑛
𝑓(𝑥) = ( ) 𝑝 𝑥 (1 − 𝑝)(𝑛−𝑥)
𝑥
Donde:
(𝑛𝑥) = 𝑥!(𝑛−𝑥)!
𝑛!
Considere las decisiones de compra de los próximos tres clientes que lleguen a la tienda
de ropa Martin Clothing Store. De acuerdo con la experiencia, el gerente de la tienda
estima que la probabilidad de que un cliente realice una compra es 0.30. ¿Cuál es la
probabilidad de que dos de los próximos tres clientes realicen una compra?
2. Cada ensayo tiene dos posibles resultados: el cliente hace una compra (éxito) o el
cliente no hace ninguna compra (fracaso).
3. La probabilidad de que el cliente haga una compra (0.30) o de que no haga una
compra (0.70) se supone que es la misma para todos los clientes.
60
4. La decisión de comprar de cada cliente es independiente de la decisión de comprar
de los otros clientes.
3!
𝑓(2) = 0.32 (1 − 0.30)(3−2) = 0.189
2!1!
Tabla No. 20.- “Tabla de Probabilidad Binomial”. (Anderson, Sweeney, & Williams, 2008)
61
4.3 Distribución Poisson
En esta sección se estudiará una variable aleatoria discreta que se suele usar para
estimar el número de veces que sucede un hecho determinado (ocurrencias) en un
intervalo de tiempo o de espacio. Por ejemplo, la variable de interés va desde el número
de automóviles que llegan (llegadas) a un lavado de coches en una hora o el número de
reparaciones necesarias en 10 millas de una autopista hasta el número de fugas en 100
millas de tubería. Si se satisfacen las condiciones siguientes, el número de ocurrencias es
una variable aleatoria discreta, descrita por la distribución de probabilidad de Poisson.
𝜇 𝑥 ℯ −𝜇
f(x) =
𝑥!
Donde:
Antes de considerar un ejemplo para ver cómo se usa la distribución de Poisson, observe
que el número de ocurrencias x, no tiene límite superior. Ésta es una variable aleatoria
62
discreta que toma los valores de una sucesión infinita de números (x = 0, 1, 2,...).
(Anderson, Sweeney, & Williams, 2008)
105 ℯ −10
f(5) = = 0.0378
5!
63
La media de la distribución de Poisson en el ejemplo anterior fue μ = 10 llegadas en un
lapso de 15 minutos. Una propiedad de la distribución de Poisson es que la media y la
varianza de la distribución son iguales. Por tanto, la varianza del número de llegadas en
un lapso de 15 minutos es σ2 = 10. La desviación estándar es σ = √10 = 3.16. (Anderson,
Sweeney, & Williams, 2008)
Tabla No. 21.- “Tabla de Probabilidad Binomial”. (Anderson, Sweeney, & Williams, 2008)
64
UNIDAD V
REGRESIÓN Y CORRELACIÓN
Tipos de relaciones
Imagen No. 17.-” Relaciones Directas e Inversas entre la Variable Independiente X y la Variable Dependiente
Y”. (Levin & Rubin, 2004)
65
5.1.1 Modelo de Regresión
A menudo encontramos una relación causal entre variables, esto es, la variable
independiente “causa” cambios en la variable dependiente. Por esta razón, es importante
considerar que las relaciones encontradas por la regresión son relaciones de asociación,
pero no necesariamente de causa y efecto. A menos que tenga razones específicas para
creer que los valores de la variable dependiente se originan por los valores de las
variables independientes, no infiera causalidad en las relaciones encontradas por la
regresión.
Diagramas de dispersión:
El primer paso para determinar si existe una relación entre dos variables es examinar la
gráfica de los datos observados (o conocidos). Esta gráfica o dibujo se llama diagrama de
dispersión. Un diagrama de dispersión nos puede dar dos tipos de información.
Visualmente, se puede identificar patrones que indiquen que las variables están
relacionadas. Si esto sucede, podemos ver qué tipo de línea, o ecuación de estimación,
describe esta relación. (Levin & Rubin, 2004)
Para comenzar, debemos transferir la información de la tabla 20 a una gráfica. Puesto que
el director desea utilizar las calificaciones de los exámenes para pronosticar éxitos en la
universidad, hemos colocado el promedio de calificaciones acumulado (la variable
dependiente) en el eje vertical o Y, y la calificación del examen de admisión (la variable
66
independiente) en el eje horizontal o X. La imagen 18 nos muestra el diagrama de
dispersión completo.
Imagen No. 18.-” Diagrama de Dispersión de las Calificaciones de Estudiantes en Exámenes de Admisión
Graficadas Contra el Promedio General Acumulado”. (Levin & Rubin, 2004)
A primera vista se sabe por qué llamamos así al diagrama de dispersión. El patrón de
puntos resulta al registrar cada par de datos de la tabla 20 como un punto. Cuando vemos
todos estos puntos juntos, podemos visualizar la relación que existe entre las dos
variables. Como resultado, podemos trazar, o “ajustar” una línea recta a través de nuestro
diagrama de dispersión para representar la relación; la figura 19 ilustra esto. Es común
intentar trazar estas líneas de forma tal que un número igual de puntos caiga en cada lado
de la línea. (Levin & Rubin, 2004)
67
Imagen No. 19.-” Diagrama de Dispersión en donde la Línea Recta Representa la Relación entre X e Y
Ajustada”. (Levin & Rubin, 2004)
La relación entre las variables X e Y también puede tomar la forma de una curva. Los
especialistas en estadística la llaman relación curvilínea. Los empleados de muchas
industrias, por ejemplo, experimentan lo que se denomina “curva de aprendizaje”, es
decir, al fabricar un nuevo producto, el tiempo requerido para producir una unidad se
reduce en alguna proporción fija al duplicarse el número total de unidades.
Imagen No. 20.-” Tipos de Relaciones entre X e Y Ajustada”. (Levin & Rubin, 2004)
68
Estimación mediante la recta de regresión:
En los diagramas de dispersión que hemos utilizado hasta ahora, se colocaron las líneas
de regresión ajustando las líneas visualmente entre los puntos de datos. En esta sección,
aprenderemos a calcular la línea de regresión de manera más precisa, usando una
ecuación que relaciona las dos variables matemáticamente. Aquí, examinaremos sólo
relaciones lineales entre dos variables. (Levin & Rubin, 2004)
La ecuación para una línea recta donde la variable dependiente Y está determinada por la
variable independiente X es:
Y = a + bX
Donde:
Y = variable dependiente.
a = Ordenada Y.
b = pendiente de la recta.
X = variable independiente.
69
𝑌2−𝑌1
b=
𝑋2−𝑋1
Ahora que hemos visto cómo determinar la ecuación de una línea recta, pensemos cómo
calcular una ecuación para una línea dibujada en medio de un conjunto de puntos de un
diagrama de dispersión. ¿Cómo podemos “ajustar” una recta matemáticamente si ninguno
de los puntos está sobre ella? Para un especialista en estadística, la línea tendrá un “buen
ajuste” si minimiza el error entre los puntos estimados en la recta y los puntos observados
reales que se utilizaron para trazarla.
Una forma en que podemos “medir el error” de nuestra línea de estimación es sumando
todas las diferencias, o errores, individuales entre los puntos estimados mostrados en
círculo y los puntos observados mostrados en negro. (Levin & Rubin, 2004)
70
La primera fórmula calcula la pendiente:
̅̅̅̅
Σ𝑋𝑌−𝑛𝑋𝑌
b=
Σ𝑋 2 −𝑁𝑋 2
Donde:
Donde:
a = ordenada Y.
b = pendiente de la ecuación.
𝑌̅ = media de los valores de la variable dependiente.
𝑋̅= media de los valores de la variable independiente.
Ejemplo: Suponga que la directora del Departamento de Salubridad de Chapel Hill está
interesada en la relación que existe entre la antigüedad de un camión de basura y los
gastos anuales de reparación que debe esperar. Con el fin de determinar esta relación, la
directora ha reunido información de cuatro de los camiones de la ciudad (tabla 21). (Levin
& Rubin, 2004)
71
Tabla No. 23.-” Gastos Anuales de Reparación de Camiones”. (Levin & Rubin, 2004)
El primer paso para calcular la recta de regresión de este problema es organizar los datos
como se resumen en la tabla 22. Esto permite sustituirlos directamente en las ecuaciones
para encontrar la pendiente y la ordenada Y de la recta de regresión de mejor ajuste.
Tabla No. 24.-” Cálculo de los Datos para las Ecuaciones”. (Levin & Rubin, 2004)
Con la información de la tabla No. 24, podemos usar las ecuaciones para la pendiente y
para la ordenada Y con el fin de encontrar las constantes numéricas para la recta de
regresión.
72
La pendiente es:
̅̅̅̅
Σ𝑋𝑌−𝑛𝑋𝑌
b=
Σ𝑋 2 −𝑁𝑋 2
78−(4)(3)(6)
b= = 0.75 ← Pendiente de la línea
44−(4)(3)2
Y la ordenada Y es: a = 𝑌̅ - b𝑋̅ = 6 – (0.75) (3) = 3.75 ← Ordenada Y (Levin & Rubin,
2004)
𝑌̂ = a + bX
= 3.75 + 0.75X
Utilizando esta ecuación de estimación (que podríamos graficar como una recta de
regresión si así lo deseáramos), la directora del Departamento de Salubridad puede
estimar los gastos anuales de reparación, dada la antigüedad de su equipo. Si, por
ejemplo, la ciudad tiene un camión de cuatro años de antigüedad, la directora podría usar
la ecuación para predecir los gastos anuales de reparación para este camión de la
siguiente manera:
𝑌̂ = 3.75 + 0.75X
=3.75 + 0.75 (4)
= 6.75 ← Gastos anuales de reparación esperados
de $675.00
73
Error estándar de la estimación:
El siguiente proceso que debemos aprender en nuestro estudio del análisis de regresión
es cómo medir la confiabilidad de la ecuación de estimación desarrollada. Para medir la
confiabilidad de la ecuación de estimación, los especialistas en estadística han
desarrollado el error estándar de la estimación. Este error estándar se simboliza por Se y
es similar a la desviación estándar. (Levin & Rubin, 2004)
Σ𝑌 2 − 𝑎Σ𝑌 − 𝑏Σ𝑋𝑌
𝑆𝑒 = √
𝑛−2
Donde:
150−(3.75)(24)−(0.75)(78)
𝑆𝑒 = √ = √0.75 = 0.866 ← Error estándar de $86.60
4−2
Como ocurría en el caso de la desviación estándar, mientras más grande sea el error
estándar de la estimación, mayor será la dispersión de los puntos alrededor de la línea de
regresión. De manera inversa, si se 𝑆𝑒 = 0, esperamos que la ecuación de estimación sea
un estimador “perfecto” de la variable dependiente. En ese caso, todos los puntos caerían
directamente sobre la línea de regresión y no habría puntos dispersos alrededor.
74
Intervalos de confianza para la estimación:
Recuerde que los estadísticos aplican los intervalos de confianza para la estimación
basados en la distribución normal (68% para 1Se, 95.5% para 2 Se y 99.7% para 3 Se)
sólo para muestras grandes, esto es, cuando n > 30. En este problema, nuestro tamaño
de muestra es demasiado pequeño (n = 4). Por tanto, nuestras conclusiones son
inexactas. Pero de todos modos el método que hemos utilizado demuestra el principio
involucrado en los intervalos de confianza para la estimación.
Ahora suponga que la directora del Departamento de Salubridad desea tener una
seguridad aproximada del 90% de que los gastos anuales de reparación caerán en el
intervalo de la estimación. ¿Cómo calculamos este intervalo? Como la tabla de
distribución t se concentra en la probabilidad de que el parámetro que estamos estimando
caerá fuera del intervalo de predicción, necesitamos consultar la tabla 23 en la columna
de 100% - 90% = 10%. Una vez localizada la columna, buscamos el renglón para 2
75
grados de libertad; porque n = 4 y sabemos que perdemos 2 grados de libertad (al estimar
los valores de a y b), entonces n - 2 = 2. Encontraremos que el valor apropiado t es 2.920.
Ahora, usando este valor de t, podemos hacer un cálculo más exacto de los límites del
intervalo de la estimación, de la siguiente manera:
Así, la directora puede estar 90% segura de que los gastos anuales de reparación de un
camión de cuatro años de antigüedad estarán entre $422.13 y $927.87. (Levin & Rubin,
2004)
Se debe resaltar que estos intervalos de la estimación es lo que se espera que ocurra. De
hecho, los especialistas en estadística pueden calcular el error estándar exacto para
calcular intervalos de estimación Sp, usando la fórmula:
1 (𝑋0 − 𝑋̅)2
𝑆𝑝 = 𝑆𝑒 √1 + +
̅̅̅̅2
𝑛 Σ𝑋 2 − 𝑛𝑋
Observe que, si usamos esta fórmula, Sp será diferente para cada valor de X0. En
particular, si X0 está lejos de X0, entonces Sp será grande, porque (𝑋 − 𝑋̅)2 será grande.
Si, por otra parte, X0 está cerca de X, y n es moderadamente grande (mayor que 10),
entonces Sp estará cerca de Se. Esto sucede porque 1/n es pequeño y (𝑋0 − 𝑋̅)2 también
lo es. Por tanto, el valor dentro de la raíz cuadrada es cercano a 1, la raíz cuadrada es
aún más cercana a 1 y Sp, estará muy cerca de Se. Esto justifica nuestra utilización de Se
para calcular intervalos de estimación aproximados. (Levin & Rubin, 2004)
76
5.1.2 Modelo de Correlación
El término variación en estos dos casos se utiliza en su sentido estadístico usual para
expresar “la suma de los cuadrados de un grupo de desviaciones”. Usando esta
definición, entonces, es razonable expresar la variación de los valores Y alrededor de la
recta de regresión con esta ecuación:
77
Uno menos la razón entre estas dos variaciones es el coeficiente de determinación
muestral, que se denota por:
Σ(Y − Ŷ )2
r2 = 1 −
Σ(Y − 𝑌̅)2
Si r2 = 1 muestra cuando hay una correlación perfecta. Por tanto, el valor de r 2 = 0 cuando
no hay correlación. Un punto que debemos resaltar es que r2 mide sólo la fuerza de una
relación lineal entre dos variables. (Levin & Rubin, 2004)
aΣY+bΣX−nY ̅2
r calculada por el método corto → r =
2 2
ΣY2 − n𝑌̅ 2
Donde:
El coeficiente de correlación es la segunda medida que podemos usar para describir qué
tan bien explica una variable a otra. Cuando tratamos con muestras, el coeficiente de
correlación de la muestra se denota por r y es la raíz cuadrada del coeficiente de
determinación de muestra: r = √𝑟.
El signo de r indica la dirección de la relación entre las dos variables X e Y. Si existe una
relación inversa, esto es, si Y disminuye al aumentar X, entonces r caerá entre 0 y -1. De
78
manera similar, si existe una relación directa (si Y aumenta al aumentar X), entonces r
será un valor en el intervalo de 0 a 1. (Levin & Rubin, 2004)
79
BIBLIOGRAFÍA Y FUENTES CONSULTADAS
80
Venereo Bravo, A. (2016). Estadística Aplicada a las Ciencias Económicas y
Administrativas. Manta: Mar Abierto.
81