INTEGRANTES:
longitud.
Series Simples:
Una serie simple es un conjunto pequeo de datos. Si la cantidad de observaciones que
conforman la serie es n, podemos indicarlos como x. Ejemplo: Con los datos dados,
calcular: Media Aritmtica, Varianza, Desviacin Tpica, Mediana, Cuartiles 1 y 3,
Centiles 10 y 90, Coeficiente de Curtosis, Sesgo, Coeficiente de Variacin. A la
siguiente serie simple:
Datos: 54671215498725524
Se construye una tabla con 3 columnas as: Primera columna: los datos debidamente
ordenados ( x) ; Segunda Columna: diferencia entre cada dato y la media aritmtica (x
media); Tercera Columna: Diferencias elevadas al cuadrado ( x media)2.
X
(X Media)
Proceso:
1) Calcular la media
2) Calcular las diferencias
3) Determinar los cuadrados
(X Media)2
12
-55
3,025
24
-43
1,849
54
-13
169
55
-12
144
67
0
0
72
+5
25
98
+31
961
154
+87
7,569
536
13,742
Media: X = X / N = 536 / 8 = 67
Varianza: ((X Media)2 /(N 1) = 13,742 / (8 1) = 1,963.14
Desviacin Estndar: = V
= 1, 963.14
= 44.307 = 44.31
Mediana: P = (N + 1) / 2 = (8 + 1) / 2 = 4.5este valor slo indica la posicin de
la mediana, se localiza en la primera columna, la posicin 4.5, est entre los datos 55 y
67, entonces se realiza una semisuma de estos valores: md = (55 + 67) / 2 = 61
Cuartiles: Qi = (i . N) / 4 ; en este proceso, la letra i representa al cuartil que se busca:
Cuartil 1: Q1 = (1 x 8) / 4 = 2, como el conteo de la posicin 2 en la primera columna
est exactamente sobre 24, se hace una semisuma con el dato que sigue:
Q1 = (24 + 54) / 2 = 39
Cuartil 3: Q3 = (3 x 8)/ 4 = 6, esta posicin est en 72, entonces: Q3 = (72 + 98) / 2 = 85
Centiles: el clculo se efecta de forma similar a los cuartiles, la frmula es Ci =
(i.N)/100
Centil 10: C10 = (10 x 8)/100 = 0.8..en la lectura se aproxima al dato que aparece
en la posicin 1, entonces: C10 = 12
Centil 90: C90 = (90 x 8)/100 = 7.20se aproxima a la posicin 8, entonces C90 =
154
Coeficiente de Curtosis : Q /(C90 C10) , se calcula primero el valor de Q.
Q es el Coeficiente intercuartil o amplitud semi-intercuertlica, se calcula con la frmula
siguiente:
Q =(Q3 Q1)/2 = (85 39)/2 = 23
Luego: k = 23/(154 12) = 0.161 = 0.16
Sesgo: S = 3(Media Mediana)/Desviacin estndar, es decir: S = 3(X md)/
= 3(67 61)/44.31 = 0.406 = 0.41
Coeficiente de Variacin: ( / x).100 = (44.31/67).100 = 66.13%
Series de Frecuencia:
Cuando realizamos un estudio de cada uno de los elementos que componen la poblacin
o muestra bajo anlisis, observamos que en general, hay un nmero de veces en que
aparece repetido un mismo valor de una variable, o bien repeticiones de la misma
modalidad de un atributo. Este nmero de repeticiones de un resultado, recibe el nombre
de frecuencia absoluta o simplemente frecuencia.
El procedimiento mediante el cual se realiza el conteo, para as determinar el nmero de
veces que cada dato se repite, recibe el nombre de tabulacin.
Al agrupar los resultados de las observaciones en trmino de las veces que stos
se repiten, da lugar a las llamadas "series de frecuencias" o distribuciones de
frecuencias; las cuales se dividen a su vez en series de frecuencias cualitativas y
cuantitativas, segn que los caracteres de estudio se refieran a atributos o variables
respectivamente.
Series de frecuencia acumulativa: son comnmente llamadas series de frecuencia de
atributos o caracteres cualitativos y las formas de representar un atributo recibe el
nombre de modalidades.
Cuando se observan y se obtienen los elementos que deseamos estudiar con
respecto a un carcter de tipo cualitativo y se procede a agruparlos segn las distintas
modalidades que toma el atributo, "frecuencia cualitativa Ejemplo:
Agrupamos los resultados obtenidos al observar los 35 estudiantes de la materia
estadstica I, respecto a su estado civil. Estudiantes de la materia Estadsticas I,
clasificados por su estado civil.
Estado civil
N de Estudiantes (frecuencia)
Solteros
18
Casados
12
Viudos
1
Divorciados
4
Series de frecuencias cualitativas: es el resultado del agrupamiento de los valores que
se repiten (frecuencia) al ser observada una variable Ejemplo:
Tomamos nuevamente los 35 estudiantes de la materia estadstica I, respecto a su edad.
Edad (en aos)
N de estudiantes (frecuencia)
19
12
20
2
25
8
28
6
32
4
42
3
Total = 35
REGRESION LINEAL
Datos. Las variables dependientes e independientes deben ser cuantitativas. Las
variables categricas, como la religin, estudios principales o el lugar de residencia, han
de recodificarse como variables binarias (dummy) o como otros tipos de variables de
contraste.
Supuestos. Para cada valor de la variable independiente, la distribucin de la variable
dependiente debe ser normal. La varianza de distribucin de la variable dependiente
debe ser constante para todos los valores de la variable independiente. La relacin entre
la variable dependiente y cada variable independiente debe ser lineal y todas las
observaciones deben ser independientes.
Estadsticos. Para cada variable: nmero de casos vlidos, media y desviacin tpica.
Para cada modelo: coeficientes de regresin, matriz de correlaciones, correlaciones
parciales y semiparciales, R mltiple, R cuadrado, R cuadrado corregida, cambio en R
cuadrado, error tpico de la estimacin, tabla de anlisis de la varianza, valores
pronosticados y residuos. Adems, intervalos de confianza al 95% para cada coeficiente
de regresin, matriz de varianza-covarianza, factor de inflacin de la varianza,
tolerancia, prueba de Durbin-Watson, medidas de distancia (Mahalanobis, Cook y
valores de influencia), DfBeta, DfAjuste, intervalos de prediccin y diagnsticos por
caso. Diagramas: diagramas de dispersin, grficos parciales, histogramas y grficos
de probabilidad normal.
Grficos. Los grficos pueden ayudar a validar los supuestos de normalidad, linealidad
e igualdad de las varianzas. Tambin son tiles para detectar valores atpicos,
observaciones poco usuales y casos de influencia. Tras guardarlos como nuevas
variables, dispondr en el Editor de datos de los valores pronosticados, los residuos y
otros valores diagnsticos, con los cuales podr poder crear grficos respecto a las
variables independientes. Se encuentran disponibles los siguientes grficos:
Diagramas de dispersin. Puede representar cualquier combinacin por parejas de la
lista siguiente: la variable dependiente, los valores pronosticados tipificados, los
residuos tipificados, los residuos eliminados, los valores pronosticados corregidos, los
residuos estudentizados o los residuos eliminados estudentizados. Represente los
residuos tipificados frente a los valores pronosticados tipificados para contrastar la
linealidad y la igualdad de las varianzas.
Generar todos los grficos parciales. Muestra los diagramas de dispersin de los
residuos de cada variable independiente y los residuos de la variable dependiente
cuando se regresan ambas variables por separado sobre las restantes variables
independientes. En la ecuacin debe haber al menos dos variables independientes para
que se generen los grficos parciales.
REGRESIN CURVILNEA
Se considerar primero el caso en que la graficacin en una escala adecuada
puede ser lineal. Por ejemplo, si un conjunto de parejas de datos que conste de n puntos
(xi, yi) "se enderezan" cuando son graficados sobre ejes escalados adecuadamente. E
este caso, al ser representados sobre papel semilogartmico, indican que la curva de
regresin de y sobre x es exponencial, es decir para cualquier x considerada, la media de
la distribucin est dada por la siguiente ecuacin predictora y = . x, tomando
logaritmos en ambos miembros: log y ( ) log() + x log () y se puede estimar ahora
log() y log(), y de ah obtener y , aplicando los mtodos anteriores a los n pares de
valores [xi ,log(yi)].
Distinguir entre variable dependiente e independiente
elementales de una lnea de ajuste y, por lo tanto, de una correlacin, son la fuerza, el
sentido y la forma:
Este coeficiente es una medida de asociacin lineal que utiliza los rangos, nmeros de
orden, de cada grupo de sujetos y compara dichos rangos. Existen dos mtodos para
calcular el coeficiente de correlacin de los rangos: uno, sealado por Spearman y otro,
por Kendall. El r de Spearman llamado tambin rho de Spearman es ms fcil de
calcular que el de Kendall. Frmula:
Talla Peso
1,68 68
1,89 70
1,75 80
1,56 45
1,48 48
Al convertirlas en una escala ordinal, obtendramos los resultados:
Talla Peso
33
54
45
21
12
El primer valor de talla (en este caso 1,68) se convierte en 3, porque el 1,68 es el tercer
valor ms pequeo de la talla. El valor en peso de 45 se convierte en 1, porque es el
menor Luego se calculan las diferencias de rangos
didi2
3-3 0
5-4 1
4-5 1
2-1 1
1-2 1
-------4
Sustituyendo
Interpretacin: En la muestra observada los valores de talla y peso tienen una
correlacin entre fuerte y perfecta, lo que se traduce que en la medida que aumentan los
valores de la talla tambin aumentan los del peso y viceversa.
MEDIDAS DE CURTOSIS
Tipos De Curtosis
MEDIDA DE FISHER
El coeficiente de asimetra de Fisher CAF evala la proximidad de los datos a
su media x. Cuanto mayor sea la suma (xi-x)3, mayor ser la asimetra. Sea el
conjunto X=(x1, x2,, xN), entonces la frmula de la asimetra de Fisher es:
915,0625
39,0625
39,0625
12
0,0625
12
0,0625
12
0,0625
15
150,0625
17
915,0625
Total
2058,5
Para calcular los cuartiles y percentiles se ordena los datos de menor a mayor:
6
12 12 12 15 17
Como a= 2,23 y
la distribucin es platicrtica