PROFESOR:
JAIRO PINEDA AGUDELO
Introducción
Una de las herramientas mas importante con las que se cuenta para el análisis de datos
es la estadista, ciencia que recopila, organiza, procesa, analiza e interpretar datos con el
fin de deducir las características de una población objetiva. En el presente escrito se va a
realizar un análisis de una determinada población de la cual queremos indagar sobre sus
características como identidad de género, estatura, peso y otras distinciones más
individuales como son algunas aficiones en particular, este análisis se va a hacer con
medidas de tendencia central, además de eso medidas de variabilidad y análisis de
cuantiles.
Objetivos de trabajo
Observació Estatura
n Genero Afición Peso (m)
1 1 1 70 1.68
2 2 1 59 1.62
3 1 3 61 1.78
4 1 3 81 1.86
5 1 1 59 1.7
6 2 2 45 1.66
7 2 3 60 1.6
8 2 1 60 1.63
9 2 2 58 1.63
10 1 3 55 1.68
11 1 3 56 1.78
12 1 3 60 1.74
13 1 3 67 1.7
14 1 3 66 1.65
15 1 2 60 1.7
16 2 2 50 1.58
17 2 2 49 1.56
18 2 4 40 1.6
19 1 2 65 1.62
20 1 1 30 1.48
21 1 3 63 1.76
22 1 3 62 1.75
23 1 3 80 1.75
24 1 3 55 1.74
25 1 2 57 1.71
26 1 1 60 1.78
27 1 1 82 1.8
28 1 3 85 1.82
29 1 2 76 1.77
30 1 2 63 1.78
31 2 4 54 1.55
32 2 4 59 1.66
33 2 3 65 1.64
Como primera medida se deben organizar los datos presentados en el lenguaje manejado
por R.
genero=c(1,2,1,1,1,2,2,2,2,1,1,1,1,1,1,2,2,2,1,1,1,1,1,1,1,1,1,1,1,1,2,2,2)
summary(genero)
summary(genero)
aficion=c(1,1,3,3,1,2,3,1,2,3,3,3,3,3,2,2,2,4,2,1,3,3,3,3,2,1,1,3,2,2,4,4,3)
aficion=c(aficion,lavels =c("1","2","3","4"),labels=c("musica","lectura","deporte","baile"))
peso=c(70,59,61,81,59,45,60,60,58,55,56,60,67,66,60,50,49,40,65,30,63,62,80,55,57,60,82,85,
76,63,54,59,65)
estatura=c(1.68,1.62,1.78,1.86,1.70,1.66,1.60,1.63,1.63,1.68,1.78,1.74,1.70,1.65,1.70,1.58,1.56
,1.60,1.62,1.48,1.76,1.75,1.75,1.74,1.71,1.78,1.80,1.82,1.77,1.78,1.55,1.66,1.64)
dat=data.frame(genero,aficion,peso,estatura)
%% un data frame guarda de estos datos como un arreglo matricial; esto facilita la
manipulación.
El código en R que nos arroja los valores de estas medidas de tendencia central
Media Aritmética
map=mean(peso)
mae=mean(estatura)
mdar=c(map,mae)
mdar
Mediana
median(peso)
Moda
mg=modes::modes(genero)
mg
La moda entre los géneros del grupo de estudiantes es el género masculino que se repite 22 veces
mf=modes::modes(aficion)
mf
La moda entre las aficciones de los estudiantes el el deporte con un numero de repiticiones de datos
de 14 veces
mp=modes::modes(dat$peso)
mp
Medidas de variabilidad
Las medidas de variabilidad nos indican sobre el grado de concentración o dispersión que
presentan los datos respecto a su promedio. Estas características que presenta los datos
se calculan con las siguientes herramientas.
Rango
Es la diferencia entre el dato con el máximo valor y el dato con el mínimo valor
Varianza
Representa la variabilidad de una serie de datos respecto a su medida.
Desviación estándar
Indica que tan dispersos están los datos con respecto a la media
Coeficiente de variación
Es una representación de cómo es la desviación típica que posee una muestra con
respecto a su media.
rest=range(estatura)
rango_de_pesos=c(30,85)
summary(rangp<-as.data.frame(rango_de_pesos))
Varianza
vp=var(peso)*(32/33)
El valor encontrado para la varianza en cuanto al peso está dado por 130.2112; este
valor se podrá interpretar como la dispersión de los datos en cuanto al peso de cada
integrante del grupo de estudiantes
boxplot(peso,main="Boxplot de peso")
ve=var(estatura)*(32/33)
El valor de varianza encontrado para la lista de datos la estatura tiene un valor en
0.007469605, lo cual indica que la altura en el grupo posee un factor de alta
correlación o poca dispersión, por lo tanto, la altura en el grupo de estudiantes es
uniforme
boxplot(estatura,main="Boxplot de estatura")
Desviación Estándar
dep=sd(peso)*(32/33)
dest=sd(estatura)*(32/33)
Coeficiente de variación
y=sd(peso)
x=mean(peso)
coefvarpes=(y/x)
cevpes=coefvarpes*100
z=sd(estatura)
w=mean(estatura)
coefvaspest=(z/w)
coefest=coefvaspest*100
Medidas de posición
Las medidas de posición dividen una distribución ordenada en partes iguales, y requieren
que los datos estén ordenados de menor a mayor.
Los Cuartiles
Los cuartiles corresponden a los valores que tiene una variable y que cumplen con
la función de dividir los datos ordenados en cuartos o cuatro partes con igual valor
porcentual. Se distinguen en principio tres cuartiles, que se denotan regularmente con la
letra Q: Q1, Q2 y Q3.
Los Deciles
Los Deciles constituyen otro tipo de Medidas de Posición, conformados por ciertos valores
que dividen la sucesión de datos que han sido ordenadas en diez partes, que son
equitativas porcentualmente hablando. Ellos se denotan de la siguiente forma: D1, D2,
D3…D9.
Percentiles
Son definidos como ciertos valores que dividen en cien partes idénticas porcentualmente
hablando los datos que han sido ordenados de forma sucesiva de menor a mayor. En
cuanto a su denotación, ésta corresponde a la forma P1, P2…. Pn.
Cuartiles
summary(peso)
Los cuartiles dividen este grupo en grupos menores de 8 personas teniendo en cuenta
su peso para ordenarlos así: en el primer cuartil encuentran las personas que pesan
entre 30 y 56Kg, la media está localizada 60Kg, el tercer cuartil esta entre 60.97Kg y
65Kg y el ultimo cuartil se ubica entre 65Kg y el máximo que es 85Kg.
summary(estatura)
Los cuartiles de estatura estan ubicados asi:el primer cuartil abarca desde el minimo
1.48m y 1.63m el segundo cuantil esta entre 1.63 y 1.69m, la media esta ubicada en
1,70m,el tercer cuartil se ubica entre 1.69 y 1.76m y el cuarto cuartil se ubica entre
1.76 y el maximo 1.86m
Deciles
quantile(peso,prob =seq(0,1,length=8) )
El primer cuartilse encuentran las personas que pesan entre 30 y 56Kg,la media está
localizada 60Kg, el tercer cuartil esta entre 60.97Kg y 65Kg y el ultimo cuartil se ubica
entre 65Kg y el maximo que es 85Kg.
quantile(estatura,prob=seq(0,1,length=8))
Los cuartiles de estatura están ubicados así: el primer cuartil abarca desde el mínimo
1.48m y 1.63m el segundo cuantil esta entre 1.63 y 1.69m, la media está ubicada en
1,70m,el tercer cuartil se ubica entre 1.69 y 1.76m y el cuarto cuartil se ubica entre
1.76 y el máximo 1.86m
Percentiles
quantile(peso,prob=seq(0,1,length=101))
Los percentiles de peso están ubicados de manera gradual ascendente para cada
valor de porcentaje existe un valor calculado que representa el porcentaje del rango
de pesos comprendidos entre el mintermino y el maxtermino. desde 0 hasta 100 con
n=n+1
quantile(estatura,prob=seq(0,1,length=101))
Los percentiles de estatura están ubicados de manera gradual ascendente para cada
valor de porcentaje existe un valor calculado que representa el porcentaje del rango
de estaturas comprendidas entre el mintermino y el maxtermino. desde 0 hasta 100
con n=n+1
Mediana(mitad)
La mediana dentro del mundo de las estadísticas y probabilidades se refiere a un grupo o
conjunto de datos que se encuentran en el medio, teniendo una parte de los datos por
debajo y la otra por encima, por esta razón se denomina mediana.
median(peso)
60
median(estatura)
1.7
Las medidas de forma son necesarias para determinar el comportamiento de los datos
y así, poder adaptar herramientas para el análisis probabilístico. Medidas de forma:
Son indicadores estadísticos que permiten identificar si una distribución de frecuencia
presenta uniformidad.
Asimetría
function(x,na.rm=FALSE)
if(is.matrix(x))
apply(x,2,skewness,na.rm=na,rm)
else if(is.vector(x)){
x<-x[!is.na(x)]
n<-length(x)
(sum((x-mean(x))^3)/n)/(sum((x-mean(x)))^2/n)^(3/2)
}
else if(is.data.frame(x))
sapply(x,skewness,na.rm=na.rm)
else skewness(as.vector(x),na.rm=na.rm)
aspeso=moments::skewness(dat$peso)
Curtosis
cp=moments::kurtosis(dat$peso,na.rm = FALSE)
La curtosis de los datos para el peso es de 3.754346 por lo que podemos interpretar
que los pesos de los estudiantes no están en una alta concentración para un valor
determinado.
cest=moments::kurtosis(dat$estatura,na.rm = FALSE)
La curtosis definida para la estatura está definida en 2.500159, lo que indica que la
concentración de los datos de la estatura es baja, por lo que interpretamos que las
estaturas del grupo se distribuyen de forma irregular, no homogénea.
VARIABLES CUALITATIVAS.
GENERO: variable cualitativa que describe el género sexual de cada integrante de la
lista para el género se definieron parámetros como la moda. Describe cada miembro
del grupo y sus peculiaridades en género y afición.
genero=c(1,2,1,1,1,2,2,2,2,1,1,1,1,1,1,2,2,2,1,1,1,1,1,1,1,1,1,1,1,1,2,2,2)
genero=factor(genero,levels=c("1","2"),labels = c("hombre","mujer"))
genero
mg
moda_de_genero=mg
AFICION:
variable cualitativa que asigna una afición a cada hombre o mujer, en base a cuatro
factores música, deporte, lectura, baile estos datos, permiten hacer un análisis
exploratorio, por lo cual tiene sentido calcular la moda para esta variable.
aficion=c(1,1,3,3,1,2,3,1,2,3,3,3,3,3,2,2,2,4,2,1,3,3,3,3,2,1,1,3,2,2,4,4,3)
aficion=factor(aficion,levels=c(1,2,3,4),labels=c("musica","lectura","deporte","baile")
)
aficion
mf
moda_de_aficiones=mf
modas=data.frame(moda_de_genero,moda_de_aficiones)
modas
EL ANALISIS DE RESULTADOS: se puede concluir que son más abundantes los hombres
en el grupo de estudiantes y que además la mayor afición en el grupo marca
tendencia representativa haciendo énfasis en el deporte.
VARIABLES CUANTITATIVAS
Estas variables nos permiten conocer datos numéricos tales como la mediana, el
promedio, la desviación estándar, también nos permite hacer graficas como
histogramas.
Peso variable: variable cuantitativa que le asigna un peso diferente a cada hombre
o mujer del grupo de estudiantes
peso=c(70,59,61,81,59,45,60,60,58,55,56,60,67,66,60,50,49,40,65,30,63,62,80,55,57,
60,82,85,76,63,54,59,65)
peso
Estatura variable: esta variable cuantitativa nos permite asignarle una estatura a cada
integrante de este grupo
estatura=c(1.68,1.62,1.78,1.86,1.70,1.66,1.60,1.63,1.63,1.68,1.78,1.74,1.70,1.65,1.70,1.58,1.56,
1.60,1.62,1.48,1.76,1.75,1.75,1.74,1.71,1.78,1.80,1.82,1.77,1.78,1.55,1.66,1.64)
estatura
https://economipedia.com/definiciones/curtosis.html
https://www.webyempresas.com/mediana-estadistica-definicion-y-formula/