Anda di halaman 1dari 20

PROBABILIDAD Y ESTADISTICA CON EL PROGRAMA R STUDIO

DAVID LEANDRO GAITAN GUERRERO


CODIGO:0317524
JEFERSON SNEIDER ORTEGA VEGA
CODIGO:0317058

TRABAJO DE PROBABILIDAD Y ESTADISTICA

PROFESOR:
JAIRO PINEDA AGUDELO
Introducción
Una de las herramientas mas importante con las que se cuenta para el análisis de datos
es la estadista, ciencia que recopila, organiza, procesa, analiza e interpretar datos con el
fin de deducir las características de una población objetiva. En el presente escrito se va a
realizar un análisis de una determinada población de la cual queremos indagar sobre sus
características como identidad de género, estatura, peso y otras distinciones más
individuales como son algunas aficiones en particular, este análisis se va a hacer con
medidas de tendencia central, además de eso medidas de variabilidad y análisis de
cuantiles.
Objetivos de trabajo

 Reforzar los conocimientos adquiridos de estadística durante el tiempo académico,


empleando un problema practico de análisis de datos.

 Incentivar el trabaja en equipo como eje fundamental en un desarrollo académico


fortaleciendo lazos de cooperación.

 Desarrollar habilidades para la interpretación de resultados, ya que estas son


determinantes al momento de tomar decisiones.

 Utilizar las herramientas de la estadística descriptica para ver el comportamiento


de un conjunto de datos respecto a un eje central, o una información específica.

 Mejorar la comprensión de hechos a partir de datos suministrados.


Marco Teórico
El análisis de datos a cobrado gran importancia en el mundo contemporáneo, ya que las
tecnologías de la información y la comunicación han hecho que la generación de esta
cresa a un ritmo exponencial. Estas nuevas dinámicas han hecho que corporativos
aprovechen algo que para el común de la población no tiene valor, para transformar datos
en información, y esta a su vez en capital. De ese modo se hace necesario ser participe
de esta nueva trasformación sociocultural, para este fin de debe tener el conocimiento de
herramientas que cataloguen los datos, los clasifique y permitan un óptimo destino final
estos, el cual consiste en la toma de decisiones; La estadística descriptiva tiene uso en
casi todas las áreas donde se recopilen datos cuantitativos. Brinda información acerca de
productos, procesos o diversos aspectos de un sistema de gestión de calidad
herramientas como las medidas de tendencia central, variabilidad, partición o de forma
establecen las principales propiedades de los datos observados, así como las carteristas
clave de los fenómenos bajo investigación. Pero en una sociedad tan variable y con un
volumen de información tan grande se requiere de herramientas computacionales que
permitan obtener los resultados del análisis estadístico de manera inmediata.
Para este trabajo se va a disponer de la herramienta computacional R, ya que este es un
software de referencia en el mundo de la estadística y líder en la ciencia de datos; se va a
analizar una muestra de 33 estudiantes, cuyos datos cualitativos serán género, afición,
peso y estatura y así conocer algunos patrones que van a distinguir a todos y cada uno de
los miembros de la población.
Tabla de datos

Observació Estatura
n Genero Afición Peso (m)
1 1 1 70 1.68
2 2 1 59 1.62
3 1 3 61 1.78
4 1 3 81 1.86
5 1 1 59 1.7
6 2 2 45 1.66
7 2 3 60 1.6
8 2 1 60 1.63
9 2 2 58 1.63
10 1 3 55 1.68
11 1 3 56 1.78
12 1 3 60 1.74
13 1 3 67 1.7
14 1 3 66 1.65
15 1 2 60 1.7
16 2 2 50 1.58
17 2 2 49 1.56
18 2 4 40 1.6
19 1 2 65 1.62
20 1 1 30 1.48
21 1 3 63 1.76
22 1 3 62 1.75
23 1 3 80 1.75
24 1 3 55 1.74
25 1 2 57 1.71
26 1 1 60 1.78
27 1 1 82 1.8
28 1 3 85 1.82
29 1 2 76 1.77
30 1 2 63 1.78
31 2 4 54 1.55
32 2 4 59 1.66
33 2 3 65 1.64

Para Genero: 1) representa al género masculino; 2) representa el género femenino.


Para la columna de afición 1) Música; 2) Lectura; 3) Deporte; 4) Baile.

Como primera medida se deben organizar los datos presentados en el lenguaje manejado
por R.
genero=c(1,2,1,1,1,2,2,2,2,1,1,1,1,1,1,2,2,2,1,1,1,1,1,1,1,1,1,1,1,1,2,2,2)

genero=factor(genero,levels = c("1","2"),labels= c("hombre","mujer"))

summary(genero)

summary(genero)

aficion=c(1,1,3,3,1,2,3,1,2,3,3,3,3,3,2,2,2,4,2,1,3,3,3,3,2,1,1,3,2,2,4,4,3)

aficion=c(aficion,lavels =c("1","2","3","4"),labels=c("musica","lectura","deporte","baile"))

peso=c(70,59,61,81,59,45,60,60,58,55,56,60,67,66,60,50,49,40,65,30,63,62,80,55,57,60,82,85,
76,63,54,59,65)

estatura=c(1.68,1.62,1.78,1.86,1.70,1.66,1.60,1.63,1.63,1.68,1.78,1.74,1.70,1.65,1.70,1.58,1.56
,1.60,1.62,1.48,1.76,1.75,1.75,1.74,1.71,1.78,1.80,1.82,1.77,1.78,1.55,1.66,1.64)

dat=data.frame(genero,aficion,peso,estatura)

%% un data frame guarda de estos datos como un arreglo matricial; esto facilita la
manipulación.

Medidas de Tendencia central


Las características globales de un conjunto de datos estadísticas se pueden resumir
mediante una serie de cantidades numéricas representativas llamadas parámetros
estadísticos. Entre ellas las medidas de tendencia central, como la media aritmética, la
moda o la mediana, ayudan a conocer de forma aproximada el comportamiento de una
distribución estadística.
Media aritmética
Se define como la suma aritmética de valores dividido entre el numero de datos,
representada como.
Mediana
Representa el valor de la variable de posición central en un conjunto de datos ordenados
Moda
Es el valor con mayor frecuencia en una distribución de datos.

El código en R que nos arroja los valores de estas medidas de tendencia central
Media Aritmética
map=mean(peso)

El promedio de peso del grupo de estudiantes de la UNAL es de 60,97Kg

mae=mean(estatura)

El promedio de estatura del grupo de estudiantes de la Unal es de 1.69m

mdar=c(map,mae)

mdar

barplot(height = c(map,mae),plot = TRUE,axes = TRUE,xlab = "mediana peso vs estatura",col =


"blue" )

Grafica mediana Vs estatura

Mediana
median(peso)

El promedio de peso entre los dos estudiantes en la mitad de la lista es de 60kg

hist(peso,freq = FALSE,col= "yellow",ylim =c(0,0.1),main="Histograma del peso")


median(estatura)

El promedio de estatura de los estudiantes es de 1.7m

hist(estatura,freq = FALSE,col = "purple",ylim = c(0,5),main = "Histograma de estatura")

Moda
mg=modes::modes(genero)

mg

La moda entre los géneros del grupo de estudiantes es el género masculino que se repite 22 veces

mf=modes::modes(aficion)

mf

La moda entre las aficciones de los estudiantes el el deporte con un numero de repiticiones de datos
de 14 veces

mp=modes::modes(dat$peso)

mp

La moda en la variable del peso es de 60Kg con una repetición de 5 veces

Medidas de variabilidad
Las medidas de variabilidad nos indican sobre el grado de concentración o dispersión que
presentan los datos respecto a su promedio. Estas características que presenta los datos
se calculan con las siguientes herramientas.
Rango
Es la diferencia entre el dato con el máximo valor y el dato con el mínimo valor
Varianza
Representa la variabilidad de una serie de datos respecto a su medida.

Desviación estándar
Indica que tan dispersos están los datos con respecto a la media

Coeficiente de variación
Es una representación de cómo es la desviación típica que posee una muestra con
respecto a su media.

El código en R que nos arroja estos valores es.


Rango
rp=range(peso)

El peso de los estudiantes tiene una variación entre 30Kg y 85Kg

rest=range(estatura)

El rango de estatura esta estre 1.48m y 1,86m

rango_de_pesos=c(30,85)

summary(rangp<-as.data.frame(rango_de_pesos))

rp=barplot(height = c(30,85),space = 2,xlab = "Rango de peso",col = "pink")


rp=barplot(height = c(1.48,1.86),xlab = "Rango de estatura",col="red")

Varianza
vp=var(peso)*(32/33)

El valor encontrado para la varianza en cuanto al peso está dado por 130.2112; este
valor se podrá interpretar como la dispersión de los datos en cuanto al peso de cada
integrante del grupo de estudiantes

boxplot(peso,main="Boxplot de peso")

ve=var(estatura)*(32/33)
El valor de varianza encontrado para la lista de datos la estatura tiene un valor en
0.007469605, lo cual indica que la altura en el grupo posee un factor de alta
correlación o poca dispersión, por lo tanto, la altura en el grupo de estudiantes es
uniforme

boxplot(estatura,main="Boxplot de estatura")

Desviación Estándar
dep=sd(peso)*(32/33)

La desviación estándar de los datos respecto al peso es de 11.23679

dest=sd(estatura)*(32/33)

La dispersión de datos en el grupo de la estatura es de 0,08510731

Coeficiente de variación
y=sd(peso)

x=mean(peso)

coefvarpes=(y/x)

cevpes=coefvarpes*100

El coeficiente de varianza representado en un porcentaje de 19%, describe la


correlación de forma comparativa para cada estudiante perteneciente al grupo en
cuanto a la variable de peso

z=sd(estatura)

w=mean(estatura)

coefvaspest=(z/w)

coefest=coefvaspest*100

El coeficiente de variación representado como el 5.19424%, establece la correlación


de dispersión en forma comparativa para cada estudiante del grupo en cuanto al
factor de estatura
boxplot(coefest,cevpes,main="coeficiente de varianza",xlab="Estatura, Peso")

Medidas de posición
Las medidas de posición dividen una distribución ordenada en partes iguales, y requieren
que los datos estén ordenados de menor a mayor.
Los Cuartiles
Los cuartiles corresponden a los valores que tiene una variable y que cumplen con
la función de dividir los datos ordenados en cuartos o cuatro partes con igual valor
porcentual. Se distinguen en principio tres cuartiles, que se denotan regularmente con la
letra Q: Q1, Q2 y Q3.

Los Deciles
Los Deciles constituyen otro tipo de Medidas de Posición, conformados por ciertos valores
que dividen la sucesión de datos que han sido ordenadas en diez partes, que son
equitativas porcentualmente hablando. Ellos se denotan de la siguiente forma: D1, D2,
D3…D9.

Percentiles
Son definidos como ciertos valores que dividen en cien partes idénticas porcentualmente
hablando los datos que han sido ordenados de forma sucesiva de menor a mayor. En
cuanto a su denotación, ésta corresponde a la forma P1, P2…. Pn.

Para encontrar estos valores en R se construyó el siguiente código.

Cuartiles
summary(peso)

Los cuartiles dividen este grupo en grupos menores de 8 personas teniendo en cuenta
su peso para ordenarlos así: en el primer cuartil encuentran las personas que pesan
entre 30 y 56Kg, la media está localizada 60Kg, el tercer cuartil esta entre 60.97Kg y
65Kg y el ultimo cuartil se ubica entre 65Kg y el máximo que es 85Kg.

summary(estatura)

Los cuartiles de estatura estan ubicados asi:el primer cuartil abarca desde el minimo
1.48m y 1.63m el segundo cuantil esta entre 1.63 y 1.69m, la media esta ubicada en
1,70m,el tercer cuartil se ubica entre 1.69 y 1.76m y el cuarto cuartil se ubica entre
1.76 y el maximo 1.86m

Deciles
quantile(peso,prob =seq(0,1,length=8) )

El primer cuartilse encuentran las personas que pesan entre 30 y 56Kg,la media está
localizada 60Kg, el tercer cuartil esta entre 60.97Kg y 65Kg y el ultimo cuartil se ubica
entre 65Kg y el maximo que es 85Kg.

quantile(estatura,prob=seq(0,1,length=8))

Los cuartiles de estatura están ubicados así: el primer cuartil abarca desde el mínimo
1.48m y 1.63m el segundo cuantil esta entre 1.63 y 1.69m, la media está ubicada en
1,70m,el tercer cuartil se ubica entre 1.69 y 1.76m y el cuarto cuartil se ubica entre
1.76 y el máximo 1.86m

Percentiles
quantile(peso,prob=seq(0,1,length=101))

Los percentiles de peso están ubicados de manera gradual ascendente para cada
valor de porcentaje existe un valor calculado que representa el porcentaje del rango
de pesos comprendidos entre el mintermino y el maxtermino. desde 0 hasta 100 con
n=n+1

quantile(estatura,prob=seq(0,1,length=101))
Los percentiles de estatura están ubicados de manera gradual ascendente para cada
valor de porcentaje existe un valor calculado que representa el porcentaje del rango
de estaturas comprendidas entre el mintermino y el maxtermino. desde 0 hasta 100
con n=n+1

Mediana(mitad)
La mediana dentro del mundo de las estadísticas y probabilidades se refiere a un grupo o
conjunto de datos que se encuentran en el medio, teniendo una parte de los datos por
debajo y la otra por encima, por esta razón se denomina mediana.

En estadística es muy utilizado el promedio y para ello es necesario conocer


conceptos como la media, la mediana y la moda. Todos estos son puntos de vista o
formas de observar los datos obtenidos a través de un estudio estadístico, pueden
medirse y por esta razón son indispensables en cualquier estudio o proyecto.

median(peso)

60

median(estatura)

1.7

MEDIDAS DE FORMA: ASIMETRIA Y CURTOSIS

Las medidas de forma son necesarias para determinar el comportamiento de los datos
y así, poder adaptar herramientas para el análisis probabilístico. Medidas de forma:
Son indicadores estadísticos que permiten identificar si una distribución de frecuencia
presenta uniformidad.

Asimetría

Es una medida de forma de una distribución que permite identificar y describir


la manera como los datos tiende a reunirse de acuerdo con la frecuencia con que se
hallen dentro de la distribución. Permite identificar las características de la
distribución de datos sin necesidad de generar el gráfico

function(x,na.rm=FALSE)

if(is.matrix(x))

apply(x,2,skewness,na.rm=na,rm)

else if(is.vector(x)){

x<-x[!is.na(x)]

n<-length(x)

(sum((x-mean(x))^3)/n)/(sum((x-mean(x)))^2/n)^(3/2)
}

else if(is.data.frame(x))

sapply(x,skewness,na.rm=na.rm)

else skewness(as.vector(x),na.rm=na.rm)

calculando la asimetría de los datos consignados, para ello implementamos el


paquete install.packages(moments)

aspeso=moments::skewness(dat$peso)

boxplot(aspeso,main="Asimetria del peso")

La asimetría de los datos se define en un valor de -0.437,el valor negativo


quiere decir que la tendencia de datos esta acumulada hacia el lado izquierdo
de los datos con respecto a una línea de simetría, esto quiere decir que los
primeros datos de estatura con respecto a los estudiantes que se obtuvieron
son muy diferentes a los que se obtuvieron al final de la toma de datos.

Curtosis

La curtosis (también conocida como medida de apuntamiento) es una medida


estadística, que determina el grado de concentración que presentan los
valores de una variable alrededor de la zona central de la distribución de
frecuencias.

cp=moments::kurtosis(dat$peso,na.rm = FALSE)
La curtosis de los datos para el peso es de 3.754346 por lo que podemos interpretar
que los pesos de los estudiantes no están en una alta concentración para un valor
determinado.

cest=moments::kurtosis(dat$estatura,na.rm = FALSE)

La curtosis definida para la estatura está definida en 2.500159, lo que indica que la
concentración de los datos de la estatura es baja, por lo que interpretamos que las
estaturas del grupo se distribuyen de forma irregular, no homogénea.

Presentación y análisis de resultados

VARIABLES CUALITATIVAS.
GENERO: variable cualitativa que describe el género sexual de cada integrante de la
lista para el género se definieron parámetros como la moda. Describe cada miembro
del grupo y sus peculiaridades en género y afición.

genero=c(1,2,1,1,1,2,2,2,2,1,1,1,1,1,1,2,2,2,1,1,1,1,1,1,1,1,1,1,1,1,2,2,2)

genero=factor(genero,levels=c("1","2"),labels = c("hombre","mujer"))

genero

mg

moda_de_genero=mg

AFICION:
variable cualitativa que asigna una afición a cada hombre o mujer, en base a cuatro
factores música, deporte, lectura, baile estos datos, permiten hacer un análisis
exploratorio, por lo cual tiene sentido calcular la moda para esta variable.

aficion=c(1,1,3,3,1,2,3,1,2,3,3,3,3,3,2,2,2,4,2,1,3,3,3,3,2,1,1,3,2,2,4,4,3)

aficion=factor(aficion,levels=c(1,2,3,4),labels=c("musica","lectura","deporte","baile")
)

aficion

mf

moda_de_aficiones=mf

modas=data.frame(moda_de_genero,moda_de_aficiones)

modas

Donde 1= hombres y 3= deporte


Genero vs Afición

gmodels::CrossTable(genero,aficion,digits = 2,prop.r = TRUE,prop.t = TRUE,format =


"SPSS")

EL ANALISIS DE RESULTADOS: se puede concluir que son más abundantes los hombres
en el grupo de estudiantes y que además la mayor afición en el grupo marca
tendencia representativa haciendo énfasis en el deporte.

VARIABLES CUANTITATIVAS
Estas variables nos permiten conocer datos numéricos tales como la mediana, el
promedio, la desviación estándar, también nos permite hacer graficas como
histogramas.

Peso variable: variable cuantitativa que le asigna un peso diferente a cada hombre
o mujer del grupo de estudiantes

peso=c(70,59,61,81,59,45,60,60,58,55,56,60,67,66,60,50,49,40,65,30,63,62,80,55,57,
60,82,85,76,63,54,59,65)

peso

Estatura variable: esta variable cuantitativa nos permite asignarle una estatura a cada
integrante de este grupo

estatura=c(1.68,1.62,1.78,1.86,1.70,1.66,1.60,1.63,1.63,1.68,1.78,1.74,1.70,1.65,1.70,1.58,1.56,
1.60,1.62,1.48,1.76,1.75,1.75,1.74,1.71,1.78,1.80,1.82,1.77,1.78,1.55,1.66,1.64)
estatura

Variable cuantitativa vs cuantitativa


Peso vs genero
gmodels::CrossTable(peso,genero,digits = 2,prop.r = TRUE,prop.t = TRUE,format = "SPSS")
CONCLUSIONES.
Se concluye de la practica anterior que el comportamiento de un grupo de datos es determinante
para la interpretación de sucesos, lo cual será muy útil a la hora de analizar y fijar el rumbo de
un grupo de medidas, determinando si estos valores son representativos y cuál es la frecuencia
con la cual se repiten.

El uso de variables cualitativas vs variables cuantitativas es bastante util a la hora de


caracterizar una toma de datos. El uso de soporte asistido por computador genera de manera
clara la capacidad de analizar tanto gráficamente como metódicamente el comportamiento de
los datos.

La estadística descriptiva nos permite determinar y predecir el comportamiento de los datos y


como se correlacionan entre sí. La dispersión de un grupo de datos puede ser determinada
mediante medidas de varianza para verificar la relación entre los datos; esto permite conocer la
inalienabilidad de un experimento científico con respecto a una condición imparcial.
Bibliografías

https://economipedia.com/definiciones/curtosis.html

https://www.webyempresas.com/mediana-estadistica-definicion-y-formula/

Anda mungkin juga menyukai