Tablas
Estadsticos
Grficos
MaterialelaboradoporM.DoloresFras,JessFernndezyCarmenM.Sordo
profesoresdelDptodeMatemticaAplicadayC.C.delaUniversidaddeCantabria
Estadsticadescriptiva
Seocupadelanlisisdemuestrasdedatosprocedentesde
experimentos,encuestasetc,quecontienenunacomponente
aleatorianopredecible.
muestra
poblacin
POBLACIN:todoslosestudiantesdelaUniversidaddeCantabria
MUESTRA:alumnosde1delaUniversidaddeCantabria.
Estadsticadescriptiva
Losdatosqueestudiamospuedenserdediferentestipos:
1.Atendiendoasunaturaleza:
2.Atendiendoalnmerodeobservaciones:
Unidimensionales,bidimensionales,multidimensionales.
Estadsticadescriptiva
Encuestaa60familiasdeunaciudadsobreelnmerodehijos:
1
2
Tablas
4
3
Grficos
media=2.283
varianza=2.005
desv.stand.=1.416
moda=3
mediana=2
Estadsticos
Tabladefrecuencias
Unatabladefrecuenciasresumelainformacincontenidaen
losdatosdeunamuestra.Lascolumnasdelatablamuestran
distintasvariablesdependiendodesilosdatossondiscretos
ocontinuos.
Casodiscreto(conpocosvaloresposibles):
xi:posiblesvaloresquepuedenaparecerenlosdatos
ni:frecuenciaabsoluta.Nmerodeocurrenciasenlamuestradecadaposiblevalor
fi:frecuenciarelativa
Ni:frecuenciaabsolutaacumulada
Fi:frecuenciarelativaacumulada
Tabladefrecuencias
Ejemplo
Enunaencuestaa60familiasdeunaciudadsobreelnmerodehijos.
Rtip
data<c(0,2,2,4,0,3,3,2,5,2,3,2,4,3,4,
3,1,4,1,1,0,4,1,1,4,2,4,2,0,3,
1,3,0,5,2,2,3,0,3,0,5,1,1,4,0,
3,2,3,2,3,3,1,2,4,2,3,1,3,1,4)
ni<as.vector(table(data))
Ni<cumsum(ni)
fi<ni/sum(ni)
Fi<cumsum(fi)
data.frame(ni=ni,Ni=Ni,fi=fi,Fi=Fi)
Tabladefrecuencias
Ejemplo
Cuantoshermanostienes?
Gotowww.menti.com
Ejercicio
Enunaobrasehanidoanotadoelnmerodemetrosquelosalbailesazulejan
porhora,obtenindoselatabladefrecuenciassiguiente:
Completaresatabladefrecuencias.
Tabladefrecuencias
Unatabladefrecuenciasresumelainformacincontenidaen
losdatosdeunamuestra.
Caso continuo (o discreto con muchos valores posibles):
Losdatoshandeagruparseporclases.
(Li1,Li]:lmitesdeclase.Valorinferiorysuperiordelintervaloquedefinelasclases
xi:marcasdeclase.Valormediodeloslmitesdeclase.
ni:frecuenciaabsoluta.Nmerodeocurrenciasenlamuestradecadaposiblevalor
fi:frecuenciarelativa
Ni:frecuenciaabsolutaacumulada
Fi:frecuenciarelativaacumulada
Tabladefrecuencias
Ejemplo
Eltiempodeaccesoaldiscoduro(milisegundos)medidoen30instantes
detiempodistintoshasido:
ElCriteriodeSturgesnosdice
cuntasclasesdefinir:
Tabladefrecuencias
Ejemplo
Eltiempodeaccesoaldiscoduro(milisegundos)medidoen30instantes
detiempodistintoshasido:
Rtip
data<c(6.2,7.2,5.3,4.4,6.3,9.1,6.4,9.9,6.7,8.7,
5.5,8.4,6.9,4.1,8.5,7.3,8.5,7.2,9.1,4.4,
7.3,8.8,5.8,7.5,4.4,7.8,6.9,6.1,8.2,6.6)
breaks<seq(4,10,1)
ni<as.vector(table(cut(data,breaks)))
Ni<cumsum(ni)
fi<ni/sum(ni)
Fi<cumsum(fi)
data.frame(ni,Ni,fi,Fi)
Ejercicio
Enunciertocolectivodepersonassetomaunamuestrade30personasalas
queseobservaelpeso,obtenindoselossiguientesdatos:
Representaresteconjuntodedatosmedianteunatabla,agrupandolosdatos
porclases.
Estadsticos
Cualquierfuncindelosdatosdelamuestra,porloqueslo
sedefinenparadatoscuantitativos(valoresnumricos).
T(x1,x2...x1n)
Sirvenparacuantificarciertascaractersticasdelamuestra:
Estadsticosdeposicin
Estadsticosdetendenciacentralolocalizacin
Estadsticosdedispersin
Estadsticosdeforma
Estadsticosdeposicin
Indican valores que parten la muestra en proporciones
dadas:cuantiles,percentiles,cuartilesydeciles.
Todosellostienenlasunidadesdelavariableobservada.
Cuantildeorden (C):Sedefineparacualquiervalor entre
0y1queverifique:
Ejemplo
Alturas(cm): 187,160,180,172,174,179,176,174,180,165,180,180
160,165,172,174,174,176,179,180,180,180,180,187
C0.5=Med=[176,179](176+179)/2=177.5cm
Rtip
quantile(data,c(0.5))
C0.5dejapordebajoal50%delosdatosyporencimaal50%.
Estadsticosdeposicin
Cuantil de orden (C): Para datos agrupados en clases se
calculacomo:
ordendelcuantil
iintervaloquecontienealcuantil
Li1limiteinferiordelintervaloi
aiamplituddelintervaloi
nifrecuenciaabsolutadelintervaloi
Ni1frecuenciaabsolutaacumuladadelintervaloi
Ejemplo
C0.5?
Puntuacionestest
Estadsticosdeposicin
Percentildeorden100:Eselcuantildeorden
Deciles:SonloscuantilesdeordenC0.1C0.2...........C0.8C0.9
Cuartiles(Q):Dividenalamuestraen4gruposconfrecuencias
similares. Primer cuartil Q = C = Percentil 25
1
0.25
Q3 = C0.75 = Percentil 75
Ejemplo
Alturas(cm): 160,165,172,174,174,176,179,180,180,180,180,187
C0.25=[172,174]cm(172+174)/2=173cm
C0.5=Med=177.5cmC0.75=180cm
Rtip
quantile(data,c(0.25,0.5,0.75))
Estadsticosdelocalizacin
Indican valores con respecto a los que los datos parecen
agruparse:media,medianaymoda.
Todosellostienenlasunidadesdelavariableobservada.
Media:Eslamediaaritmtica(promedio)delosdatos
Datossinagrupar:
Sumadelosvaloresdividido
poreltamaodelamuestra(n)
Ejemplo
Alturasde5personasenmetros:1.721.651.601.841.58
Rtip
data<c(1.72,1.65,1.6,1.84,1.58)
mean(data)
Estadsticosdelocalizacin
Media:Eslamediaaritmtica(promedio)delosdatos
Datosagrupados:
xi
Siendocelnmerodeclases.
Ejemplo
Media de datos agrupados
Estadsticosdelocalizacin
Mediana: Valor que divide a los datos en dos grupos con el
mismonmerodeelementos.EselQ2 y el C0.50
La mediana es un estadstico robusto ya que no es sensible a valores
extremos.
Ejemplo
{1,4,6,10,12}
Mediana=6
{1,4,6,10,30}
Mediana=6
{1,4,6,8,10,12}
Mediana=(6+8)/2=7
Estadsticosdelocalizacin
Ejemplo
Nmerodehijosde60parejasestudiadas:
60/2 = 30
Estadsticosdelocalizacin
Moda: Es el valor que ms se repite, el de mayor frecuencia
relativaoabsoluta.
Clase Modal: Es el clase que tiene mayor frecuencia relativa
porunidaddeamplitud.
Ejemplo
1 3 5 5 7 10
1 3 5 5 7 7 10
5
5 y 7 (bimodal)
Estadsticosdelocalizacin
Ejemplo
Cualeslamodadelnmerodehermanosdeestamuestra?
Ejercicio
En un cierto colectivo de personas se toma una muestra de 30 personas a las
que se observa el peso, obtenindose la siguiente tabla:
a)Calcularlamedia,lamedianaylaclasemodal.
b) Calcular el valor del peso que puede considerarse indicativo de
anormalmente alto y bajo (representativo del 5% de la poblacin con
mayorymenorpeso,respectivamente).
Estadsticosdedispersin
Ejemplo
Conjunto1:1020304050media=30mediana=30moda=notiene
Conjunto2:1030303050media=30mediana=30moda=30
Conjunto3:3030303030media=30mediana=30moda=30
Sinembargolosdatossontotalmentedistintos!!
Conjunto1
Conjunto2
Conjunto3
Losestadsticosdelocalizacinnocaracterizancompletamente
losdatossonnecesarioslosestadsticosdedispersin.
Estadsticosdedispersin
Indicanlamayoromenorconcentracindelosdatosconrespecto
a las medidas de localizacin: rango, rango intercuartlico,
varianza,cuasivarianza,desviacintpica,cuasidesviacintpica
ycoeficientedevariacin.
Rango:Diferenciaentreelmximoyelmnimo.Muysensible
avaloresextremos.
Rango intercuartlico (RIC): Diferencia entre el tercer y el
primercuartil.
RIC =C C
0.75
0.25
Ambostienelasmismasunidadesquelavariable.
Ejemplo
Alturas(cm): 160,165,172,174,174,176,179,180,180,180,180,187
Rango=187160=27cm
Rtip
diff(range(data))
RIC=C0.75C0.25=180173=7cm
Rtip
IQR(data)
Estadsticosdedispersin
Varianza(S ):Unidadesdelavariablealcuadrado
2
Rtip
Desviacintpica(S ):Unidadesdelavariable.
n
Cuasidesviacintpica(S):Unidadesdelavariable
Rtip
sd(data)
Todossonsensiblesavaloresextremos.
Estadsticosdedispersin
Ejemplo
Eltiempodeaccesoaldiscoduro(milisegundos)medidoen30instantes
detiempodistintoshasido:
Estadsticosdedispersin
Ejemplo
Eltiempodeaccesoaldiscoduro(milisegundos)medidoen30instantes
detiempodistintoshasido:
Estadsticosdedispersin
Coeficientedevariacin(CV):Raznentrelacuasidesviacin
tpicaylamedia.
Ejemplo
Si el peso de los individuos de una muestra tiene CV=30% y la altura CV=10%
los individuos presentan ms dispersin en peso que en altura.
Estadsticosdeforma
Momentosdeordenr(mr):
Se llama momento muestral mr de orden r, respecto de
unaconstantea,alasiguientemedida:
Cuandoa=0sehablademomentosrespectodelorigen.
Sia=sedicequesonmomentoscentrales.
x
Lamediamuestraleselmomentodeprimerorden(r=1)respectodel
origen(a=0).
La varianza es el momento muestral de segundo orden (r=2)
respectodelamedia(a=)
x
Estadsticosdeforma
Dan idea de la forma de la distribucin: coeficiente de
asimetra o sesgo y coeficiente de curtosis o apuntamiento.
Sonadimensionales.
Coeficiente de asimetra o sesgo (CA): Indica si la distribucin
essimtricaono.
CA=0,ladistribucinessimtrica(media=mediana)
CA>0,ladistribucinesasimtricaporladerecha
CA<0,ladistribucinesasimtricaporlaizquierda
Coeficientedecurtosisoapuntamiento(CC):Indicaelgradode
apuntamiento de la distribucin con respecto a distribucin
normalogaussiana.
CC=0,distribucinmesocrtica(Normal)
CC>0,distribucinleptocrticaoapuntada
CC<0,distribucinplaticrticaoaplanada
Ejercicio
En un cierto colectivo de personas se toma una muestra de 30 personas a las
que se observa el peso, obtenindose la siguiente tabla:
Calcularlacuasidesviacintpica,lavarianza,elrangointercuartlico,el
coeficientedevariacin,elcoeficientedeasimetrayeldecurtosis.
Grficos
Los grficos son una herramienta de resumen de la
informacin contenida en los datos que permiten sacar
conclusionesacercadelamuestradeunsolovistazo.
Veremos distintos tipos de grficos, algunos de los cuales
dependendeltipodevariable:siesdiscretaocontinuaosies
cuantitativaocualitativa.
Diagramadesectores
Grficodebarras
Histograma
Diagramadecajas
Grficos
Diagrama de sectores: Es una representacin circular o con
formadetartaenlaquecadasectordelcrculotieneunngulo
directamente proporcional a la frecuencia relativa de cada
posiblevalordelavariable.
Est indicado principalmente para variables cualitativas, aunque
tambinseusaparavariablesdiscretasconunnmeropequeode
posiblesvalores.
Ejemplo
Encuestaa60familiasdeunaciudadsobreelnmerodehijos:
1
1hijo:11x360/60=66
0
5
3
Rtip
data<c(0,2,2,4,0,3,3,2,5,2,3,2,4,3,4,
3,1,4,1,1,0,4,1,1,4,2,4,2,0,3,
1,3,0,5,2,2,3,0,3,0,5,1,1,4,0,
3,2,3,2,3,3,1,2,4,2,3,1,3,1,4)
pie(table(data))
Grficos
Diagrama de barras: Representa mediante barras la
informacincontenidaenlatabladefrecuencias,yaseala
frecuenciaabsolutaolarelativa.
Est indicado para variables cualitativas, semicuantitativas o
discretasconunnmeropequeodeposiblesvalores.
Ejemplo
Encuestaa60familiasdeunaciudadsobreelnmerodehijos:
Rtip
data<c(0,2,2,4,0,3,3,2,5,2,3,2,4,3,4,
3,1,4,1,1,0,4,1,1,4,2,4,2,0,3,
1,3,0,5,2,2,3,0,3,0,5,1,1,4,0,
3,2,3,2,3,3,1,2,4,2,3,1,3,1,4)
barplot(table(data),xlab="numerode
hijos",ylab="ni")
Grficos
Histograma de frecuencias: Muestran la distribucin de una
serie de datos de variables cuantitativas agrupadas en
intervalosdeclase.
Se trata de un grfico de barras verticales en el que el ancho de cada barra
corresponde con el rango del intervalo mientras que la altura respresenta la
frecuenciaabsolutaorelativa.
Ejemplo
El tiempo de acceso al disco duro
(milisegundos) medido en 30 instantes de
tiempodistintoshasido:
Rtip
ni
data<c(6.2,7.2,5.3,4.4,6.3,9.1,6.4,9.9,6.7,8.7,
5.5,8.4,6.9,4.1,8.5,7.3,8.5,7.2,9.1,4.4,
7.3,8.8,5.8,7.5,4.4,7.8,6.9,6.1,8.2,6.6)
breaks<seq(4,10,1)
hist(data,breaks,col="darkblue",xlab="tiempo",
ylab="ni",main="Histograma")
Grficos
Ejemplo
Cuantomides(cm)?
Gotowww.govote.at
Grficos
Diagramadecajaso boxandwiskers:Resumengrficamente
5 datos: mximo, mnimo, C0.25, C0.5 y C0.75. Indicado para
variablescuantitativas.
Rtip
boxplot(data,ylab='Peso(Kg)')
Lazonacentral(caja)contieneel50%delasobservaciones(RIC).
Los outliers son datos anmalos que se representan fuera de los
bigotes. Son valores mayores que Q3+1.5RIC o valores menores
Q11.5RIC.
Ejercicio
Jaime llevaba toda la tarde analizando los datos de altura de un grupo de
personas (en centmetros) y ya tena listo su diagrama de caja.
Lamentablemente,selehaderramadouncafecorrosivosobrelyhaborrado
parte del diagrama. Aydale a dibujarlo de nuevo con los datos que haba
recogido.Viendoeldiagrama,podrasdecirsilosdatospresentanasimetra?