Anda di halaman 1dari 13

TEMA1:Estadsticadescriptiva

Tablas
Estadsticos
Grficos

MaterialelaboradoporM.DoloresFras,JessFernndezyCarmenM.Sordo
profesoresdelDptodeMatemticaAplicadayC.C.delaUniversidaddeCantabria

Estadsticadescriptiva
Seocupadelanlisisdemuestrasdedatosprocedentesde
experimentos,encuestasetc,quecontienenunacomponente
aleatorianopredecible.

muestra

poblacin

POBLACIN:todoslosestudiantesdelaUniversidaddeCantabria
MUESTRA:alumnosde1delaUniversidaddeCantabria.

Estadsticadescriptiva
Losdatosqueestudiamospuedenserdediferentestipos:
1.Atendiendoasunaturaleza:

Cualitativas (nominaleso categricas), sedividenencategorasno


numricas(sexodelosindividuos,fumadoresono...)
Semicuantitativas (ordinales), valores no numricos pero que
admiten clasificacin (calidad de un servicio: malo, regular,
bueno)
Cuantitativas,sonnumerosreales(edad,altura...).Estasasuvez
pueden ser discretas si toman un nmero finito o numerable de
valores (nmero de clientes) y continuas si toman un nmero
infinitodevaloresdentrodeunciertointervalo(alturaypeso).

2.Atendiendoalnmerodeobservaciones:
Unidimensionales,bidimensionales,multidimensionales.

Estadsticadescriptiva
Encuestaa60familiasdeunaciudadsobreelnmerodehijos:

1
2

Tablas

4
3

Grficos

media=2.283
varianza=2.005
desv.stand.=1.416
moda=3
mediana=2

Estadsticos

Tabladefrecuencias
Unatabladefrecuenciasresumelainformacincontenidaen
losdatosdeunamuestra.Lascolumnasdelatablamuestran
distintasvariablesdependiendodesilosdatossondiscretos
ocontinuos.
Casodiscreto(conpocosvaloresposibles):
xi:posiblesvaloresquepuedenaparecerenlosdatos
ni:frecuenciaabsoluta.Nmerodeocurrenciasenlamuestradecadaposiblevalor
fi:frecuenciarelativa
Ni:frecuenciaabsolutaacumulada

Fi:frecuenciarelativaacumulada

Tabladefrecuencias
Ejemplo
Enunaencuestaa60familiasdeunaciudadsobreelnmerodehijos.

Rtip
data<c(0,2,2,4,0,3,3,2,5,2,3,2,4,3,4,
3,1,4,1,1,0,4,1,1,4,2,4,2,0,3,
1,3,0,5,2,2,3,0,3,0,5,1,1,4,0,
3,2,3,2,3,3,1,2,4,2,3,1,3,1,4)
ni<as.vector(table(data))
Ni<cumsum(ni)
fi<ni/sum(ni)
Fi<cumsum(fi)
data.frame(ni=ni,Ni=Ni,fi=fi,Fi=Fi)

Tabladefrecuencias
Ejemplo
Cuantoshermanostienes?

Gotowww.menti.com

Ejercicio
Enunaobrasehanidoanotadoelnmerodemetrosquelosalbailesazulejan
porhora,obtenindoselatabladefrecuenciassiguiente:

Completaresatabladefrecuencias.

Tabladefrecuencias
Unatabladefrecuenciasresumelainformacincontenidaen
losdatosdeunamuestra.
Caso continuo (o discreto con muchos valores posibles):
Losdatoshandeagruparseporclases.
(Li1,Li]:lmitesdeclase.Valorinferiorysuperiordelintervaloquedefinelasclases
xi:marcasdeclase.Valormediodeloslmitesdeclase.
ni:frecuenciaabsoluta.Nmerodeocurrenciasenlamuestradecadaposiblevalor
fi:frecuenciarelativa
Ni:frecuenciaabsolutaacumulada

Fi:frecuenciarelativaacumulada

Tabladefrecuencias
Ejemplo
Eltiempodeaccesoaldiscoduro(milisegundos)medidoen30instantes
detiempodistintoshasido:

ElCriteriodeSturgesnosdice
cuntasclasesdefinir:

Tabladefrecuencias
Ejemplo
Eltiempodeaccesoaldiscoduro(milisegundos)medidoen30instantes
detiempodistintoshasido:

Rtip
data<c(6.2,7.2,5.3,4.4,6.3,9.1,6.4,9.9,6.7,8.7,
5.5,8.4,6.9,4.1,8.5,7.3,8.5,7.2,9.1,4.4,
7.3,8.8,5.8,7.5,4.4,7.8,6.9,6.1,8.2,6.6)
breaks<seq(4,10,1)
ni<as.vector(table(cut(data,breaks)))
Ni<cumsum(ni)
fi<ni/sum(ni)
Fi<cumsum(fi)
data.frame(ni,Ni,fi,Fi)

Ejercicio
Enunciertocolectivodepersonassetomaunamuestrade30personasalas
queseobservaelpeso,obtenindoselossiguientesdatos:

Representaresteconjuntodedatosmedianteunatabla,agrupandolosdatos
porclases.

Estadsticos
Cualquierfuncindelosdatosdelamuestra,porloqueslo
sedefinenparadatoscuantitativos(valoresnumricos).
T(x1,x2...x1n)

Sirvenparacuantificarciertascaractersticasdelamuestra:
Estadsticosdeposicin
Estadsticosdetendenciacentralolocalizacin
Estadsticosdedispersin
Estadsticosdeforma

Estadsticosdeposicin
Indican valores que parten la muestra en proporciones
dadas:cuantiles,percentiles,cuartilesydeciles.
Todosellostienenlasunidadesdelavariableobservada.
Cuantildeorden (C):Sedefineparacualquiervalor entre
0y1queverifique:

Ejemplo
Alturas(cm): 187,160,180,172,174,179,176,174,180,165,180,180

160,165,172,174,174,176,179,180,180,180,180,187
C0.5=Med=[176,179](176+179)/2=177.5cm

Rtip

quantile(data,c(0.5))

C0.5dejapordebajoal50%delosdatosyporencimaal50%.

Estadsticosdeposicin
Cuantil de orden (C): Para datos agrupados en clases se
calculacomo:
ordendelcuantil
iintervaloquecontienealcuantil
Li1limiteinferiordelintervaloi
aiamplituddelintervaloi

nifrecuenciaabsolutadelintervaloi

Ni1frecuenciaabsolutaacumuladadelintervaloi

Ejemplo
C0.5?
Puntuacionestest

Estadsticosdeposicin
Percentildeorden100:Eselcuantildeorden
Deciles:SonloscuantilesdeordenC0.1C0.2...........C0.8C0.9
Cuartiles(Q):Dividenalamuestraen4gruposconfrecuencias
similares. Primer cuartil Q = C = Percentil 25
1

0.25

Segundo cuartil Q2 = C0.50 = Percentil 50 = Mediana


Tercer cuartil

Q3 = C0.75 = Percentil 75

Ejemplo
Alturas(cm): 160,165,172,174,174,176,179,180,180,180,180,187

C0.25=[172,174]cm(172+174)/2=173cm
C0.5=Med=177.5cmC0.75=180cm

Rtip

quantile(data,c(0.25,0.5,0.75))

Estadsticosdelocalizacin
Indican valores con respecto a los que los datos parecen
agruparse:media,medianaymoda.
Todosellostienenlasunidadesdelavariableobservada.
Media:Eslamediaaritmtica(promedio)delosdatos
Datossinagrupar:

Sumadelosvaloresdividido
poreltamaodelamuestra(n)

Ejemplo
Alturasde5personasenmetros:1.721.651.601.841.58

Rtip
data<c(1.72,1.65,1.6,1.84,1.58)
mean(data)

Estadsticosdelocalizacin
Media:Eslamediaaritmtica(promedio)delosdatos
Datosagrupados:

Encuesta a 60 familias sobre el


nmerodehijos:

xi

Siendocelnmerodeclases.

La media es un estadstico muy


sensibleavaloresextremos.

Ejemplo
Media de datos agrupados

Estadsticosdelocalizacin
Mediana: Valor que divide a los datos en dos grupos con el
mismonmerodeelementos.EselQ2 y el C0.50
La mediana es un estadstico robusto ya que no es sensible a valores
extremos.

Ejemplo
{1,4,6,10,12}

Mediana=6

{1,4,6,10,30}

Mediana=6

{1,4,6,8,10,12}

Mediana=(6+8)/2=7

Estadsticosdelocalizacin
Ejemplo
Nmerodehijosde60parejasestudiadas:

60/2 = 30

la mediana del nmero de hijos es 2 hijos

Estadsticosdelocalizacin
Moda: Es el valor que ms se repite, el de mayor frecuencia
relativaoabsoluta.
Clase Modal: Es el clase que tiene mayor frecuencia relativa
porunidaddeamplitud.

Ejemplo
1 3 5 5 7 10
1 3 5 5 7 7 10

5
5 y 7 (bimodal)

[6-7) clase modal

Estadsticosdelocalizacin
Ejemplo

Cualeslamodadelnmerodehermanosdeestamuestra?

Ejercicio
En un cierto colectivo de personas se toma una muestra de 30 personas a las
que se observa el peso, obtenindose la siguiente tabla:

a)Calcularlamedia,lamedianaylaclasemodal.
b) Calcular el valor del peso que puede considerarse indicativo de
anormalmente alto y bajo (representativo del 5% de la poblacin con
mayorymenorpeso,respectivamente).

Estadsticosdedispersin
Ejemplo
Conjunto1:1020304050media=30mediana=30moda=notiene
Conjunto2:1030303050media=30mediana=30moda=30
Conjunto3:3030303030media=30mediana=30moda=30

Sinembargolosdatossontotalmentedistintos!!
Conjunto1

Conjunto2

Conjunto3

Losestadsticosdelocalizacinnocaracterizancompletamente
losdatossonnecesarioslosestadsticosdedispersin.

Estadsticosdedispersin
Indicanlamayoromenorconcentracindelosdatosconrespecto
a las medidas de localizacin: rango, rango intercuartlico,
varianza,cuasivarianza,desviacintpica,cuasidesviacintpica
ycoeficientedevariacin.

Rango:Diferenciaentreelmximoyelmnimo.Muysensible
avaloresextremos.
Rango intercuartlico (RIC): Diferencia entre el tercer y el
primercuartil.
RIC =C C
0.75

0.25

Ambostienelasmismasunidadesquelavariable.

Ejemplo
Alturas(cm): 160,165,172,174,174,176,179,180,180,180,180,187

Rango=187160=27cm
Rtip

diff(range(data))

RIC=C0.75C0.25=180173=7cm
Rtip

IQR(data)

Estadsticosdedispersin
Varianza(S ):Unidadesdelavariablealcuadrado
2

Rtip

Cuasivarianza(S ):Unidadesdelavariablealcuadrado var(data)


2

Desviacintpica(S ):Unidadesdelavariable.
n

Cuasidesviacintpica(S):Unidadesdelavariable
Rtip

sd(data)

Todossonsensiblesavaloresextremos.

Estadsticosdedispersin
Ejemplo
Eltiempodeaccesoaldiscoduro(milisegundos)medidoen30instantes
detiempodistintoshasido:

Estadsticosdedispersin
Ejemplo
Eltiempodeaccesoaldiscoduro(milisegundos)medidoen30instantes
detiempodistintoshasido:

Estadsticosdedispersin
Coeficientedevariacin(CV):Raznentrelacuasidesviacin
tpicaylamedia.

Tambin se denomina variabilidad relativa y es frecuente usarla en


porcentaje.
Es adimensional, por lo que resulta interesante para comparar la
variabilidaddevariablesdiferentes.

Ejemplo
Si el peso de los individuos de una muestra tiene CV=30% y la altura CV=10%
los individuos presentan ms dispersin en peso que en altura.

Estadsticosdeforma
Momentosdeordenr(mr):
Se llama momento muestral mr de orden r, respecto de
unaconstantea,alasiguientemedida:

Cuandoa=0sehablademomentosrespectodelorigen.
Sia=sedicequesonmomentoscentrales.
x

Lamediamuestraleselmomentodeprimerorden(r=1)respectodel
origen(a=0).
La varianza es el momento muestral de segundo orden (r=2)
respectodelamedia(a=)
x

Estadsticosdeforma
Dan idea de la forma de la distribucin: coeficiente de
asimetra o sesgo y coeficiente de curtosis o apuntamiento.
Sonadimensionales.
Coeficiente de asimetra o sesgo (CA): Indica si la distribucin
essimtricaono.
CA=0,ladistribucinessimtrica(media=mediana)
CA>0,ladistribucinesasimtricaporladerecha
CA<0,ladistribucinesasimtricaporlaizquierda

Coeficientedecurtosisoapuntamiento(CC):Indicaelgradode
apuntamiento de la distribucin con respecto a distribucin
normalogaussiana.
CC=0,distribucinmesocrtica(Normal)
CC>0,distribucinleptocrticaoapuntada
CC<0,distribucinplaticrticaoaplanada

Ejercicio
En un cierto colectivo de personas se toma una muestra de 30 personas a las
que se observa el peso, obtenindose la siguiente tabla:

Calcularlacuasidesviacintpica,lavarianza,elrangointercuartlico,el
coeficientedevariacin,elcoeficientedeasimetrayeldecurtosis.

Grficos
Los grficos son una herramienta de resumen de la
informacin contenida en los datos que permiten sacar
conclusionesacercadelamuestradeunsolovistazo.
Veremos distintos tipos de grficos, algunos de los cuales
dependendeltipodevariable:siesdiscretaocontinuaosies
cuantitativaocualitativa.

Diagramadesectores
Grficodebarras
Histograma
Diagramadecajas

Grficos
Diagrama de sectores: Es una representacin circular o con
formadetartaenlaquecadasectordelcrculotieneunngulo
directamente proporcional a la frecuencia relativa de cada
posiblevalordelavariable.
Est indicado principalmente para variables cualitativas, aunque
tambinseusaparavariablesdiscretasconunnmeropequeode
posiblesvalores.

Ejemplo
Encuestaa60familiasdeunaciudadsobreelnmerodehijos:
1

1hijo:11x360/60=66

0
5
3

Rtip
data<c(0,2,2,4,0,3,3,2,5,2,3,2,4,3,4,
3,1,4,1,1,0,4,1,1,4,2,4,2,0,3,
1,3,0,5,2,2,3,0,3,0,5,1,1,4,0,
3,2,3,2,3,3,1,2,4,2,3,1,3,1,4)
pie(table(data))

Grficos
Diagrama de barras: Representa mediante barras la
informacincontenidaenlatabladefrecuencias,yaseala
frecuenciaabsolutaolarelativa.
Est indicado para variables cualitativas, semicuantitativas o
discretasconunnmeropequeodeposiblesvalores.

Ejemplo
Encuestaa60familiasdeunaciudadsobreelnmerodehijos:

Rtip
data<c(0,2,2,4,0,3,3,2,5,2,3,2,4,3,4,
3,1,4,1,1,0,4,1,1,4,2,4,2,0,3,
1,3,0,5,2,2,3,0,3,0,5,1,1,4,0,
3,2,3,2,3,3,1,2,4,2,3,1,3,1,4)
barplot(table(data),xlab="numerode
hijos",ylab="ni")

Grficos
Histograma de frecuencias: Muestran la distribucin de una
serie de datos de variables cuantitativas agrupadas en
intervalosdeclase.
Se trata de un grfico de barras verticales en el que el ancho de cada barra
corresponde con el rango del intervalo mientras que la altura respresenta la
frecuenciaabsolutaorelativa.

Ejemplo
El tiempo de acceso al disco duro
(milisegundos) medido en 30 instantes de
tiempodistintoshasido:
Rtip
ni

data<c(6.2,7.2,5.3,4.4,6.3,9.1,6.4,9.9,6.7,8.7,
5.5,8.4,6.9,4.1,8.5,7.3,8.5,7.2,9.1,4.4,
7.3,8.8,5.8,7.5,4.4,7.8,6.9,6.1,8.2,6.6)
breaks<seq(4,10,1)
hist(data,breaks,col="darkblue",xlab="tiempo",
ylab="ni",main="Histograma")

Grficos
Ejemplo
Cuantomides(cm)?

Gotowww.govote.at

Grficos
Diagramadecajaso boxandwiskers:Resumengrficamente
5 datos: mximo, mnimo, C0.25, C0.5 y C0.75. Indicado para
variablescuantitativas.

Rtip
boxplot(data,ylab='Peso(Kg)')

Lazonacentral(caja)contieneel50%delasobservaciones(RIC).
Los outliers son datos anmalos que se representan fuera de los
bigotes. Son valores mayores que Q3+1.5RIC o valores menores
Q11.5RIC.

Ejercicio
Jaime llevaba toda la tarde analizando los datos de altura de un grupo de
personas (en centmetros) y ya tena listo su diagrama de caja.
Lamentablemente,selehaderramadouncafecorrosivosobrelyhaborrado
parte del diagrama. Aydale a dibujarlo de nuevo con los datos que haba
recogido.Viendoeldiagrama,podrasdecirsilosdatospresentanasimetra?

Anda mungkin juga menyukai