Anda di halaman 1dari 33

Descripcin de datos:

explorando y mostrando datos

Capitulo 4

McGraw-Hill/Irwin The McGraw-Hill Companies, Inc. 2008


Objetivos

Elaborar e interpretar un grfico de puntos.


Elaborar e interpretar una grfica de tallo y hoja.
Calcular y comprender los cuartiles, deciles y
percentiles.
Construir e interpretar diagramas de caja.
Calcular y comprender el coeficiente de asimetra.
Dibujar e interpretar un diagrama de dispersin.
Construir e interpretar una tabla de contingencia.

2
Diagrama de puntos

Un diagrama de puntos agrupa los datos lo menos


posible y evita la perdida de identidad de cada
observacion
Para desarrollar un diagrama de puntos, cada
observacin se muestra simplemente como un punto
a lo largo de una lnea horizontal numerica que
indica los valores posibles de los datos.
Si hay observaciones idnticas o las observaciones
estn demasiado cerca para ser mostrado
individualmente, los puntos son "apilados" uno
encima del otro.

3
Ejemplo de diagrama de puntos

Se indica abajo las cantidad de vehculos vendidos en los ltimos


24 meses por Smith Jeep Ford Mercury, Inc., en Kane,
Pensilvania, y Brophy Honda Volkswagen en Greenville, Ohio.
Construir grficos de puntos y el resumen de estadsticas de
los dos lotes de carro en las pequeas ciudades en USA.

4
Dot Plot Minitab Example

5
Tallo y hojas

En el captulo 2, nos mostr cmo organizar los datos en una


distribucin de frecuencias. La principal ventaja de organizar
los datos en una distribucin de frecuencias es que tenemos
una imagen visual rpida de la forma de la distribucin.
Una tecnica que es usada para mostrar informacion
cuantitativa en una forma condensada es el diagrama de tallo y
hojas.
El diagrama de tallo y hoja de es una tcnica estadstica para
presentar un conjunto de datos. Cada valor numrico se divide
en dos partes. El primer dgito (s) se convierte en la tallo y el
dgito final de la hoja. Los tallos se encuentran a lo largo del eje
vertical, y los valores de la hoja estn apilados uno contra otro
a lo largo del eje horizontal.
La ventaja de la visualizacin de tallo y hoja sobre una
distribucin de frecuencias - la identidad de cada observacin
no se pierde.
6
Tallo y hoja - ejemplo

Supongamos que las siete


observaciones en la clase 90
hasta 100 son: 96, 94, 93, 94, 95,
96 y 97.

El valor tallo es el primer dgito o


dgitos, en este caso 9. Las hojas
son los dgitos finales. El tallo se
coloca a la izquierda de una lnea
vertical y los valores de la hoja
hacia la derecha. Los valores en
la clase de 90 a 100 aparecera
como
Luego, se ordenan los valores dentro
de cada tallo de menor a mayor.
As, la segunda fila de la
presentacin de tallo y hojas
aparecera como sigue:

7
Tallo y hoja - ejm

Listados en la Tabla 1.4 esta el nmero de spots de 30 segundos


de publicidad por radio adquiridos por cada uno de los 45
miembros de la Greater Buffalo Automobile Dealers Association
el ao pasado. Organizar los datos en una grfica de tallo y
hoja. Alrededor de qu valores del nmero de spots publicitarios
tienden a agruparse? Cul es el menor nmero de spots
adquiridos por un distribuidor? El mayor nmero comprado?

8
Tallo y hoja - ejm

9
Stem-and-leaf: Another Example
(Minitab)

10
Cuartiles, Deciles y Percentiles

La desviacion estandar es la medida de dispersin


mas ampliamente usada.

Formas alternativas de describir difusin de datos


incluyen la determinacin de la ubicacin de los
valores que dividen un conjunto de observaciones en
partes iguales.

Estas medidad incluyen cuartiles, deciles, y


percentiles.
11
Calculo de percentil
Para formalizar el procedimiento de calculo, sea Lp la
localizacion del percentil deseado. Asi, si deseamos encontrar el
percentil 33rd usariamos L33 y si queremos la mediana, el
percentil 50, entonces L50.

El numero de observaciones n, as, si tenemos que localizar la


mediana, su posicin esta en (n + 1)/2, o podemos escribir como
(n + 1)(P/100), donde P es el percentil deseado

12
Percentiles - ejemplo

A continuacin se enumeran las comisiones ganadas


el mes pasado por una muestra de 15 brokers de
Salomon Smith Barney de Oakland, Oficina de
California,. Salomon Smith Barney es una compaa
de inversin con oficinas ubicadas en todo Estados
Unidos.
$2,038 $1,758 $1,721 $1,637
$2,097 $2,047 $2,205 $1,787
$2,287 $1,940 $2,311 $2,054
$2,406 $1,471 $1,460

Localice la mediana, el primer cuartil, y el tercer cuartil


de las comisiones ganadas

13
Percentiles - ejemplo(cont.)

Paso 1: organice los datos de menor a mayor

$1,460 $1,471 $1,637 $1,721


$1,758 $1,787 $1,940 $2,038
$2,047 $2,054 $2,097 $2,205
$2,287 $2,311 $2,406

14
Percentiles - ejemplo(cont.)

Paso 2: calcule el primer y el tercer cuartil.


Localizar L25 y L75 usando:

25 75
L25 (15 1) 4 L75 (15 1) 12
100 100
Therefore, the first and third quartiles are the 4th and 12th
observation in the array, respectively
L25 $1,721
L75 $2,205
15
Percentiles ejemplo (Minitab)

16
Percentiles ejemplo (Excel)

17
Diagramas de caja - ejemplo

18
Diagrama de caja - ejemplo

19
Boxplot Using Minitab

Refer to the Whitner


Autoplex data in
Table 24.
Develop a box
plot of the data.
What can we
conclude about
the distribution of
the vehicle
selling prices?

20
Asimetra

En el captulo 3, las medidas de tendencia central


para un conjunto de observaciones (la media, la
mediana y la moda) y medidas de dispersin de los
datos (por ejemplo, rango y la desviacin estndar)
fueron introducidos
Otra caracterstica de un grupo de datos es la forma.
Hay 4 formas comnmente observadas:
simtrica,
Asimetra positiva,
Asimetra negativa,
bimodal.

21
Asimetra - Formulas para el calculo

El coeficiente de asimetria puede ir desde -3 hasta 3.


Un valor cerca de -3, como -2.57 indica una considerable asimetria
negativa.
Un valor como 1.63 indica una moderada asimetria positiva.
Un valor de 0, lo cual ocurre cuando la media y la mediana son iguales,
indica que la distribucion es simetrica y no hay asimetria.

22
Formas comunmente observadas

23
Asimetra un ejemplo

Las siguientes son las ganancias por accin para una


muestra de 15 empresas de software para el ao
2005. Las ganancias por accin se organizan de
menor a mayor.

Calcular la media, la mediana y estndar. Encuentre


el coeficiente de asimetra con clculo de Pearson.
Cul es su conclusin sobre la forma de la
distribucin?

24
Asimetra ejemplo usando el
coeficiente de Pearson

X
X
$74.26
$4.95
n 15

s

X X 2


($0.09 $4.95) 2 ... ($16.40 $4.95) 2 )
$5.22
n 1 15 1
3( X Median ) 3($4.95 $3.18)
sk 1.017
s $5.22

25
Skewness A Minitab Example

26
Describiendo relaciones entre dos
variables

Una tcnica grfica que


utilizamos para mostrar la
relacin entre las variables
que se llama un diagrama de
dispersin.
Para dibujar un diagrama de
dispersin necesitamos dos
variables. Tenemos una
variable a lo largo del eje
horizontal (eje X) de un
grfico y la otra variable a lo
largo del eje vertical (eje Y).
27
Describiendo relaciones entre dos
variables ejm. Diag dispersion

28
Describiendo relaciones entre dos variables
ejm. Diag dispersion

En la introduccin al captulo 2 se presentan los datos


de AutoUSA. En este caso la informacin se refera
a los precios de los 80 vehculos vendidos el mes
pasado en el lote Autoplex Whitner en Raytown,
Missouri. Los datos mostrados incluyen el precio de
venta del vehculo, as como la edad del comprador.
Existe una relacin entre el precio de venta de un
vehculo y la edad del comprador? Sera razonable
llegar a la conclusin de que los vehculos ms
caros son comprados por los compradores ms
viejos?

29
Describing Relationship between Two
Variables Scatter Diagram Excel Example

30
Tablas de contingencia

Un diagrama de dispersion requer al las dos


variables sean por lo menos de escala de
intervalo.
y si se desea estudiar la relacion entre dos
variables cuando una o ambas son de escala
nominal u ordinal? En este caso registramos
los resultados en una Tabla de contingencia

31
Tabla de contingencia ejm.

Un fabricante de ventanas prefabricados produjo 50 ventanas ayer.


Esta maana, el inspector de aseguramiento de la calidad revis
cada ventana para todos los aspectos de calidad. Cada uno fue
clasificado como aceptable o inaceptable, y por el turno en que
se haya producido. As pues se inform de dos variables sobre un
solo elemento. Las dos variables son turno y calidad. Los
resultados se indican en la siguiente tabla
.

32
End of Chapter 4

33

Anda mungkin juga menyukai