Anda di halaman 1dari 32

EL ANLISIS DE DATOS EN LA INVESTIGACIN CRIMINOLGICA Introduccin: La realizacin de una investigacin emprica supone el desarrollo de una serie de fases que

van desde la revisin bibliogrfica hasta la redaccin de un informe de los resultados obtenidos, pasando por la elaboracin de hiptesis, la recogida de informacin y el anlisis de datos recabados. Este curso est centrado en la ltima fase de una investigacin. Ms concretamente, las 4 primeras unidades estarn dedicadas al anlisis de datos cuantitativos y algunas de las tcnicas estadsticas ms utilizadas para llevarlo a cabo. Antes de introducirnos en el anlisis de datos, revisaremos algunos conceptos y definiciones cuyo conocimiento debe ser previo a la realizacin de cualquier anlisis estadstico. PARA QU SIRVE LA ESTADSTICA? - La Estadstica se utiliza como herramienta al servicio de la investigacin. - La Estadstica es la Ciencia que se ocupa de la ordenacin y anlisis de datos procedentes de muestras y de la realizacin de inferencias sobre las poblaciones de las que stas proceden. Estadstica descriptiva Probabilidad Estadstica Inferencial Tiene como objetivo caracterizar, describir y extraer conclusiones sobre una muestra de datos. Mide la incertidumbre, deduce las leyes que rigen a los fenmenos que se investigan. Implica realizar inferencias acerca de la de la poblacin a partir de datos muestrales y requiere clculo de probabilidades.

Pasos en un estudio estadstico inferencial - Plantear hiptesis sobre una poblacin Ejemplo: Los carabineros que cumplen labores en LABOCAR estn ms expuestos al Sndrome de Burnout que los que se desempean en otras unidades de la Institucin
1

Profesora: Cecilia Larran R.

- Decidir qu datos recoger (diseo de experimentos , encuesta) Qu individuos pertenecern al estudio? (muestras)

La prueba hiptesis estadstica requiere el diseo que garantice que las conclusiones que se extraigan de la experimentacin no estn invalidadas por factores no controlados. - Qu datos recoger de los mismos (variables que se miden) - Recoger los datos (muestreo) Aleatorio simple? Estratificado? Sistemtico? Conglomerados? - Describir (resumir) los datos obtenidos - Realizar inferencia sobre la poblacin

TRMINOS BSICOS Poblacin y Muestra Poblacin es el conjunto sobre el que estamos interesados en obtener conclusiones (hacer inferencia). Normalmente es demasiado grande para poder abarcarlo. (Tamao poblacin: N) A las medidas de resmenes poblacionales como la media poblacional , desviacin estndar , , se les denominan parmetros. Muestra es un subconjunto de la poblacin al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones) Debera ser representativo Esta formado por miembros seleccionados de la poblacin (individuos, unidades experimentales). A las medidas de resmenes muestrales como la media de la muestra x , desviacin estndar de la muestra s, , se les denomina estadsticos.

Profesora: Cecilia Larran R.

Variable Una variable es una caracterstica observable que vara entre los diferentes individuos de una poblacin. La informacin que disponemos de cada individuo es resumida en variables. Las caractersticas (variables) de los sujetos de la poblacin penal chilena son
. . .

Estado civil: {Soltero, Casado, Divorciado, Viudo} Su nivel de Educacional: {Bsica, Media Superior} El nmero de hijos: {0,1,2,3,...} La altura (en cm.): {162 , 156, 170 ...} Sexo: {Femenino, Masculino} Edad (aos) Aos de condena Reincidente

Dato: Valor de la variable asociado a un elemento de la poblacin o muestra. Ejemplo: (archivo de datos) Sujeto 01 02 03 . . . Sexo M M F . . . Edad 21 22 40 . . . Reincidente S observacin 1 N S . . .

La primera observacin indica que el sujeto es de sexo masculino, tiene 21 aos y es reincidente. Cada una de estas tres mediciones es un dato para cada una de las variables medidas para el sujeto 1.
El sujeto encarcelado es la unidad de observacin

Profesora: Cecilia Larran R.

Parmetro:

Caracterstica numrica de la poblacin. Un parmetro es un valor que describe a toda una poblacin. Ejemplo: La edad "promedio" () de los estudiantes de primer ao de la Escuela de Carabinero Estadstica: Caracterstica numrica de una muestra. Una estadstica es un valor que describe a una muestra. Ejemplo: La estatura "promedio" ( x ) calculada a partir de un conjunto de 25 medidas de estatura, (n = 25).

Clasificacin de variables:
Para realizar un anlisis de datos, es indispensable saber como es la variable que consideramos, pues ello determina el tipo de mtodo estadstico que se debe utilizar. Las variables se clasifican como: - Segn su naturaleza: Cualitativas y Cuantitativas Variables cualitativas o atributos: no toman valores numricos (modalidades) y describen cualidades. (no se pueden hacer operaciones algebraicas con ellos). Ejemplo: Estado Civil Variables cuantitativas: Si sus valores son numricos (tiene sentido hacer operaciones algebraicas con ellos). Ejemplo: Estatura, Nmero de errores

Segn el recorrido: Dicotmicas, Discretas y Continuas.


Dicotmicas: Toman uno de dos valores. Ejemplo: Sexo Discretas: Corresponden en general a contar el nmero de veces que ocurre un suceso. Tienen un recorrido contable. Ejemplo: Nmero de horas de estudio, N de denuncias por robo. Continuas: Si entre dos valores, son posibles infinitos valores intermedios. Ejemplo: Altura, Presin intraocular, Edad

Segn el nivel de medicin:


La medicin es el proceso mediante el cual se les asignan valores numricos a objetos siguiendo unas determinadas reglas. Los
4

Profesora: Cecilia Larran R.

instrumentos que se utilizan para llevar a cabo tal medicin se les denominan escalas de medicin. El criterio utilizado convencionalmente para clasificar las escalas de medida es el propuesto por Stevens (1946), quien establece cuatro tipos de escala: nominal, ordinal, de intervalo y de razn.

Nominales: nicamente permiten establecer relaciones de igualdad/desigualdad entre los objetos que se estn midiendo. Ejemplo, Sexo (0 Mujer, 1 hombre) Ordinales: Adems de permitir relaciones de igualdad /desigualdad, permite establecer relaciones de orden (mayor o menor que) entre los objetos que se estn midiendo. Ejemplo: Nivel de depresin (bajo, medio, alto) Intervalar: Al igual que los dos tipos de escalas anteriores, esta escala permite establecer relaciones de igualdad /desigualdad y de orden entre los objetos que se miden. Los intervalos entre los nmeros de la escala son iguales, por lo tanto se puede realizar las operaciones suma y resta. Este tipo de escala carece de un cero absoluto, por lo que no estn permitidas ni la multiplicacin ni la divisin entre los nmeros de la escala. Una escala de intervalo es, por ejemplo, la utilizada para medir la temperatura. Como los intervalos de la escala son iguales, se puede afirmar que la diferencia de temperatura que existe entre 25 y 28 grados es la misma que existe entre 30 y 33 grados. Sin embargo, dado que el punto 0 de la escala es arbitrario -no existe ausencia de temperatura- no se puede afirmar, por ejemplo, que 20 grados es exactamente la mitad de 40 grados. Razn: Es la escala que permite el nivel ms alto de medicin. Adems de las operaciones que permiten las escalas anteriores, en una escala de razn existe el cero (0) emprico, por lo cual se puede efectuar cualquier operacin aritmtica con los nmeros de la escala. El tiempo de reaccin, por ejemplo es una variable medida en escala de razn. No slo se puede afirmar que la diferencia entre 3 y 6 segundos es la misma que entre 6 y 9 segundos (afirmacin vlida tambin en la escala de intervalos), sino, adems, que 6 seg. es el doble de 3 seg. Afirmacin que es posible establecer gracias a que en la escala de tiempo de reaccin existe el cero absoluto: cero seg. Significa ausencia de tiempo de reaccin.

Profesora: Cecilia Larran R.

Ejercicios 1. Se sabe que un test sobre comportamiento delictivo en la poblacin juvenil general tiene un puntaje promedio de 75 y desviacin estndar 8 puntos. Un criminlogo tiene razones para pensar que los puntajes obtenidos en el test por los jvenes con mayor propensin a la delincuencia no se comportan de la misma manera, el puntaje promedio de esos jvenes es superior a 75. Para comprobar su teora aplica el test a 18 de estos jvenes resultando un promedio de 80 puntos:

1.1. Identifique: La poblacin, se conoce su tamao? La muestra Unidad de observacin Variable de inters, de que tipo es? Parmetro (s) Estadstico

1.2. Escriba en forma simblica la hiptesis de Criminlogo

2. El siguiente cuestionario fue respondido por una muestra de 250 personas con edad igual o superior a 15 aos:
P.1 Sexo: Hombre Mujer 1 2 Sexo P.2 Estado civil: Casado Soltero Viudo Divorciado 1 2 3 4 E_civil

Profesora: Cecilia Larran R.

P.3 Cuntos aos cumpliste en tu ltimo cumpleaos? _____________ aos Edad P.4 Nivel educacional Bsica incompleta Bsica E.M. incompleta E.M. Superior

1 2 3 4 5

Niv_ed

P.5. Cul es tu peso y estatura? _____________ Kg. _____________ cms. P.6. Tu opinin sobre los jueces de garanta es: Buena 1 Jueces Indiferente 2 Mala 3 Ns 4 P.8. Tu opinin sobre la semana laboral de 35 horas es: A favor 1 35horas En contra 2 Ns 3

Peso Estatura

P.7. Crees que se deba adelantar la edad penal en nuestro pas? Si No Ns 1 2 3 E_penal

P.9. En promedio, consumes alcohol diariamente (vasos de 200 cc) no consumo 1 vaso 2 vasos 3 vasos 4 vasos 5 o ms vasos 0 1 2 3 4 5 C_alcohol

Las respuesta de los 250 sujetos encuestados dio origen a la siguiente tabla:
Suj 001 002 003 004 005 . . .
Encuesta ficticia los datos han sido simulados Sexo E_civil Edad Nivel_ed Peso Estatura Jueces E_penal 35horas C_alcohol

v v m m v

1 1 1 3 2

63 79 52 41 18

3 4 3 3 4

80,30 56,16 64,37 63,02 75,50

190 155 151 146 164

3 1 3 3 4

1 3 3 2 2

1 1 1 2 1

3 2 2 2 3

Profesora: Cecilia Larran R.

2.1. Complete el cuestionario con los datos de la observacin 1 2.2. Identifique: La poblacin, se conoce su tamao? La muestra Variables que se miden, de que tipo son?

2.3. Plantee dos preguntas que se podran resolver con mtodos estadsticos.

Profesora: Cecilia Larran R.

Organizacin de los datos


La estadstica descriptiva, entrega las tcnicas que permiten condensar grandes grupos de datos mediante el uso de tablas, grficos y medidas de resumen como media, desviacin estndar, correlacin.

Datos en bruto o directos


Cuando la informacin es recolectada, sea de una muestra o de una poblacin, esta se organiza en la secuencia en que fue obtenida. Esta secuencia de datos registrados se encuentra desorganizada. Datos en bruto o directos: Datos registrados en la secuencia en que fueron recolectados, antes de ser procesados u ordenados.
Ejemplo: Cuestionario pgina 7- 8 Archivo de datos
Suj Sexo E_civil Edad

Nivel_ed
3 4 3 3 4

Peso

Estatura

Jueces

E_penal

35horas

C_alcohol

001 002 003 004 005 . . .

v v m m v

1 1 1 3 2

63 79 52 41 18

80,30 56,16 64,37 63,02 75,50

190 155 151 146 164

3 1 3 3 4 . . .

1 3 3 2 2

1 1 1 2 1

3 2 2 2 3 . . .

Este caso corresponde a datos directos, pues contienen informacin, individual, de cada sujeto que contest el cuestionario.

Profesora: Cecilia Larran R.

MEDIDAS DE RESUMEN
Entre las medidas que permiten resumir informacin proveniente de una poblacin o muestra, podemos considerar: medidas posicin, de dispersin o variabilidad, de forma y de asociacin

Medidas de posicin Tendencia Central Son ndices de localizacin central, empleados en la descripcin de las distribuciones de frecuencias. Las ms usadas son la moda, la mediana y el promedio. Moda Moda: Es el valor de la variable que ocurre ms frecuentemente Ejemplo (variable cualitativa): En una empresa se ha medido la satisfaccin laboral de una muestra de empleados.
Satisfaccin Laboral Muy satisfechos Satisfechos Moderadamente satisfechos Insatisfechos Muy insatisfechos N de empleados 20 25 22 18 10

En este caso la moda corresponde a la categora satisfechos. Si la variable se encuentra es cuantitativa, la moda ser la magnitud ms frecuente.

Ejemplo (variable cuantitativa) : En la medicin de la variable inteligencia en un curso, se han encontrado los siguientes puntajes de C.I.: 81, 83, 83, 85, 86, 86, 87, 88, 90, 91, 92, 94, 95, 95, 95, 95, 96, 96, 97, 99, 101, 105, 107, 108, 109, 110, 115, 118, 120.
En este caso, la moda corresponde al puntaje 95. Y si los datos estn agrupados en intervalos de clase, la moda ser el punto medio del intervalo ms frecuente. La moda para datos agrupados en intervalos en tablas de frecuencia, no es un valor exacto porque vara con las diferentes maneras de agrupar una distribucin.

Ejemplo: El sueldo mensual de un grupo de trabajadores de cierta empresa se distribuye como indica la tabla a continuacin.

10

Profesora: Cecilia Larran R.

Sueldo 180.000 200.000 200.000 220.000 220.000 240.000 240.000 260.000 260.000 280.000

Marca de clase xi 190.000 210.000 230.000 250.000 270.000

N de trabajadores ni 5 8 12 10 4

En este caso la moda es 230.000 pesos, por ser el punto medio del intervalo ms frecuente. A menudo encontramos distribuciones bimodales (con dos modas). Limitacin de la moda: no sabemos qu ocurre con el resto de la distribucin de datos.

Promedio Aritmtico (o media Aritmtica) La media aritmtica: Se llama tambin promedio y se obtiene sumando las medidas y dividiendo luego por el nmero de medidas o casos.
n

x
x=
i =1

total n

Ejemplo: Los siguientes valores indican el tiempo necesario en minutos para llegar a su trabajo de un grupo (muestra) de 15 empleados a un ministerio pblico.
25 30 50 60 35 65 48 90 75 50 22 45 25 35 50

X = Tiempo necesario en min. para llegar al trabajo n = 15 Sumatoria = x i = 705


i =1 n

x=

705 15

= 47 min. Observacin: La media de la poblacin se define de la misma forma pero se utiliza el smbolo para denotarla:

x
i =1

x1 +x 2 +x 3 ...+x N total = N N

11

Profesora: Cecilia Larran R.

Ejercicio La siguiente tabla muestra las edades de conductores implicados en accidentes automovilsticos. Hombres Mujeres 70 60 77 39 36 28 19 40 23 23 63 31 36 55 24 76 62 46 43 28 21 22 27 42 21 46 33 29 44 29

Determine la edad promedio de cada grupo (utilice modo estadstico en la calculadora) X = Edad Sexo Hombre (1) Mujer (2) n

Promedio

Si los datos se encuentran en una distribucin de frecuencias, es necesario modificar la frmula a : x =

x n
i =1 i

donde xi el representa el valor de la variable si es

discreta o la marca de clase si los datos estn tabulados en k intervalos.

Ejemplo: La siguiente tabla muestra el nmero de TV que poseen las familias seleccionadas aleatoriamente de cierta comunidad.
n de TV Xi 1 2 3 4 5 n de fam. ni 3 9 5 3 1 n = 21

n = 21

xini
3 18 15 12 5 53

xn =
i i i

53

x=

52 21 = 2,52 tv

12

Profesora: Cecilia Larran R.

Ejemplo: Se realiz un estudio para determinar cuntas horas semanales dedican los nios de una escuela bsica a ver televisin. Se obtuvieron los siguientes resultados:
Hrs. TV
(semanal)

marca de clase

N de nios

xi

05 - 10 10 - 15 15 - 20 20 - 25 25 - 30 30 - 35

ni 2 16 54 112 64 10 Total

xi ni

x n
i

x=
Mediana

Mediana: es un valor tal que, ordenados en magnitud los n datos de una variable X, el 50% es menor o igual que ella, y el 50% es mayor o igual.
Para el clculo de la mediana la variable debe ser por lo menos ordinal En datos no agrupados (directos), con n impar, el valor central es la mediana.

Ejemplo: 3, 5, 7, 8, 9, 12, 13, 15, 20. n = 9 datos. La mediana es el valor 9.


Y se puede observar que la mediana es el valor que ocupa el lugar
1+ n 2

En datos no agrupados con n par, el valor de la mediana ser el punto medio entre los valores centrales. Ejemplo: 5, 7, 9, 10, 14, 16, 17, 18 n = 8 datos; la mediana es el valor 12.

Es preciso ordenar los datos de menor a mayor para hacer el clculo.

13

Profesora: Cecilia Larran R.

Ejercicios 1. Notas del examen de repeticin de la asignatura Economa


5,0 3,8 3,0 4,6 6,0 2,6 4,0 5,5 2,8 6,1 4,2 5,2

Variable: X = N de alumnos

Mediana (Me)

Promedio

Interprete el valor de la mediana: _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ 2. La siguiente tabla muestra el nmero de programas violentos que haban vistos por televisin 400 nios entre 10 12 aos durante la semana anterior.
N de programas 0 1 2 3 4 5 6 7 8

N de nios

72

106

153

40

18

Determine e interprete: Mediana y promedio aritmtico

14

Profesora: Cecilia Larran R.

Algunas veces tenemos datos secundarios tabulados en intervalos para realizar un anlisis estadstico, para el clculo de la Mediana se procedemos de la siguiente manera:
1. Determinamos la mitad de los casos: Ejemplo: Edad ni 20 30 2 30 40 3 40 50 8 50 60 5 60 - 70 4 Total n = 22 Ni 2 5 13
n 2 = 22 2

= 11

La Mediana se encuentra (aproximadamente) en el lugar 11 2. Para determinar el lugar 11, calculamos las frecuencias acumuladas Ni La Me se encuentra en el tercer intervalo: Mediana [40, 50) 40 lmite inferior del intervalo 3. Determinamos la amplitud del intervalo (10), cuantos casos hay en el intervalo anterior (5) y cuantos casos hay en el intervalo de la mediana (8) 4. Aplicamos la frmula *
M e d ia n a = lim
in f

n - N +a j 2 n j

j- 1

= 40 +10(11 5): 8 = 47,5 aos

Aproximadamente, el 50% de las personas ms jvenes tienen edad entre 20 47,5 aos o el 50% de las personas mayores tienen edad entre 47,5 y 70 aos.
* La frmula se obtuvo interpolando linealmente

Propiedades de las medidas de tendencia central

i.

El promedio aritmtico (o media) equilibra las desviaciones positivas y negativas de los datos respecto a su valor, es decir (xi - x ) = di = 0; i= 1,2,, n. Si a los valores de una variable se les suma una constante, el promedio, la mediana y la moda aumentan en esa misma magnitud. Si los valores de una variable son multiplicados por una constante, el promedio, la mediana y la moda se amplificarn en la misma magnitud.

15

Profesora: Cecilia Larran R.

COMPARACIN ENTRE X , Me y Mo
Desde un punto de vista descriptivo las tres medidas proporcionan informacin complementaria, sus propiedades son distintas: Media aritmtica - Para el clculo de la media aritmtica se utilizan todos los datos; como se trabaja con la magnitud de los datos, se exige que el nivel de medicin de la variable X sea por lo menos en escala de intervalos. - Es preferible utilizar el promedio aritmtico como medida de resumen si los datos son homogneos. - La media es muy sensible ha observaciones atpicas, y un error e datos puede modificarla totalmente. Mediana - La Me utiliza menos informacin que la media, ya que solo tiene en cuenta el orden de los datos y no su magnitud, luego, para poder calcular la mediana el nivel de medicin de la variable X debe ser por lo menos en escala ordinal.
-

La Me se ve menos alterada si una observacin -o una pequea parte de las observaciones- contiene errores de medida o de trascripcin.

Moda - Para el clculo de la Mo la variable puede tener cualquier nivel de medicin, luego es la nica medida de tendencia central que se puede calcular si el nivel de medicin de la variable X es en escala nominal. Obs.: Es siempre recomendable calcular la media y la mediana, ambas medidas diferirn mucho cuando la distribucin de datos sea muy asimtrica, lo que sugiere heterogeneidad en los datos.
X Me asimetra La Me es la medida de tendencia central adecuada para

resumir los datos.

16

Profesora: Cecilia Larran R.

Distribucin Simtrica: X = Me = Mo
10

S i m tr ic a

0 2 .5 7 .5 1 2 .5 1 7 .5 2 2 .5 2 7 .5 3 2 .5

Distribucin con asimetra positiva Mo < Me < X


10

Distribucin con Asimetra Negativa Mo > Me > X


10

0 2.5 7.5 12.5 17.5 22.5 27.5 32.5

0 2.5 7 .5 12.5 17.5 22.5 27.5 3 2 .5

Ejercicio Se ha aplicado un test de agresividad a 40 presos de un centro penitenciario, obtenindose los resultados siguientes: Puntaje 15 20 20 25 25 30 30 35 35 40 40 45

xi

N de presos 8 14 7 6 3 2

a. Calcule e interprete el valor de la mediana b. Hallar la agresividad media (promedio) por preso. c. Indique el tipo de asimetra existente en los datos

El promedio aritmtico, es adecuado como medida de tendencia central? Justifique su respuesta

17

Profesora: Cecilia Larran R.

Medidas de Posicin
Mediana Cuartiles Quintiles Deciles - Percentiles

Son medidas que dividen una serie ordenada de observaciones en 2, 4, 5, 10, 100 partes iguales. Si dividimos la serie ordenada en dos partes iguales, tenemos la mediana. Si dividimos en 4 partes iguales, tenemos los cuartiles (Q) 1, 2 y 3. Cada parte le corresponde un 25%. Si dividimos en 5 partes iguales, tenemos los quintiles 1, 2, 3 y 4. Cada parte le corresponde un 20%. Si dividimos en 10 partes iguales tenemos los deciles (D), y en 100 partes iguales, los percentiles (Pp). p% | x(1) Mn. | Pp (100 - p)% | x(n) Mx. entre Pp y mx se encuentra

Entre Mn y Pp se encuentra el p% de los datos o el (100 p)% de los datos.

Tenemos: Q1 = P25

Me = Q2 = D5 = P50

Q3 = P75

Ejemplo: Los siguientes valores corresponden a los puntajes de un test de cultura general de una muestra profesionales.
60 75 56 82 68 86 76 72 92 32

Se ordenan los 10 datos de menor a mayor 32 56 60 68 72 75 76 82 86 92

% acumulado

10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

a) Percentil 25 = 60 b) Percentil 40 est comprendido entre 68 y 72, se puede tomar como P40 = 70,4 (Excel: Insertar funcin - Estadsticas Percentiles k = 0,4)

Resumen con 5 nmeros: es un medio eficaz para la descripcin de un conjunto de datos. Los elementos que lo componen son:

18

Profesora: Cecilia Larran R.

1. 2. 3. 4. 5.

Mnimo: el valor ms pequeo del conjunto de datos Cuartil 1 o percentil 25 Mediana o percentil 50 o cuartil 2 Cuartil 3 o percentil 75 Mximo: el valor ms grande en el conjunto de datos n = 15
74 79 79 85 89 89 90 97 98

Ejemplo: X = Puntaje de un test


12 22 32 56 60 68

mn 12

P25 56

Me 79

P75 89

mx 98

Se representan los 5 nmeros en la recta real respetando la magnitud


25% 25% 25% 25%

mn

P25

Me

P75

mx

Los 5 nmeros dividen al conjunto de datos en 4 subconjuntos, con o 25% de datos cada uno

Para datos agrupados en intervalos de clases, el clculo de percentiles es similar al de la mediana. np100 N j1 Clculo del percentil 95 (P95 , p = 95)
Pp = liminf + a j nj np 2295 = = 20,9 lugar 100 100

Ejemplo: Edad ni 20 30 2 30 40 3 40 50 8 50 60 5 60 - 70 4 Total n = 22

Ni 2 5 13 18 22

aproximadamente el P95 se encuentra en el lugar o posicin 20,9


P95 se encuentra en el ltimo intervalo [60, 70]

liminf = 60 amplitud aj = 10 frecuencia acumulada anterior Nj-1 = 18 frecuencia absoluta nj= 4

luego P95 =

19

Profesora: Cecilia Larran R.

MEDIDAS DE VARIABILIDAD O DISPERSIN

Las medidas de tendencia central (promedio, mediana, moda) y los percenctiles, dan informacin incompleta, acerca de las observaciones. Ejemplo: Los puntajes (X) obtenidos en una escala de autoritarismo por 2 grupos de dirigentes polticos son los siguientes: Grupo 1 : Grupo 2 : 4 1 3 4 5 3 6 5 4 6 5 8 5 2 7 7 5 5 6 9

En ambos casos el promedio aritmtico o media aritmtica es 5 (x = 5) , pero sus grficos son distintos Diagramas de puntos

Los diagramas de ambos grupos muestran que los puntajes se distribuyen simtricamente respecto al 5, pero en el grupo 1 existe una menor dispersin que en el grupo 2, es decir, los grupos tienen igual promedio pero la variabilidad de los puntajes respecto a la media es distinta. Las medidas de variabilidad indican la dispersin de los datos obtenidos por los sujetos o las unidades de medicin. Cuando los datos estn con baja dispersin se dice que es homogneo. Cuando estn altamente disperso se dice que es heterogneo. Las medidas de dispersin ms utilizadas son las siguientes: Amplitud o rango o recorrido, desviacin estndar, varianza, coeficiente de variacin y rango intercuartlico.
20

Profesora: Cecilia Larran R.

Rango o recorrido. Es la distancia en la escala de medidas entre los valores mayor y menor. Rango = valor mximo valor mnimo En el grupo1: rango es 7 3 = 4 y en el grupo 2 rango es 9 1 = 8 lo que implica que el segundo grupo tiene puntajes ms dispersos.
El rango utiliza poco debido a marcada inestabilidad. Si hay un valor extremo en la distribucin se tendr la impresin de que la dispersin es grande, cuando en realidad si omitisemos ese valor podramos concluir que es una distribucin compacta.

Desviacin estndar o desviacin tpica: es la raz cuadrada de la media de las desviaciones al cuadrado. Dado un conjunto (o muestra) de datos x1, x2, ,xn de una variable X con nivel de medicin en escala de intervalos o de razn, se define la desviacin estndar o desviacin tpica como el promedio de las desviaciones d los puntos xi respecto a su promedio aritmtico.
n

(x
Desviacin estndar:

- x)2

s=

i =1

Las desviaciones di = (xi - x ) se elevan al cuadrado para convertirlas en positivas, adems recuerde que
n

La desviacin estndar toma valores no negativos y mide la dispersin: a mayor desviacin estndar mayor dispersin.

(x
i =1

- x) = 0

y se extrae la raz cuadrada para que la medida resultante tenga la misma unidad de medicin de la variable.

El cuadrado de la desviacin estndar s2, se denomina varianza.

s2 =

(x
i=1

x)2

n
21

Profesora: Cecilia Larran R.

Del ejemplo de Puntaje de autoritarismo:


Grupo 1 x
3 4 4 5 5 5 5 6 6 7 50

Grupo 2

x-x
-2 -1 -1 0 0 0 0 1 1 2 0

(x - x)
4 1 1 0 0 0 0 1 1 4 12

x
1 2 3 4 5 5 6 7 8 9 50

x-x
-4 -3 -2 -1 0 0 1 2 3 4 0

(x - x) 2
16 9 4 1 0 0 1 4 9 16 60

Total

Grupo 1 2

n 10 10

Promedio

Desviacin estndar

Varianza (1,0954)2 (2,4495)2

50 = 5 ptos 10 50 = 5 ptos 10

12 = 1,0954 ptos 10 60 = 2,4495 ptos 10

Ventajas de la desviacin estndar - Permite una interpretacin precisa de los valores dentro de una distribucin. - La desviacin como el promedio pertenece a un sistema matemtico que permite su uso en aspectos estadsticos ms avanzados. Si los datos se encuentran agrupados en k clases o categoras
k

Varianza s2 = x

(x x) n
2 i i=1

22

Profesora: Cecilia Larran R.

N de hijos xi 0 1 2 3 4 Total

N de familias ni 2 4 9 4 1 20

xi ni
0 4 18 12 4 38

(x i - x) 2 n i
7,22 3,24 0,09 4,84 4,41 19,8

x=

38 20

s2 =

19,8 20

= 1,9 Desviacin estndar s = varianza = 0,99 = 0,995 hijos

= 0,99

Propiedades de la desviacin estndar - Si se suman a todos los valores de la variable un valor constante, el promedio queda aumentado en ese valor, pero la desviacin estndar permanece igual. - Si se multiplica cada valor original por una constante, tanto el promedio como la desviacin estndar queda amplificados por ese valor. - La desviacin estndar de una constante es cero. Observaciones:
N

Notacin de la varianza poblacional 2 =


poblacin, N tamao de la poblacin.

(x
i i=1

)2

; media de la

23

Profesora: Cecilia Larran R.

- En algunos textos de Estadstica la frmula de la varianza de la muestra viene dada por:


n

s2 =

(xi -x)2
i=1

n-1

llamada varianza corregida y se utiliza en Inferencia Estadstica como la estimacin de la varianza poblacional 2

Coeficiente de variacin (CV): Es una medida relativa de variabilidad.


CVx = Sx X

Se utiliza para comparar la dispersin de variables que aparecen en unidades distintas de medicin o que toman valores de magnitudes muy diferentes, ya que no depende de la unidad de medicin de las variables. CV*100 % de variabilidad.

El rango intercuatlico se define como la diferencia entre el tercer y el primer cuartel, RI = Q3 Q1, es la longitud del 50% central de la distribucin de datos
RI se usa con mayor frecuencia acompaando a la mediana cuando la presencia de valores extremos hace poco recomendable el uso del promedio.
Defectos. No permite hacer una interpretacin precisa de un valor dentro de una distribucin. No interviene en relaciones matemticas importantes en la inferencia estadstica.

24

Profesora: Cecilia Larran R.

Ejercicio
Se ha aplicado un test de agresividad a una muestra aleatoria de 40 presos de un centro penitenciario, obtenindose los resultados siguientes: Puntaje
15 20 20 25 25 30 30 35 35 40 40 45

Marca de clase xi

N de presos ni
7 8 13 6 4 2

1. Hallar la agresividad media (promedio). 2. Calcular la desviacin estndar (utilice varianza corregida) 3. Calcule e interprete el valor de percentil 60. 4. Suponga que los sujetos que superan los 33 puntos son considerados altamente peligrosos, qu porcentaje de sujetos supera ese puntaje? 5. Construya un grfico adecuado.

25

Profesora: Cecilia Larran R.

Descripcin Conjunta de dos Variables

Los datos que tratamos de investigar pueden incluir valores de dos (o ms) variables relacionadas entre s, por lo que es interesante su estudio conjunto. Los elementos de una muestra o de una poblacin clasificarse con dos criterios o variables diferentes. Variables cualitativas

Si las variables son cualitativas se organizan los datos en una tabla de doble entrada o tabla de contingencia de la forma:
VARIABLE Tabla de contingencia VARIABLE X

Y F1 F2 F3 . . . Ff Total

C1 n11 n21 n31


.

C2 n12 n22 n32


.

C3 n13 n23 n33


.

... ... ... ...


.

Cc n1c n2c n3c


. .

. . .

. .

nf1 n.1

nf2 n.2

nf3 ... n.3 ...

nfc n.c

Total n1. n2. n3. . . . nf. n..

Grficos adecuados: Barras agrupadas, Sectorial, Barras divididas. Medidas de resumen: Asociacin

Ejemplo: Con el objeto de analizar si existe relacin entre el nivel de consumo de marihuana y preferencia poltica se examin una muestra aleatoria de 1382 estudiantes universitarios, la informacin obtenida es la siguiente:

26

Profesora: Cecilia Larran R.

Nivel de consumo Preferencia Poltica A B C Total Nunca 479 247 172 898 Raras veces 173 47 45 265 Con frecuencia 119 15 85 219 Total 771 309 302 1382

Tabla de contingencia P_POLITI * N_CONSU N_CONSU NUNCA 479 62,1% 247 79,9% 172 57,0% 898 65,0% RARA VEZ 173 22,4% 47 15,2% 45 14,9% 265 19,2% CON FRECUENCIA 119 15,4% 15 4,9% 85 28,1% 219 15,8% Total 771 100,0% 309 100,0% 302 100,0% 1382 100,0%

P_POLITI

A B C

Total

Recuento % de P_POLITI Recuento % de P_POLITI Recuento % de P_POLITI Recuento % de P_POLITI

Porcentajes filas

100 95 90 85 80 75 70 65 60 55 50 45 40 35 30 25 20 15 10 5 0
C R N O AR U N N

Porcentaje

PREF. POLITICA
A B C

CA

FR

NIVEL DE CONSUMO

VE Z

EC U C EN IA

27

Profesora: Cecilia Larran R.

Variables cuantitativas

Las ciencias del comportamiento se ocupan de problemas que van ms all de la descripcin de una variable nica. Es frecuente que se pueda determinar el grado de relacin entre 2 o ms variables, ya que al tener este conocimiento, se puede predecir una variable a partir de la otra. Para expresar cuantitativamente el grado en que dos variables estn relacionadas, es necesario calcular un coeficiente de correlacin. Coeficiente de correlacin poblacional : Coeficiente de correlacin muestral: r Un coeficiente de correlacin : es un nmero que indica el grado de asociacin y la direccin de esa asociacin. Indica cmo vara o cambia una caracterstica cuando la otra caracterstica o variable asociada cambia. Sin el conocimiento de cmo una cosa vara con otra sera imposible hacer predicciones. La prediccin slo es posible basndose en el conocimiento de la relacin que hay entre 2 variables. Un coeficiente de correlacin nos proporciona 3 datos principales: - La existencia o no de una relacin entre las variables estudiadas. - La direccin de la relacin. - El grado de esta relacin. Para el clculo de r es preciso tener 2 conjuntos de medidas de los mismos individuos (o parejas de individuos que tengan alguna forma de relacin) Tabla de datos:
Sujeto X Y 1 x1 y1 2 x2 y2 3 x3 y3 n xn yn La tabla contiene n pares ordenados

Grfico adecuado: Diagrama de dispersin (muestra si hay relacin lineal entre las variables)

28

Profesora: Cecilia Larran R.

Ejemplos

a) Una correlacin positiva perfecta


X 2 4 5 6 7 8 9 10 12 13 Y 4 6 7 8 9 10 11 12 14 15

16 14 12 10 8 6 4 2 0 0 2 4 6 8 10 12 14

Al observar los pares se observa que la puntuacin de Y es 2 puntos ms alta que la de X. Y = X +2 (Ejemplos: satisfaccin laboral v/s ingresos, inteligencia v/s liderazgo, autoconcepto v/s depresin, autoconcepto v/s temor al fracaso)

b) Una correlacin elevada positiva (+0,76) (relacin directa)


X 13 12 10 10 8 6 6 5 3 2 Y 11 14 11 7 9 11 3 7 6 1
16 14 12 10 8 6 4 2 0 0 2 4 6 8 10 12 14

En general, personas con alto puntaje en x tambin tendrn alto puntaje en y. c) Una baja correlacin positiva (+0,14)
X 13 12 10 8 7 6 6 4 3 1 Y 7 11 3 7 2 12 6 2 9 6
14 12 10 8 6 4 2 0 0 2 4 6 8 10 12 14

d) Un caso de alta correlacin negativa (-0,7) (relacin inversa)


29

Profesora: Cecilia Larran R.

X 12 10 9 8 7 7 6 5 4 2

Y 7 3 8 5 7 12 10 9 13 11

14 12 10 8 6 4 2 0 0 2 4 6 8 10 12 14

El signo algebraico del coeficiente de correlacin tiene que ver, por lo tanto, con la direccin de relacin entre dos cosas, ya sea directa o inversa.

Significado de la correlacin
El valor de de la correlacin puede variar desde +1 (lo que indica correlacin positiva perfecta), pasando por el 0 (que indica independencia completa o ninguna relacin), hasta -1 (que significa perfecta correlacin negativa) La magnitud se relaciona con la intensidad o estrechez de la relacin.

Coeficiente de correlacin lineal de Pearson

r=
s xy =

s xy
sxs y

(x -x)(y -y)
i =1 i i

es la Covarianza de (x,y) , indica la direccin de la relacin.

30

Profesora: Cecilia Larran R.

Ejemplo:
sujeto
1 2 3 4 5 6 7 8 9 10 Total promedio

x
13 12 10 10 8 6 6 5 3 2 75 x =7,5

y
11 14 11 7 9 11 3 7 6 1 80 y = 8,0

(x - x )
5,5 4,5 2,5 2,5 0,5 -1,5 -1,5 -2,5 -4,5 -5,5

(y - y )
3 6 3 -1 1 3 -5 -1 -2 -7

(x - x )2
30,25 20,25 6,25 6,25 0,25 2,25 2,25 6,25 20,25 30,25 124,5

(y - y )2
9 36 9 1 1 9 25 1 4 49 144

(x - x )(y - y )
16,5 27 7,5 -2,5 0,5 -4,5 7,5 2,5 9 38,5 102

Desviacin estndar de X: s x =

(x - x)
n

124,5 = 3,528 10 144 = 3, 795 10

Desviacin estndar de Y: s y =

(y - y)
n

Covarianza de (x,y): s xy =

(x -x)(y -y)
n =

102 = 10,2 10 10,2 = 0,762 (3,528)(3,795)

Coeficiente de correlacin lineal de Pearson: rxy = Ejercicio:

Para determinada tarea en una fbrica, donde se necesita mucha destreza, se quiere investigar si la productividad en el trabajo debe ser mayor al aumentar los aos de experiencia. Se seleccionaron al azar diez empleados de entre lo que tienen ese trabajo. Los datos de aos de experiencia y medicin de productividad son los siguientes: Empleado Aos de experiencia Productividad 01 4 80 02 6 82 03 10 88 04 2 81 05 12 92 06 6 85 07 5 83 08 10 86 09 13 91 10 9 90

Realizar el diagrama de dispersin y calcular el coeficiente r de Pearson. Interprete los resultados

31

Profesora: Cecilia Larran R.

Ejercicio: El siguiente conjunto de datos fue tomado a grupos de trabajadoras de Inglaterra y Gals en el perodo de 1990-92. Cada grupo est formado por trabajadores de la misma profesin (mdicos, trabajadores textiles, decoradores,...etc.) y en cada uno de los veinticinco grupos se han observado dos variables: el ndice de estandarizado de consumo de cigarrillos y el ndice de muertes por cncer de pulmn.
Tabla 1
Grupo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 ndice fumadores Mortalidad X Y 77 84 137 116 117 123 94 128 116 155 102 101 111 118 93 113 88 104 102 88 91 104 104 129 107 86 112 96 113 144 110 139 125 113 133 146 115 128 105 115 87 79 91 85 100 120 76 60 66 51

1.1. Obtenga un grfico que permita analizar si los ndices estn correlacionados. (realice comentarios) 1.2. Determine e interprete el coeficiente de correlacin lineal de Pearson 1.3. Si evaluamos la formula rPearson n-2 y el resultado es 2 1- r superior al valor 1,714, tendramos evidencia estadstica para concluir que hay una relacin directa entre consumo de cigarros y mortalidad por cncer al pulmn. En este caso, qu indican los datos de la tabla 1?

Observacin: Cuando se quiere investigar la fuerza de una relacin entre dos variables con mtodos estadsticos, existen medidas de asociacin o correlacin. Para cada nivel de medicin (nominal, ordinal, intercalar, razn) existes medidas de asociacin adecuadas, que las estudiaremos en inferencia estadstica.

32

Profesora: Cecilia Larran R.

Anda mungkin juga menyukai