TEMA 1
UNED
CONCEPTOS BSICOS Y
ORGANIZACIN DE DATOS
2010
UNED
Introducci
Introduccin al an
anlisis de datos
LA INVESTIGACI
INVESTIGACIN EN PSICOLOG
PSICOLOGA
Carmen Voces
2010
TEMA 1
UNED
Sistem
Sistemtico:
tico: se trata de un procedimiento que tiene etapas diferenciadas
Replicable:
Replicable: los datos obtenidos mediante su uso tienen que poder ser replicados
replicados o refutados
por cualquier investigador interesado
Introducci
Introduccin al an
anlisis de datos
ESTAD
ESTADSTICA DESCRIPTIVA E INFERENCIAL
Carmen Voces
TEMA 1
Estad
Estadstica: se ocupa de la sistematizaci
sistematizacin, recogida, ordenaci
ordenacin y presentaci
presentacin de los datos
referentes a un fen
dico, con
fenmeno que presenta variabilidad o incertidumbre para su estudio met
met
objeto de hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones. Teniendo
en cuenta las funciones de la estad
estadstica, podemos considerar dos grandes reas:
Estad
Estadstica Descriptiva:
Descriptiva: organiza y resume conjuntos de observaciones procedentes de una
una
muestra o de la poblaci
poblacin total, en forma cuantitativa. Este resumen puede hacerse mediante
mediante
tablas, gr
grficos (tema 1) o valores num
numricos:
En el caso de una variable podemos recurrir a:
El m
mtodo cient
cientfico, por tanto, proporciona una manera de actuar para afrontar una investigaci
investigacin, a
trav
travs de las siguientes fases interdependientes:
a) ndices de tendencia central (tema 2): cules son los valores ms habituales de esa
variable?
1. Definici
Definicin del problema
b) Estad
Estadsticos de variabilidad (tema 3): hasta qu punto son similares o diferentes entre s?
c) Estad
Estadsticos de asimetr
asimetra (tema 3): en qu grado las observaciones se reparten
equilibradamente por encima y por debajo de la tendencia central?
2. Deducci
Deduccin de hip
hiptesis contrastables
3. Establecimiento de un procedimiento de recogida de datos
Introducci
Introduccin al
an
anlisis de datos
a) Coeficientes de correlaci
correlacin (tema 4): hasta qu punto estn ambas variables
relacionadas entre s?
5. Discusi
Discusin de dichos resultados y b
bsqueda de conclusiones
b) Ecuaciones de regresi
regresin (tema 4): Es posible predecir el valor de una en funcin de otra?
6. Elaboraci
Elaboracin de un informe de la investigaci
investigacin
2010
TEMA 1
1 PARTE
Conceptos bsicos
Mtodo cient
cientfico: El m
mtodo cient
cientfico consiste en dar raz
razn sistem
sistemtica, emp
emprica y en lo posible
experimental, de los fen
fenmenos (Yela
(Yela,, 1994). El m
mtodo cient
cientfico se caracteriza por ser sistem
sistemtico
y replicable.
4. An
Anlisis de los resultados obtenidos
Estad
Estadstica Inferencial:
Inferencial: se realizan inferencias acerca de una poblaci
poblacin bas
basndose en los
datos de una muestra. Para realizar estas generalizaciones de la muestra a la poblaci
poblacin total
se utiliza el c
clculo de probabilidades (temas 5 a 8)
2010
UNED
Introducci
Introduccin al an
anlisis de datos
ESTAD
ESTADSTICA DESCRIPTIVA E INFERENCIAL
TEMA 1
Poblaci
Poblacin: es el conjunto de todos los elementos que cumplen una
determinada caracter
caracterstica objeto de estudio
Muestra: es un subconjunto cualquiera de una poblaci
poblacin
Par
Parmetro: es una propiedad descriptiva (una medida) de una poblaci
poblacin
Estad
Estadstico: es una propiedad descriptiva (medida) de una muestra
UNED
Introducci
Introduccin al an
anlisis de datos
MEDICI
MEDICIN Y ESCALAS DE MEDIDA
TEMA 1
Medici
Medicin es el proceso por el cual se asignan n
nmeros a objetos o caracter
caractersticas
seg
segn determinadas reglas.
Llamamos caracter
caractersticas a cualquier propiedad de objetos o personas que
deseamos estudiar y modalidad a las distintas formas de presentarse esta
caracter
caracterstica. As
As pues, la medici
medicin consiste en asignar un n
nmero a cada una de
las modalidades de una caracter
caracterstica, convirtiendo algunas relaciones entre
modalidad en sus correspondientes relaciones entre los n
nmeros que representan
su medida.
Escala de medida: conjunto de reglas o modelos desarrollados para la asignaci
asignacin
de n
nmeros a los valores de las variables. Un ejemplo de escala de medida
medida es la
escala cent
centgrada de temperatura, que se basa en asignar 0
0 a la temperatura de
congelaci
congelacin del agua y 100
100 a la de ebullici
ebullicin.
En funci
funcin de las relaciones que puedan verificarse emp
empricamente entre las
modalidades de las caracter
caractersticas, y siguiendo la clasificaci
clasificacin de Stevens (1946),
pueden distinguirse cuatro tipos de escala de medida: nominal, ordinal,
ordinal, de intervalo
y de raz
razn.
2010
UNED
Tipo
Nominal
Ordinal
Intervalo
Raz
Razn
2010
Introducci
TEMA 1
Introduccin al an
anlisis de datos
MEDICI
MEDICIN Y ESCALAS DE MEDIDA (STEVENS, 1946)
2010
UNED
Introducci
Introduccin al an
anlisis de datos
VARIABLES: CLASIFICACI
CLASIFICACIN Y NOTACI
NOTACIN
TEMA 1
Caracter
Caractersticas
bsicas
Relaciones v
vlidas
Ejemplos
Los n
nmeros
identifican y clasifican
objetos
Adem
Adems, los n
nmeros
indican las posiciones
relativas de los objetos
Adem
Adems, relaciones
del tipo mayor que
que o
igual que
que
Nivel socioecon
socioeconmico,
nivel de estudios,
posici
posicin en el ranking
de la ATP, grado de
satisfacci
satisfaccin
Adem
Adems, hay una
unidad de medici
medicin
com
comn
Adem
Adems, igualdad o
desigualdad de
diferencias
Temperatura, fecha de
calendario, inteligencia
Adem
Adems, el punto cero
es absoluto
Adem
Adems, igualdad o
desigualdad de
razones
Clasificaci
Clasificacin de las variables
Dicotmica
Nominal
Cualitativa
Dicotomizado
Politmica
Ordinal
Cuasicuantitativa
Politomizada
Discreta
Intervalo
Cuantitativa
Razn
Continua
Notaci
maysculas. Para referirnos a un valor cualquiera de la variable X se
se
Notacin: letras latinas may
utiliza el sub
nmero de elementos que componen la muestra, por lo
subndice i (X
(Xi) siendo n el n
que, de manera gen
genrica, designaremos la variable como: Xi siendo i = 1, 2, 3, ..., n.
2010
UNED
UNED
TEMA 1
Introducci
Introduccin al an
anlisis de datos
DISTRIBUCIONES DE FRECUENCIAS
TEMA 1
Una distribuci
distribucin de frecuencias es una representaci
representacin de la relaci
relacin entre un conjunto de
medidas exhaustivas y mutuamente excluyentes y la frecuencia de cada una de ellas (Hay,
1988).
Adem
Adems de la organizaci
organizacin de los datos, la distribuci
distribucin de frecuencias cumple dos funciones
fundamentales: ofrecer la informaci
informacin necesaria para realizar representaciones gr
grficas y
facilitar los c
clculos para obtener los estad
estadsticos muestrales que ser
sern objeto de atenci
atencin en
los pr
prximos temas.
2 PARTE
Distribuciones de frecuencias
Frecuencia absoluta (ni): nmero de veces que se repite cada uno de los valores de una variable.
La suma de todas las frecuencias absolutas representa el total de la muestra (n)
Proporcin o frecuencia relativa (pi): cociente entre la frecuencia absoluta de cada valor de la
variable (ni) y el nmero total de observaciones (n). Formalmente pi = ni/n
Porcentaje (Pi): valor de la frecuencia relativa (pi) multiplicado por 100. Formalmente: Pi = pi x 100
Frecuencia absoluta acumulada (na): nmero de veces que se repite cada modalidad o
cualquiera de las modalidades inferiores
Proporcin acumulada o frecuencia relativa acumulada (pi): cociente entre la frecuencia
absoluta acumulada de cada clase y total de observaciones (n). Formalmente pa = na/n
Porcentaje acumulado (Pa): valor de la frecuencia relativa acumulada (pa) multiplicado por 100.
Formalmente: Pa = pa x 100
2010
UNED
Carmen Voces
Introducci
Introduccin al an
anlisis de datos
DISTRIBUCIONES DE FRECUENCIAS
TEMA 1
X = las diferentes
modalidades o
categoras de la
variable
X
Primaria
ESO
FP
Diplomatura
Licenciatura
UNED
pi
0,6
0,4
1,0
Pi
60
40
100
Introducci
Introduccin al an
anlisis de datos
DISTRIBUCIONES DE FRECUENCIAS
TEMA 1
ni = frecuencia absoluta,
nmero de observaciones
cada categora. n = n
total de observaciones
pi = frecuencia
relativa o
proporcin
Pi = porcentaje
pi = ni/n
pi
0,32
0,28
0,18
0,10
0,12
1,0
Pi = ni/n 100
Pi = pi 100
Pi
32
28
18
10
12
100
Valores de la
variable
Frecuencia
absoluta
Frecuencia
relativa
Porcentaje
Frecuencia
absoluta
acumulada
Frecuencia
relativa
acumulada
Porcentaje
acumulado
ni
pi
Pi
na
pa
Pa
Primaria
13
0,32
32
13
0,32
32
ESO
11
0,28
28
24
0,60
60
FP
0,18
18
31
0,78
78
Diplomatura
0,10
10
35
0,88
88
Licenciatura
0,12
12
40
1,00
100
n = 40
1,0
100
X = las diferentes
modalidades o
categoras de la
variable se
presentarn
ordenadas
10
ni
24
16
n = 40
ni
13
11
7
4
5
n = 40
2010
11
2010
12
UNED
Introducci
Introduccin al an
anlisis de datos
DISTRIBUCIONES DE FRECUENCIAS
TEMA 1
Valores de la
variable
Frecuencia
absoluta
Frecuencia
relativa
Porcentaje
Frecuencia
absoluta
acumulada
Frecuencia
relativa
acumulada
Porcentaje
acumulado
ni
pi
Pi
na
pa
Pa
Primaria
13
0,32
32
13
0,32
32
ESO
11
0,28
28
24
0,60
60
FP
0,18
18
31
0,78
78
Diplomatura
0,10
10
35
0,88
88
0,12
12
40
1,00
100
n = 40
1,0
100
2010
Introducci
Introduccin al an
anlisis de datos
DISTRIBUCIONES DE FRECUENCIAS
ID Edad
11
54
12
67
13
74
14
26
15
35
16
56
17
69
18
57
19
48
20
29
ID Edad
21
35
22
52
23
49
24
47
25
55
26
69
27
75
28
28
29
48
30
64
ID Edad
31
71
32
29
33
44
34
48
35
59
36
58
37
47
38
49
39
37
40
57
ID Edad
2
26
14 26
Valores
6
28
(edad)
ordenados 28
28
de menor a
20 29
mayor
32 29
5
34
3
35
15 35
21 35
ID Edad
39 37
33 44
8
45
9
47
24 47
37 47
19 48
29 48
34 48
23 49
ID Edad
38 49
1
50
10 52
22 52
11 54
25 55
16 56
18 57
40 57
36 58
Porcentaje
acumulado
pi
Pi
0,15
15
na
pa
Pa
0,15
0,30
15
30
0.45
45
0,35
35
16
0,80
80
0,15
15
19
0,95
95
0,05
20
1,00
100
n = 20
1,00
100
ni
UNED
ID Edad
35 59
4
64
30 64
12 67
17 69
26 69
31 71
7
73
13 74
27 75
Frecuencia
relativa
acumulada
TEMA 1
tanto, la variable toma valores entre 26 y 75 (ambos incluidos), hay 75 26 + 1 = 50 valores distintos.
Frecuencia
absoluta
acumulada
Frecuencia
absoluta
2010
Ejemplo: Edad (ejemplo 1.1). El participante de menor edad tiene 26 aos y el mayor 75, por lo
Porcentaje
Valores de la
variable
13
ID Edad
1
50
2
26
3
35
4
64
5
34
6
28
7
73
8
45
9
47
10
52
TEMA 1
UNED
Introducci
Introduccin al an
anlisis de datos
DISTRIBUCIONES DE FRECUENCIAS
Licenciatura
UNED
Frecuencia
relativa
14
Introducci
Introduccin al an
anlisis de datos
DISTRIBUCIONES DE FRECUENCIAS
TEMA 1
Valores de la
variable
Frecuencia
absoluta
Frecuencia
relativa
Porcentaje
Frecuencia
absoluta
acumulada
Frecuencia
relativa
acumulada
Porcentaje
acumulado
ni
pi
Pi
na
pa
Pa
26 - 35
36 - 45
46 - 55
56 - 65
66 - 75
10
3
13
7
7
n = 100
0,25
0,08
0,33
0,17
0,17
1
25
8
33
17
17
100
10
13
26
33
40
0,25
0,33
0,66
0,83
1,00
25
33
66
83
100
15
2010
16
UNED
Introducci
Introduccin al an
anlisis de datos
DISTRIBUCIONES DE FRECUENCIAS
TEMA 1
X
25,5 - 35,5
35,5 - 45,5
45,5 - 55,5
55,5 - 65,5
65,5 - 75,5
30,5
40,5
50,5
60,5
70,5
Porcentaje
Frecuencia
absoluta
acumulada
Frecuencia
relativa
acumulada
Porcentaje
acumulado
pi
Pi
na
pa
Pa
0,25
0,08
0,33
0,17
0,17
1
25
8
33
17
17
100
10
13
26
33
40
0,25
0,33
0,66
0,83
1,00
25
33
66
83
100
Frecuencia
absoluta
Frecuencia
relativa
ni
10
3
13
7
7
n = 100
2010
Intervalo: sinnimo del concepto de modalidad, es cada uno de los grupos de valores
que ocupan una fila en una distribucin de frecuencias
Lmites aparentes, virtuales o informados: son los valores mayor y menor de cada
intervalo, teniendo en cuenta el nivel de precisin del instrumento de medida
17
Punto medio del intervalo: es la semisuma de los lmites exactos o de los lmites
aparentes
Amplitud del intervalo: es la diferencia entre el lmite exacto superior y el lmite
exacto inferior (ejemplo, estatura en centmetros, I = 0,01: 1,575 1,915 = 0,34), o
entre el lmite aparente superior y el lmite aparente inferior ms la unidad de medida
(1,58 1,91 + 0,01 = 0,34).
Intervalo abierto: un intervalo que, por lo menos tericamente, no tiene lmite inferior
o lmite superior.
2010
UNED
UNED
TEMA 1
Lmites reales o exactos son los valores mximo y mnimo que tendra cada
intervalo si el instrumento de medida tuviera una precisin perfecta.
Punto
Medio
Introducci
Introduccin al an
anlisis de datos
DISTRIBUCIONES DE FRECUENCIAS
Segn la tabla anterior la variable edad no puede tomar valores entre 45 y 46 aos, lo cual no es
cierto en la prctica. Debemos considerar esta variable como continua en el intervalo, es decir,
tiene que poder adoptar cualquier valor entre 26 y 75, de forma que el lmite superior exacto de
un intervalo coincida con el lmite inferior exacto del siguiente. Los valores que se leen en la
tabla anterior son lmites informados o aparentes.
Lmites exactos
Xi
UNED
TEMA 1
18
Introducci
Introduccin al an
anlisis de datos
REPRESENTACIONES GR
GRFICAS
TEMA 1
DIAGRAMA DE BARRAS
3 PARTE
Representaciones grficas
14
12
Eje de ordenadas:
10
Frecuencias (absolutas o
relativas)
8
6
4
Licenciado
Diplomado
FP
ESO
Primarios
Eje de abscisas:
Modalidades, categoras o valores de la variable
2010
Carmen Voces
2010
20
UNED
Introducci
Introduccin al an
anlisis de datos
REPRESENTACIONES GR
GRFICAS
TEMA 1
UNED
Introducci
Introduccin al an
anlisis de datos
REPRESENTACIONES GR
GRFICAS
Es una
representacin
circular de
variables
cualitativas o
cuasicuantitativas,
en la que cada
modalidad ocupa
un sector con una
superficie
proporcional a su
frecuencia.
Licenciado
Diplomado
FP
ESO
Eje de ordenadas:
Frecuencias acumuladas
(absolutas o relativas)
40
35
30
25
20
15
10
5
0
Primarios
DIAGRAMA DE SECTORES
13%
32%
10%
18%
27%
Primarios
ESO
FP
Diplomado
Licenciado
Eje de abscisas:
Modalidades, categoras o valores de la variable
2010
UNED
Introducci
Introduccin al an
anlisis de datos
REPRESENTACIONES GR
GRFICAS
21
2010
TEMA 1
UNED
TEMA 1
22
Introducci
Introduccin al an
anlisis de datos
REPRESENTACIONES GR
GRFICAS
Expresan con
dibujos alusivos al
objeto de estudio
las frecuencias de
las modalidades
de la variable.
Estos grficos se
hacen
representando a
diferentes escalas
un mismo dibujo,
de tal manera que
el rea de cada
uno sea
proporcional a la
frecuencia de la
modalidad que
representa
2010
HISTOGRAMA
PICTOGRAMA
14
25
Eje de ordenadas:
20
15
10
5
0
TEMA 1
Es un error hacer la
representacin con una
escala tal que el
permetro del dibujo sea
proporcional a la
frecuencia, ya que a
frecuencia doble,
correspondera un dibujo
de rea cudruple, lo que
dara un efecto visual
engaoso
23
Frecuencias (absolutas o
relativas) o Frecuencias
acumuladas (absolutas o
relativas)
12
10
8
6
4
2
0
25,5
35,5
45,5
55,5
65,5
75,5
Eje de abscisas:
Lmites exactos de cada uno de los intervalos en que se han agrupado los
datos (todos con la misma amplitud), o los puntos medios de los intervalos.
2010
24
UNED
Introducci
Introduccin al an
anlisis de datos
REPRESENTACIONES GR
GRFICAS
TEMA 1
Para variables discretas, el polgono de frecuencias es la figura que resulta de unir los
extremos superiores de las que hubieran sido las barras si se hubiera hecho un diagrama de
barras
Para variables continuas podemos decir lo mismo pero referido a los puntos medios de las
bases superiores de los rectngulos correspondientes a un hipottico histograma construido
con esos mismos datos
Introducci
Introduccin al an
anlisis de datos
REPRESENTACIONES GR
GRFICAS
TEMA 1
UNED
POL
POLGONO DE FRECUENCIAS
Ejemplo: Edad
POL
POLGONO DE FRECUENCIAS
14
12
Eje de ordenadas:
10
Frecuencias (absolutas o
relativas) o Frecuencias
acumuladas (absolutas o
relativas)
8
7
6
8
6
Eje de ordenadas:
Frecuencias (absolutas o
relativas) o Frecuencias
acumuladas (absolutas o
relativas)
25,5
35,5
45,5
55,5
65,5
75,5
1
0
0
Eje de abscisas: Valores observados en la variable ordenados de forma ascendente segn su magnitud
2010
UNED
Introducci
Introduccin al an
anlisis de datos
REPRESENTACIONES GR
GRFICAS
25
2010
TEMA 1
UNED
Hombre
Mujer
Casado
12
12
Divorciado
Soltero
Viudo
POL
POLGONO DE BARRAS CONJUNTO
26
Introducci
Introduccin al an
anlisis de datos
REPRESENTACIONES GR
GRFICAS
TEMA 1
Representar gr
grficamente dos variables cuantitativas medidas conjuntamente,
conjuntamente, que
adem
adems se puede representar e un plano cartesiano: diagrama de dispersi
dispersin o nube de
puntos. En este diagrama cada par de valores se representa como un punto que queda
determinado por sus coordenadas X e Y, siendo X el eje horizontal,
horizontal, o eje de abscisas, e Y el
eje vertical, o eje de ordenadas.
Las ventajas del diagrama de dispersi
dispersin que no presentan los diagramas de barras es que
permite visualizar muy claramente si hay una relaci
relacin clara entre las variables:
variables: si en el
diagrama de dispersi
n
dispersin se observa que cuando aumentan los valores en una variable tambi
tambi
aumentan o disminuyendisminuyen-, en promedio, los valores en la otra, se puede sospechar que hay
hay
relaci
relacin entre ellas.
14
12
10
8
6
4
2
Hombre
2010
Viudo
Soltero
Divorciado
Casado
Mujer
27
2010
28
UNED
Introducci
Introduccin al an
anlisis de datos
REPRESENTACIONES GR
GRFICAS
TEMA 1
Sujeto
11
12
13
14
15
16
17
18
19
20
Y
77
69
65
85
72
67
69
70
84
85
X
1,75
1,70
1,62
1,68
1,64
1,65
1,62
1,68
1,82
1,76
X
1,82
1,63
1,58
1,83
1,59
1,58
1,62
1,69
1,72
1,67
Y
89
75
72
89
72
63
71
83
69
75
Sujeto
21
22
23
24
25
26
27
28
29
30
X
1,59
1,55
1,63
1,74
1,73
1,77
1,59
1,67
1,79
1,71
Sujeto
31
32
33
34
35
36
37
38
39
40
X
1,57
1,73
1,69
1,59
1,68
1,73
1,63
1,67
1,79
1,73
Y
63
62
68
78
83
79
70
68
89
79
Y
58
69
72
78
72
80
75
67
84
86
100
90
TEMA 1
X
Lmites aparentes
70
60
50
pi
0,10
30
10
12
0,14
20
13
15
0,34
16
18
0,24
19
21
0,18
40
10
0
1,5
1,55
1,6
1,65
1,7
1,75
1,8
1,85
Altura
2010
UNED
Introducci
Introduccin al an
anlisis de datos
EJERCICIOS
80
Peso
Sujeto
1
2
3
4
5
6
7
8
9
10
UNED
Introducci
Introduccin al an
anlisis de datos
EJERCICIOS
29
2010
30
TEMA 1
UNED
Introducci
Introduccin al an
anlisis de datos
EJERCICIOS
TEMA 1
X
Lmites aparentes
pi
0,10
10
12
0,14
13
15
0,34
16
18
0,24
19
21
0,18
X
Lmites exactos
pi
6,5 9,5
0,10
9,5 12,5
ni = pi n
Valor informado
0,14
0,10150
0,14150
ni
15
21
10
15
12,5 15,5
0,34
0,34150
51
15,5 18,5
0,24
0,24150
36
11
12
27
12
10
18,5 21,5
0,18
0,18150
2010
Xi
ni
31
n = 50
Tabla 1: Distribucin de frecuencias de una prueba de memoria
2009
32
UNED
Introducci
Introduccin al an
anlisis de datos
EJERCICIOS
TEMA 1
Xi
Valor
Xi
Lmites exactos
informado
ni
pi
Pi
Pa
6,5 7,5
3/50 = 0,06
6%
100%
7,5 8,5
8/50 = 0,16
16%
94%
8,5 9,5
12/50 = 0,24
24%
86%
10
15
9,5 10,5
15
15/50 = 0,30
30%
74%
11
12
10,5 11,5
12
12/50 = 0,24
24%
44%
12
10
11,5 12,5
10
10/50 = 0,20
20%
20%
n = 50
2009
33