Anda di halaman 1dari 90

UNIVERSIDAD ARGENTINA JOHN F.

KENNEDY

PSICOESTADISTICA

Gua de Lectura

2016
1

Introduccin
Los objetivos del diseo curricular de Psicoestadstica estn formulados con el
objeto de alcanzar resultados positivos en tres aspectos diferentes: cognitivos, sociales y
motivacionales. Los mismos pueden sintetizarse en los siguientes:
1.

Introducir al alumno en el conocimiento de los fundamentos de la

tcnica estadstica, en sus aspectos descriptivos e inferenciales, a partir de la


comprensin de conceptos e ideas que estn implicados en el pensamiento y
en la lgica estadstica, tales como el determinismo y el azar.
2.

Desarrollar la capacidad de razonar estadsticamente, ponderando los

alcances de su aplicacin y la eleccin de lmites de confiabilidad la


estadstica aplicados a la investigacin social.
3.

Restringir el uso de formulaciones matemticas a un mnimo

indispensable, compatible con los conocimientos que brinda el nivel


secundario de enseanza.
4.

Identificar los roles que juegan en la vida cotidiana la probabilidad,

el azar, la incertidumbre y el pensamiento estadstico.


5.

Promover la utilizacin de la estadstica para tomar decisiones en

problemas sociales donde intervenga el azar, y el reconocimiento del poder


de comunicacin y pertinencia que implica su lenguaje especfico.
6.

Capacitar al futuro profesional para interpretar y evaluar la

significacin de los datos y las conclusiones de los diferentes informes de


investigacin a los que acceda en la bibliografa, congresos, jornadas,
papers, etc.
7.

Informar acerca de las posturas de la ciencia actual, revalorizando el

pensamiento estadstico como la nica forma de acercamiento a la


complejidad de los problemas sociales, ubicando al rea disciplinar
correspondiente en el campo de la investigacin cientfica.
8.

Potenciar la confianza del alumno en el aprendizaje sistemtico y

grupal.
9.

Desmitificar las fantasas del educando que subyacen en el estudio

de la matemtica, reconociendo en sta su carcter de lenguaje particular


para comunicar lo cotidiano.

En cuanto al contenido del diseo curricular, se propone enfatizar los significados y


las relaciones entre los conceptos, capacitando para el uso operativo de los mismos, en
detrimento de las deducciones formales de frmulas y de su empleo mecnico.
Los conceptos se introducirn, a partir de la presentacin de problemas que generen la
aproximacin intuitiva de los alumnos, la discusin y la confrontacin grupal.
Inicialmente se introducirn los temas que ayuden a reconocer el papel de la ciencia y la
investigacin en el mundo actual, y la necesidad de abordarlos a travs del uso de modelos
que llamaremos sistemas sociales, que incluyan los elementos fundamentales del problema
y sus relaciones.
Se plantea el rol del azar como resultado de la complejidad, su naturaleza
pluricausal y su incidencia en la vida cotidiana. Se conecta este concepto con una visin
indeterminista de la ciencia, asociando las nuevas miradas que significaron la fsica
cuntica y la teora del inconciente. Para la introduccin de esta temtica se propone la
lectura de La cuarta herida narcisstica de David Susel , El fin de las certidumbres de
Ilya Prigogine , Lo inconciente de Sigmund Freud y se toman ejemplos interesantes de
Al Azar. La suerte, la ciencia y el mundo de Ivar Ekeland y de La domesticacin del
azar de Ian Hacking.
Luego se introducen los conceptos de poblacin, muestra y variables, proponiendo
el anlisis de problemas sociales concretos para su discusin en pequeos grupos.
El siguiente tema corresponder a la estadstica descriptiva, sus tabulaciones y los ndices
que la representan, que se presentan a partir del trabajo grupal a partir de los datos de
investigaciones que proponen los docentes a la manera de ejemplos.
La introduccin de los conceptos de ndices estadsticos se har despus de la
discusin grupal acerca de lo que consideraran necesario para poder sintetizar los datos
recogidos. En este punto se enfatizar las caractersticas de cada medida de tendencia
central y de dispersin y la necesidad del uso de cada una de acuerdo a las necesidades que
plantee el problema.
Se trabajarn los conceptos de regresin y correlacin de la estadstica bivariada a
partir del anlisis de problemas que involucren la posible asociacin entre dos o ms
variables. Se discutirn y confrontarn las ideas de los alumnos sobre la causalidad lineal y
la causalidad compleja y la necesidad de simplificar sta a partir del modelo de la
correlacin. Se diferenciarn estos modelos de acuerdo a que se trate de variables
cuantitativas o cualitativas.

Luego se analizan los conceptos ligados a la probabilidad, trabajando la idea desde


la significacin del uso en el lenguaje cotidiano de este trmino. Se tomar alguna variable
social y se analizar su incidencia en una poblacin, cuantificando intuitivamente la
distribucin de los valores en la misma. Posteriormente, se trabajarn los datos de ejemplos
ofrecidos por los docentes, y se analizarn las propiedades ms importantes de la
probabilidad a partir de la operacin sobre los datos.
La introduccin del tema de los modelos probabilsticos y el particular del modelo
normal para representar el comportamiento de ciertas variables, se har a partir de la
proyeccin de los resultados en muestras cada vez ms grandes, proponiendo el concepto
de distribucin probabilstica de una variable para su discusin. En este punto se
propondr la creacin grupal de una situacin en la que un comportamiento social normal
se altera por alguna circunstancia, la incidencia del disturbio y sus probables consecuencias
sociales y el alcance de un nuevo equilibrio futuro.
La necesidad de la estandarizacin del modelo normal se formular tratando de que
el alumno comprenda su utilidad y su alcance sin la mera utilizacin de una frmula de
conversin sin significacin para l. Se construir el concepto de estandarizacin apelando
a los conceptos de dispersin y desviacin estndar.
El siguiente tema a introducir es el de inferencia estadstica y se lo har a partir del
concepto de hiptesis y su necesidad de comprobacin a partir de una investigacin. Se
enfatizar la imposibilidad de confirmar una hiptesis cuando se toma un nmero grande
de datos pero se dejan de lado otros que adems, en general, no estn disponibles en el
campo de investigacin. La necesidad de utilizacin de muestras y la probable distribucin
de sus resultados culminan en la conceptualizacin de la distribucin muestral como la
llave para evaluar la posible intervencin del azar en los resultados. A partir de esto, se
promueve el trabajo grupal para arribar a la conclusin de que la estadstica slo puede
confirmar, dentro de un margen de error, si el resultado de la muestra es producto del azar
de muestreo o no, y que la confirmacin de la hiptesis de investigacin la realiza el
investigador a partir de esta informacin a su propio riesgo, ya que para un problema
existen muchas hiptesis posibles. En este punto se introducen los conceptos de hiptesis
nula, hiptesis alternativa, intervalo de confianza, nivel de significacin, errores de Tipo I
y II y pruebas de una cola y de dos colas, como lenguaje de una lgica estadstica que nos
permitir tomar decisiones frente a la incertidumbre que implica la variabilidad compleja
de los sistemas sociales.

Por ltimo, se propondr una discusin grupal que se base en la reproduccin del
recorrido que realiza la estadstica desde el inicio de la propuesta del anlisis de un
problema social hasta la elaboracin de las conclusiones del investigador. Este paso
tender ha integrar y reconstruir, cuando fuera necesario, la secuencia del razonamiento
estadstico, ponderando la significacin de sus conclusiones a partir del margen de error
que adopte el investigador y de sus limitaciones instrumentales.
Respecto de la metodologa de enseanza de la estadstica, se partir del supuesto
de que el educando construye su propio conocimiento en la interaccin social con otros. La
complejidad de este proceso que involucra a un sujeto social con su historia singular dentro
de una cultura determinada invalida cualquier intento de suponer una nica metodologa
posible, por lo que se sealarn algunas pautas desde lo didctico y lo interaccional que
parecen pertinentes para alcanzar los objetivos.
El rol docente se centrar fundamentalmente en la construccin de situaciones
didcticas tomando en cuenta los intereses y las vivencias de los alumnos, promoviendo la
aparicin de las ideas intuitivas del estudiante que, a partir de la argumentacin escrita u
oral, permitan un enriquecimiento conceptual en el trabajo individual en grupos
pequeos interactuando.
El trabajo sobre las los ejemplos prcticos permitir desarrollar una tarea de
aplicacin de los conceptos estudiados de manera progresiva para desarrollar una
investigacin

sobre

objetivos

predeterminados

que

habr

que

resignificar

peridicamente.
El docente priorizar la actividad de anlisis de los resultados y de la deteccin de
las posibles causas de error, valorando el surgimiento de alternativas para aumentar la
confianza y la motivacin de los estudiantes, lo que favorecer el proceso de aprendizaje
de la estadstica.
La introduccin de nuevos conceptos requerir del alumno una preparacin previa a
partir de una gua de lecturas de la materia que se le suministrar al iniciar las clases. La
lectura previa del tema favorecer el proceso reflexivo que favorezca la identificacin por
parte del alumno de sus dudas y sus pre-conceptos y la discusin grupal posterior. El
profesor

coordinar

la

discusin,

despejando

los

obstculos

enriqueciendo

conceptualmente el tema. Esta tarea posibilitar al docente la deteccin de las dificultades


en la aprehensin de los conceptos, e intensificar la discusin de algunos aspectos, como
as tambin los problemas de interaccin grupal que dificulten el proceso.

En cuanto a la evaluacin tomar como referencia los objetivos propuestos,


considerando los aspectos cognitivos, sociales y motivacionales.
Se priorizar en la evaluacin la adquisicin de la lgica del razonamiento
estadstico antes que en la correcta aplicacin operativa de frmulas. Tambin ser
importante evaluar la argumentacin y los recursos que utiliza el alumno para justificar sus
argumentos, en la interpretacin estadstica de una situacin social. La evaluacin ser una
situacin didctica ms en la que el docente podr valorar el proceso y tomar decisiones
acerca de las estrategias futuras, y el estudiante podr reflejar su compromiso y su trabajo
en la construccin de su aprendizaje.
La estrategia de evaluacin puede recurrir a diversos medios como: pruebas
escritas, realizacin de un proyecto de investigacin, anlisis de investigaciones
publicadas, exposiciones temticas, talleres de discusin, etc.
A travs de la evaluacin el profesor comunicar al alumno lo que considera significativo
en el proceso de aprendizaje de la estadstica y el alumno informar sobre sus intereses,
capacidades y dificultades.

Captulo 1. Concepcin de la ciencia en el Siglo XX


En el inicio del Siglo XXI la ciencia se encuentra en una encrucijada que pone en
cuestionamiento el paradigma epistemolgico reinante durante los ltimos tres siglos. La
vigencia de este paradigma hizo posible el avance del conocimiento de manera exponencial
y llev a la humanidad a contar con adelantos tecnolgicos inimaginables.
Si acordamos con Edgar Morin (1) que un paradigma comporta un cierto nmero
de relaciones lgicas, bien precisas entre conceptos; nociones bsicas que gobiernan todo
el discurso, podramos sealar que la revolucin cientfica que comienza en el siglo XX
es la primera de toda la historia que involucra simultneamente un cambio total de la red
de relaciones lgicas implcitas.
Las revoluciones cientficas anteriores implicaban cambios paradigmticos en el
seno de la ciencia en donde se producan, y a posteriori, originaban no cambios en el
resto de los campos cientficos. Es as que pueden identificarse distintos momentos, desde
Coprnico pasando por Galileo y Darwin y culminando en Freud en el siglo XIX, en los
que la inversin del discurso se produca en el seno de cada campo cientfico. Pero estas
revoluciones mantuvieron inclume un concepto que se vena formulado desde los griegos
y reafirmado por Descartes: La inteligibilidad de la naturaleza que se alcanzara a travs
de un sistema de ideas generales lgico, coherente y en funcin del cual pueda explicarse
toda experiencia. Se privilegiaba la razn y su consecuencia directa, el pensamiento
deductivo.
La consecuencia de esta permanencia conceptual fue que los nuevos paradigmas
conservaron dentro de su red relacional la nocin de determinismo cientfico, asociada al
principio de causa-efecto como fin ltimo de todo conocimiento objetivo.
La ciencia moderna tuvo su origen en Galileo cuando, en lugar de contestar los silogismos
de Aristteles con otro silogismo, subi a la torre de Pisa e introdujo el mtodo de
observacin y clculo como forma privilegiada de alcanzar la objetividad.

Pareci

alcanzar su punto culminante en Newton y su formulacin de las leyes de la dinmica, que


impuls a la ciencia a la bsqueda de leyes simples y eternas que explicaran el universo.
En este marco de referencia, el universo era una mquina determinista perfecta, y el
descubrimiento de las leyes que lo gobiernan implicaba el conocimiento del pasado, el
presente y el futuro del mismo.
Las leyes de la fsica describan un mundo idealizado y en permanente equilibrio.

La red conceptual del paradigma dominante en la ciencia clsica

relaciona:

verdades permanentes, causa-efecto, leyes simples, sistemas cerrados, equilibrio, orden,


observador objetivo, razonamiento deductivo, determinismo.
A fines del siglo XIX y comienzos del XX empieza el desmoronamiento de este
marco determinista cientfico, situacin que contina en los albores del siglo XXI y que
involucra a todos los campos cientficos, desde las ciencias fsicas pasando por las ciencias
naturales y culminando en las ciencias sociales.
El desarrollo de la teora atmica hizo caer las certezas mecanicistas, al demostrar
la inutilidad de las leyes newtonianas a nivel microfsico y la teora de la relatividad asest
un golpe mortal a la fsica clsica.
Es as que la teora mecanicista, que represent un valor incalculable para el
adelanto cientfico en todos sus campos, se revelaba falsa en sus ideas bsicas de fuerzas y
fluidos.
Como sostiene Morin:
Gracias al mtodo que asla, separa, desune, reduce a la unidad, mide, ha
descubierto la ciencia la clula, la molcula, el tomo, la partcula, las galaxias,
los qusars, los plsars, la gravitacin, el electromagnetismo, el quntum de
energa, ha aprendido a interpretar a las piedras, los sedimentos, los fsiles, los
huesos, las escrituras desconocidas, incluida la escritura inscripta en el ADN. Sin
embargo, las estructuras de estos saberes estn disociadas entre s.
...Hoy nuestra necesidad histrica es encontrar un mtodo que detecte y no oculte
las uniones, articulaciones, solidaridades, implicaciones, imbricaciones,
interdependencias y complejidades.....
Slo podemos partir en la ignorancia la incertidumbre, la confusin. Pero se trata
de una nueva conciencia de la ignorancia, de la incertidumbre y de la confusin.
De lo que hemos tomado consciencia no es de la ignorancia humana en general,
sino de la ignorancia agazapada, disimulada, cuasi-nuclear, en el corazn de
nuestro conocimiento reputado como el ms cierto, el conocimiento cientfico. ...La
incertidumbre deviene vitico: la duda sobre la duda da a la duda una nueva
dimensin, la de la reflexividad. En fin, la aceptacin de la confusin puede
convertirse en un medio para resistir a la simplificacin mutiladora. Ciertamente,
el mtodo nos falta desde el comienzo; al menos podemos disponer de un antimtodo en el que la ignorancia, incertidumbre, confusin se conviertan en virtudes.
(El Mtodo pg.25-29)
Seala Morin que la lgica deductiva se muestra insuficiente para dar una prueba
cuando se enfrentan dos concepciones de las partculas: una concepcin ondulatoria y una
concepcin corpuscular. Niels Bohr demuestra que estas concepciones contradictorias son,
en realidad, complementarias, puesto que empricamente los dos fenmenos aparecan en
condiciones diferentes.

Si se completa este panorama con la aparicin del movimiento azaroso a nivel de


partculas, se comprender el cambio en el paradigma que representa la cada de la idea de
simplicidad de las leyes, instalndose las nociones de complejidad e incertidumbre.
Podemos concluir con Morin:
Podemos tanto ms tener confianza en estas exclusiones de la ciencia clsica en
cuanto que han llegado a ser pioneras de la nueva ciencia. El surgimiento de lo no
simplificable, de lo incierto, de lo confuso, a travs de lo cual se manifiesta la crisis
de la ciencia del Siglo XX es, al mismo tiempo, inseparable de los nuevos
desarrollos de esta ciencia. Lo que parece una regresin, desde el punto de vista de
la disyuncin, de la simplificacin, de la reduccin de la certidumbre (el desorden
termodinmico, la incertidumbre microfsica, el carcter aleatorio de las
mutaciones genticas) es, por el contrario, inseparable de una progresin en
tierras desconocidas. Ms fundamentalmente, la disyuncin y la simplificacin
estn ya muertas en la base misma de la realidad fsica. La partcula subatmica
ha surgido en forma irremediable, en la confusin, la incertidumbre, el desorden.
Cualesquiera que sean los desarrollos futuros de la microfsica, no se volver ya al
elemento a la vez aislable, simple e indivisible. Ciertamente, confusin e
incertidumbre no son y no sern considerados aqu como las palabras ltimas del
saber: son los signos precursores de la complejidad.
En las tres ltimas dcadas las investigaciones de Ilya Prigogine y sus seguidores
demuestran que la irreversibilidad, poco considerada por la fsica, es ms frecuente en el
universo que la reversibilidad, por lo que proponen la inclusin del tiempo como variable
para marcar la evolucin en la fsica y prioriza el estudio del desorden como creador de
orden.
Contemporneamente con la formulacin de la fsica cuntica, dentro de la
psicologa, Sigmund Freud descubre una instancia psquica que llam Inconciente que
revolucionara la ciencia de la conducta privilegiando la ausencia de la certeza en el campo
de los sistemas sociales. Tanto Freud como sus continuadores extendieron este concepto a
la conducta social por lo que la complejidad y la incertidumbre se instalan, paralelamente a
las ciencias fsicas, tambin en las ciencias sociales.
Desde Freud ya se sabe que no se conoce lo que se quiere sino lo que se puede,
ya que en el hombre actan otras instancias, adems de las concientes, y que tendrn que
ver con su experiencia vital y la de la especie. Esto significa que no es posible un
conocimiento objetivo ya que el aparato psquico no es un sistema cerrado.
Si se suma a esto, la comprobacin desde el campo de las ciencias fsicas, de que es
imposible aislar al observador ya que ste interviene modificando las condiciones en el
estudio de cualquier fenmeno fsico, comprenderemos los caminos paralelos que siguen
ambos campos cientficos.
9

Los antiguos ideales griegos de inmutabilidad y universalidad del conocimiento y


sus leyes, que sostienen el paradigma de la ciencia moderna, comienzan a caer dando paso
a la emergencia de una concepcin indeterminista basada en la incertidumbre y el azar.
Los procesos de no-equilibrio y la participacin del caos en la creacin del orden aparente
del mundo fsico se transform en una cuestin fundamental para la nueva ciencia.
Estas nuevas teoras, tanto en las ciencias naturales como en las sociales, son seales que
obligan a pensar la naturaleza comportndose de manera ms compleja a lo esperado. Ya
no es posible compartimentar el conocimiento, y tratar de comprender los fenmenos como
una sumatoria de sistemas que actan aisladamente, para pasar a considerar la compleja red
de sistemas en interaccin permanente e incorporar dentro del planteo a la incertidumbre y
el azar. Dentro del nuevo paradigma las leyes causales deben interpretarse como leyes
probabilsticas.
Histricamente, la estadstica surge como necesidad de la ciencia para cuantificar
aquellas situaciones para las que no existan leyes causales y su intervencin era una
situacin no deseada pero inevitable dentro del pensamiento cientfico moderno.
Dentro del nuevo paradigma en ciernes, la funcin de la estadstica se torna irremplazable
ya que se trata de la nica metodologa cuantitativa que puede medir e interpretar la accin
del azar en el marco de la complejidad inherente a los sistemas sociales.
An cuando ya se sabe que es imposible estudiar cualquier sistema de la naturaleza
aisladamente, por la implicancia del propio investigador, esto es ms evidente en el estudio
de los sistemas sociales, en los que el hombre y sus relaciones son factores determinantes.
En la gnesis de toda conducta social podemos reconocer factores previsibles, que
dependen de la historia y del contexto, y factores imprevisibles en los que no puede
identificarse influencia alguna. Evaluar aspectos de la conducta social implicar poder
discriminar la contribucin de ambos factores.
La nicas herramientas que permiten interpretar cuantitativamente los sistemas
sociales desde cualquier mirada disciplinar son las que provee la metodologa estadstica.
Su aplicacin deber relativizar la lgica racional en favor de una lgica probabilstica,
abandonando toda idea de certeza y de verdad.
Si sumamos a este panorama, el volumen creciente de informacin que es necesario
manejar gil y eficientemente, se entender que las herramientas estadsticas proporcionan
el apoyo necesario para asimilar, criticar y contrastar la informacin recibida.

10

Tomando en cuenta la definicin de David Susel de la estadstica como el arte de


tomar decisiones inteligentes frente a la incertidumbre podemos comprender que la
estadstica es ms un ejercicio de lgica que de prctica matemtica.
Siendo la estadstica una disciplina matemtica que, introduciendo el concepto de
probabilidad permite el acceso a un modo de pensamiento donde la incertidumbre forma
parte del razonamiento cientfico, suele ser explicada utilizando nicamente un lenguaje
predominantemente matemtico.
Frecuentemente, en su enseanza se prioriza el uso de leyes y procedimientos
mecnicos de aplicacin en desmedro de la comprensin de conceptos y de la adquisicin
de un pensamiento estadstico, provocando un efecto de ininteligibilidad en estudiantes de
disciplinas sociales, poco familiarizados con los conceptos matemticos.
Actualmente, el profesional tiene la posibilidad de resolver toda la operacin
matemtica a instrumentos derivados de la informtica, pero que no sabr utilizarlos si no
conoce la lgica del procedimiento estadstico.
Entender el valor de la significacin estadstica y por lo tanto su validez como
tcnica de investigacin social no requiere ningn conocimiento especial y slo apela a una
lgica especfica que se utiliza permanentemente en la vida cotidiana, y en muchas
ocasiones de manera intuitiva.
Las pruebas estadsticas fueron creadas para ayudar al investigador a elaborar
conclusiones ms razonables. La deficiente comprensin del nivel de significacin de las
pruebas estadsticas es el problema ms frecuente en los profesionales que las aplican.
La Psicoestadstica es una rama de la psicologa que se vale de los aportes de la
estadstica para elaborar sus interpretaciones. A partir de su utilizacin puede operarse
sobre cuestiones que involucren un alto monto de impredictibilidad, como por ejemplo, la
prevencin de trastornos psicopatolgicos a nivel comunitario. Pero su campo de
aplicacin en la investigacin es mucho ms amplio, y para comprender su importancia es
necesario analizar lo que ocurre en otras disciplinas cientficas. Este anlisis se centrar,
as, en la consideracin del azar como una de las influencias decisivas de la evolucin del
conocimiento cientfico.
La Psicologa participa del brillante desarrollo de la ciencia occidental en los
ltimos dos siglos. Sus tericos, en los que sobresali en forma excluyente Sigmund Freud,
provenan de la medicina y particularmente de la neurologa, por lo que su labor estuvo
impregnada por las caractersticas predominantes en dichas ramas cientficas.

11

Analizar, en perspectiva histrica, la situacin de la ciencia en los orgenes de las


ideas fundamentales de la psicologa permitir comprender mejor los actuales desarrollos y
sus relaciones con otras disciplinas.
1.1. Determinismo cientfico
La ciencia posibilita una mejor comprensin de la realidad y su mtodo se basa en
un proceso de anlisis y crtica desarrollando teoras que se confrontan con la evidencia
emprica y con otras teoras.
En los albores del pensamiento occidental, los presocrticos se preocuparon por dos
cuestiones fundamentales, que an hoy son fuente de interrogantes para filsofos y
cientficos, y pueden resumirse en dos preguntas: El universo se rige por leyes
deterministas? Cul es el papel del tiempo?.
Estos temas dominaron el pensamiento de los antiguos griegos y, junto con otras
preocupaciones, sirvieron para que legaran dos ideales que han guiado el pensamiento
occidental hasta la actualidad:
1.

La inteligibilidad de la naturaleza, que promueve el desarrollo de un

sistema de ideas generales necesario y coherente, y en funcin del cul puedan ser
interpretados todos los elementos de la experiencia.
2.

La democracia, basada en las premisas de libertad, creatividad y

responsabilidad humana.

El conocimiento cientfico, tal como se interpreta actualmente, nace a partir de la


aparicin del mtodo operacional que da origen a la ciencia experimental.
Con este salto cualitativo de principios del Renacimiento, el hombre crey
encontrar un modo objetivo de estudiar la naturaleza que diferenciaba claramente la
filosofa de la ciencia.
El eslabn inicial de este proceso se ubica en los trabajos de cuatro astrnomos:
Coprnico, Kepler, Galileo y Newton. Estos dos ltimos, que adems eran fsicos,
culminaron sus experimentos con el descubrimiento de la gravedad y la atraccin terrestre.
Sobre estos pilares se estructur el desarrollo de los logros ms espectaculares de la
ciencia del Siglo XVII.
A estas leyes habra que agregar los dos principios de la Termodinmica de
Clausius que, adems de postular la constancia de la energa del universo, a travs del
concepto de entropa interpreta los procesos naturales irreversibles.

12

A partir del trabajo de estos investigadores surgen los filsofos empiristas para
fundamentar el nuevo mtodo de obtener conocimiento. Babon, Hobbes, Locke, Berkeley
y Hume justifican el empirismo como el nico camino para conocer la verdad y al
procedimiento inductivo como el mtodo lgico para deducir conocimientos generales a
partir de experiencias particulares. Estos autores intentaron desarrollar un sistema de
inferencia racional para obtener un conocimiento general. Como consecuencia de esta
visin, el proceso cientfico era un proceso lineal y acumulativo y las teoras constituan la
organizacin lgica de las leyes experimentales.
La elaboracin de este concepto de ciencia da un paso adelante cuando Comte
fundamenta el positivismo considerando a la experiencia emprica y sus consecuentes leyes
como nica fuente de certidumbre.
Pensadores como Poincar y Pearson, entre otros instalaban a esta ciencia de base
emprica como una gua pragmtica para enfrentar la vida.
Tanto para el empirismo como para el positivismo el Universo se constituye a partir
de fenmenos que se conectan casualmente entre s y dichas conexiones podan descubrirse
a partir del proceso inductivo aplicado al mtodo experimental.
Este camino demostr su enorme potencial al impulsar los grandes descubrimientos
cientficos de los ltimos tres siglos, que se tradujeron en la amplia hegemona de las leyes
de la mecnica newtoniana en la fsica y la concepcin kantiana de la filosofa.
Las leyes de Newton explican el movimiento de las partculas materiales en funcin
del tiempo y eran aceptadas como la expresin del conocimiento ideal, objetivo y
completo, y en ellas el tiempo es reversible y expresa la equivalencia entre pasado y futuro.
En cambio, a partir del Siglo XIX el principio de entropa, tambin universalmente
aceptado, demostr que el tiempo no es equivalente en pasado y futuro. Algunos
cientficos han tratado de explicar esta contradiccin con argumentos discutibles y
simplificadores.
Hume ya haba planteado limitaciones lgicas al conocimiento inductivo, pues
independientemente de cuntas observaciones se hayan hecho de una regularidad, esto no
da ninguna garanta lgica de que volver a ocurrir del mismo modo en la siguiente
ocasin.
Las hiptesis mecanicistas, que parten de las leyes de la mecnica clsica, que
poblaron las teoras de fuerzas que actuaban a distancia en todos los campos de la
naturaleza, comienzan a tambalear con los descubrimientos de la fsica atmica, al
demostrar sta que las partculas atmicas no obedecan a las leyes de Newton y, por el
13

contrario, tenan movimientos azarosos impredecibles explicados por una nueva ley (de
Schrdinger)..
Puede afirmarse con Susel: ...la concepcin mecnica, de valor incalculable para la
ciencia, refrendada por las predicciones que permiti hacer sobre la existencia de planetas
desconocidos, con los cuales se complet el conocimiento astronmico del sistema
planetario, y a la cual se deben mirades de adelantos en todas las regiones del pensamiento
se basaba, no obstante, en ideas mgicas de fuerzas y fluidos que, ms que hiptesis eran
fantasas.
La salida al dilema de Hume fue elaborada por Popper (1972) al postular que toda
teora, modelo o ley cientfica es una conjetura de cmo es la realidad. De acuerdo con
Popper, el nfasis del investigador debe centrarse, al contrario de cmo lo plantea la
ciencia tradicional, no en probar que la teora es verdadera sino en demostrar que no es
falsa. Toda teora, ley o hiptesis es una conjetura que ser valorada en su poder
explicativo y general siempre que supere los intentos rigurosos de refutarlas.
Desde esta perspectiva, los datos experimentales sirven para plantear una hiptesis
cientfica que se pone a prueba por medio de la crtica lgica y emprica. Si los hechos
apoyan la teora, no podemos pensar que la justifican sino que, hasta ahora no ha sido
refutada.
Este esquema para entender el conocimiento refuerza an ms la importancia del
razonamiento lgico, que deviene de los filsofos griegos, al enfatizar el mecanismo del
pensamiento hipottico-deductivo aplicado al trabajo experimental.
Este punto de vista hace impensable la inclusin del azar como determinante en algunos
fenmenos como se ha descubierto, por ejemplo, en la mecnica cuntica.
En las ltimas dcadas, algunos cientficos orientados por Ilya Priogine, intentan crear una
nueva formulacin de la dinmica que supere la contradiccin de la fsica clsica puesta en
evidencia por la fsica cuntica.
Prigogine seala que la pretensin de la lgica racional de un encadenamiento
causal, de tal manera que todo efecto tiene una causa y se transforma a su vez en causa de
un efecto posterior, provoca una tensin y contradice la creencia en la libertad del hombre
para poder elegir entre varios caminos a seguir.
A esta paradoja del sentido comn W. James la llam el dilema del determinismo.
Este dilema dispara dos interrogantes: El futuro est dado o en perpetua construccin?,
Es la creencia en nuestra libertad una ilusin?. Implcitamente estas cuestiones
interrogan acerca del concepto del tiempo. El tiempo es un concepto incorporado a la
14

fsica y tambin es la dimensin fundamental de nuestra existencia. Este tiempo de la


fsica es el tiempo de Einstein cuando afirmaba... el tiempo es una ilusin; es el tiempo
de las leyes, desde la fsica clsica hasta la relatividad y la teora cuntica, que no
distingue entre pasado y futuro. Es el tiempo de los procesos en equilibrio.
Al desarrollarse la fsica del no-equilibrio y de los procesos caticos y demostrarse
que son acontecimientos fundamentales en el desarrollo de los fenmenos naturales en
todos los campos del conocimiento (qumica, geologa, cosmologa, biologa, ciencias
sociales, etc.) pasado y futuro juegan roles diferentes.
Esta situacin dilemtica en el campo de las ciencias se denomina la paradoja del
tiempo y es la extensin del dilema del determinismo a la fsica.
Hoy se sabe que los fenmeno fsicos del universo no existen como sistemas aislados y
cerrados y que las condiciones en que se desarrollan son diferentes de punto a punto y
hacen ilusoria la pretensin de las condiciones de equilibrio propuestas por la leyes
mecanicistas.
Esto, que es evidente en las ciencias biolgicas y sociales, donde se admite que un
pequeo acontecimiento puede cambiar el curso de la historia, no era tan visible en la
fsica.
Boltzman, en el siglo XIX crey posible asimilar el concepto de evolucin de
Darwin a los fenmenos fsicos pero sus intentos fueron negados por la comunidad
cientfica.
En la actualidad la mayora de los fsicos consideran a las leyes de la mecnica
cuntica como las definitivas, no distinguiendo un papel diferenciado del tiempo entre
pasado y futuro.
Esta situacin puede pensarse desde lo expresado por Susel como resultado de la
necesidad de defenderse ante la incertidumbre que genera el pensar al tiempo como una
variable que afecta la permanencia de las leyes fsicas.
Resolver esta paradoja e incorporar el concepto de Prigogine de flecha del tiempo,
en el que el tiempo juega un rol cronolgicamente diferente, es el desafo de la ciencia en
nuestros das.
Este concepto aparece a partir de que, los procesos naturales en equilibrio son los
menos, y lo ms frecuente son los desequilibrios, que provocan modificaciones
irreversibles a partir de las cuales cambian las condiciones de representatividad de las leyes
fsicas. Lo que es aceptado universalmente en el campo de la evolucin biolgica, se
extiende a otras reas de la ciencia.
15

A partir de este nuevo concepto las leyes fundamentales ahora expresan


posibilidades y no certidumbres. Las leyes de la fsica clsica vinculadas al conocimiento
completo y certero cobran un nuevo sentido al expresar posibilidades.
Como seala Prigogine...la cuestin del tiempo y el determinismo no se limita a la
ciencia; est dentro del pensamiento occidental desde el origen de lo que denominamos
racionalidad y que situamos en la poca presocrtica. Cmo concebir la creatividad
humana pensar la tica en un mundo determinista?...hoy estamos en el punto de partida
de una nueva racionalidad que ya no identifica ciencia y certidumbre, probabilidad e
ignorancia... Asistimos al surgimiento de una ciencia que ya no se limita a situaciones
simplificadas, idealizadas, mas nos instala frente a la complejidad del mundo real.
Prigogine sugiere llamar a la nueva dinmica: mecnica estadstica.
1.2. Conocimiento cientfico desde la psicologa
Desde la mirada de la psicologa, el mtodo experimental, con su concepcin
mecanicista, abarca dos aspectos: la superacin del dogmatismo filosfico que lo impulsa a
obtener los grandes logros cientficos de los ltimos siglos, y por otro lado, una tendencia
regresiva hacia fases anteriores del desarrollo en donde reina el pensamiento mgico y
omnipotente expresado en el principio de causa-efecto y su fantaseado horizonte de leyes
universales simples que permitan explicar el pasado, justifiquen el presente y predecir el
futuro.
La visin determinista de la fsica clsica pareca triunfante en su hegemona
considerando los descubrimientos de la astronoma y de la fsica en los siglos XVII, XVIII
y XIX, pero a principios del siglo XX surgen los descubrimientos de la fsica atmica que
demuestran la no obediencia de las partculas sub-atmicas a las leyes dinmicas de
Newton, y su movimiento azaroso debe explicarse mediante la metodologa estadstica. Lo
que aparentemente se cumpla en el mundo macroscpico no era verificable en el nivel de
las partculas microscpicas.
Sin embargo, tanto M. Planck como A. Einstein no aceptaron la explicacin
probabilstica-estadstica y hasta el final polemizaron con los fsicos que comenzaban a
considerar el azar como una causa ms del comportamiento de los fenmenos naturales.
Todo intento de reinterpretacin determinista de la fsica atmica fue refutado pero
an as la resistencia al cambio por parte de muchos cientficos fue ostensible.
Desde el punto de vista psicolgico esta resistencia puede interpretarse como una
defensa frente a la angustia provocada por el abandono de la idea de certeza que conllevan
las leyes universales deterministas. La resistencia a abandonar la concepcin determinista
16

que an hoy se manifiesta, es una defensa, una racionalizacin que se pone en juego frente
al conflicto que significa abandonar la pretensin omnipotente de alcanzar el conocimiento
universal y completo.
As como el desarrollo de la fsica cuntica a fines del siglo XIX fue, sin
proponrselo los propios investigadores, el disparador de una visin indeterminista de la
ciencia, contemporneamente, en psicologa surgen los descubrimientos de S. Freud acerca
del inconciente y su influencia. La imposibilidad de la certeza absoluta y definitiva, que
comienza a esbozarse en la fsica, se verifica tambin en la esfera de la conducta. No es
casual que estos dos procesos coincidieran histricamente, como as tambin que sus
descubridores siguieran aferrados a una visin determinista de la ciencia. La nocin de
inconciente instituy la incertidumbre en la explicacin de la conducta a nivel psicolgico,
as como la nocin del movimiento azaroso de las partculas atmicas lo hizo en la fsica.
Lo azaroso en psicologa habra que buscarlo en el principio de policausalidad con
que opera el funcionamiento psquico, ya que si bien la aparicin de sntomas est ligada a
elementos del pasado, stos son necesarios pero no suficientes, y debe considerarse la
influencia del contexto con sus connotaciones azarosas.
Freud demuestra que el proceso cognitivo no depende slo de la conciencia y que
factores inconcientes pueden impulsar a la negacin de un aspecto de la realidad de una
nueva idea que ponga en peligro los intereses yoicos. Estos ataques a la primaca del yo
son ataques al narcisismo del hombre y si se producen por la aparicin de grandes cambios
en la teoras del conocimiento revoluciones cientficas se transforman en heridas
narcisstas que motorizan la resistencia a dichos cambios.
Freud enfatiza esta situacin con su formulacin de las tres heridas fundamentales
que ha sufrido el hombre a travs de la historia: la primera llamada cosmolgica se
produce a partir de los descubrimientos de Coprnico del heliocentrismo del sistema
planetario terrestre que desplaza a la Tierra del centro del mismo; la segunda, herida
biolgica, cuando Darwin demuestra que el hombre proviene de una evolucin desde
especies animales inferiores elimina la superioridad abismal que el hombre supona
respecto de las otras especies; y por ltimo, la herida psicolgica, que se produce con el
descubrimiento del inconciente y su influencia impredecible y, por lo tanto, incontrolable
sobre la conducta humana. En los tres momentos histricos el hombre sufre un ataque que
pone en peligro la seguridad y la omnipotencia de los intereses yoicos que aseguraban las
teoras vigentes hasta ese momento.

17

Siguiendo esta lnea de pensamiento, D. Susel propone una cuarta herida


narcissta que se manifiesta en el Siglo XX y la llama epistemolgica, y que se produce
cuando se demuestra que la Naturaleza puede obedecer a leyes probabilsticas y por lo
tanto no certeras y el hombre debe abandonar sus ideas de alcanzar leyes universales.
En todos estos momentos histricos se produjeron fuertes movimientos de
resistencia a las nuevas teoras, algunos de los cuales an hoy se manifiestan y que dejaron
huellas a semejanza de los puntos de fijacin del aparato psquico, que promueven el
retorno de las teoras perimidas que brindan mayor seguridad yoica
1.3. La Estadstica y su aplicacin en Psicologa
Si bien pueden ensayarse distintas definiciones de Estadstica, parece pertinente
partir desde la perspectiva de Susel: La Estadstica es el arte de tomar decisiones
inteligentes frente a la incertidumbre.
En su anlisis Susel seala que el esquema determinista de la ciencia basado en el
modo de pensamiento hipottico-deductivo para elaborar sus teoras universales
sobrevalora el uso de la razn hasta convertirla, en muchas ocasiones, en una
racionalizacin defensiva que impide el avance cientfico.
La nueva visin indeterminista utiliza las leyes probabilsticas que incorporan la
incertidumbre presente en todo fenmeno de la Naturaleza y permite tomar decisiones sin
el auxilio de leyes universales. Este esquema, segn Susel, valora la inteligencia para
sortear momentos en que la razn no satisface la demanda del cientfico.
La ciencia debe abandonar su pretensin de leyes universales e ir en pos de leyes
probabilsticas. La nueva ciencia ser una ciencia probabilstica.
Si bien lo sealado hasta aqu es vlido para todas las ciencias, es quiz obvio en las
ciencias sociales, donde se analizan fenmenos que, por su complejidad causal manifiestan
un alto grado de incertidumbre.
El objetivo de la aplicacin de las tcnicas estadsticas es la prediccin, dentro de
un marco de incertidumbre, de la evolucin de un fenmeno determinado bajo ciertas
condiciones. En ciencias naturales se analiza el comportamiento de la materia segn
diferentes perspectivas fsicas, qumicas, etc. mientras que en ciencias sociales se
estudian problemas mucho ms complejos que involucran al hombre con sus diferencias
individuales y sus distintos modos de interactuar.
La complejidad de los fenmenos sociales se traduce en acciones en donde el factor
aleatorio el azar es un componente fundamental. La tcnica estadstica, al operar segn

18

la teora de las probabilidades, permite analizar y predecir en todo problema en el que


intervenga el azar.
Si la mirada del problema social est centrada en la conducta del hombre en
diferentes circunstancias, la estadstica se transforma en una herramienta imprescindible
para la Psicologa.
1.4. Cmo opera la Estadstica en una investigacin cientfica
Si se quiere sintetizar en tres palabras cmo opera el mtodo estadstico para la
toma de decisiones, puede decirse que la estadstica contrasta el azar.
As como en las ciencias naturales es necesario acudir a modelos para el anlisis de
los fenmenos gases ideales, sistemas aislados en equilibrio, etc. en ciencias sociales
pueden analizarse los problemas nicamente a partir de modelos que representan lo ms
fielmente posible el comportamiento del sistema social en cuestin.
Los modelos deben tomar en cuenta los factores intervinientes y su forma de
interrelacin. Por fortuna, existen ciertas regularidades en el comportamiento de los
factores sociales, por lo que hay pocos modelos a los que se debe recurrir eficientemente.
Dentro de estos, el ms usado en aplicaciones estadsticas en psicologa es el llamado
modelo normal.
Es este curso se estudiar cmo se utiliza el modelo normal para describir y/o
predecir aspectos referidos a fenmenos de comportamiento en sistemas sociales y a
sealar algn otro modelo que se utiliza bajo condiciones particulares.
Un modelo estadstico es un modelo de comportamiento probable del factor
estudiado en el sistema social involucrado bajo ciertas condiciones. Estas condiciones se
establecen para asegurar

la aleatoridad del sistema. En otras palabras, describe

matemticamente cual es el comportamiento probable de dicho factor si todos

los

elementos del sistema estudiado tienen la misma posibilidad de intervenir y por lo tanto
pueden elegirse azarosamente.
El mtodo de inferencia estadstica permite contrastar los resultados de una
investigacin con los valores que establece, para la problemtica en estudio, la distribucin
de probabilidades que mejor se adapta al conjunto total de los elementos estudiados y del
cual se extrajeron los datos empricos.
Cuando se inicia una investigacin se debe plantear una hiptesis que pueda ser
corroborada a posteriori. Estas hiptesis surgen de los conocimientos previos acerca del
fenmeno estudiado que el investigador posee y que son el soporte que justifican la

19

necesidad de investigar. Estos datos previos se refieren a los diferentes factores que
determinan el comportamiento de los elementos analizados (unidades experimentales).
En los problemas asociados al comportamiento humano est demostrado que,
cuando se analizan a escala macrosocial, los factores determinantes se distribuyen de tal
forma que los ms frecuentes corresponden a valores medios y van disminuyendo en
cantidad los valores que se alejan tanto para un extremo otro de la distribucin. Esta
caracterstica se intensifica a medida que crece el nmero de elementos estudiados.
Este comportamiento de los factores sociales puede representarse, como se ver
ms adelante, mediante el modelo de la distribucin normal de probabilidades. En el
contraste de los datos experimentales con este modelo se basan la mayora de las tcnicas
estadsticas que se utilizan en psicologa.
Como ya se seal, la estadstica proporciona una serie de tcnicas para organizar
la informacin cientfica y tomar decisiones a partir de ella.
Una investigacin se refiere, en general, a un conjunto de datos que provienen de
objetos, animales personas. Un psiclogo, por ejemplo, puede querer observar si hay
alguna regularidad en la conducta de distintos grupos de pacientes frente a un mismo
estmulo, sabiendo que analizados en forma individual seguramente existen diferencias en
el comportamiento.
La investigacin en psicologa es, por lo tanto, de capital importancia en reas
como la de patologas psicosociales (adicciones, alcoholismo, trastornos alimenticios, etc.)
para encarar un tratamiento eficaz para tareas en prevencin.
Si bien la investigacin y el pensamiento estadstico estn incorporados al comportamiento
individual, desde un lugar ligado a la intuicin y al sentido comn, aqu se explorar esta
interrelacin desde una mirada ms rigurosa y cientfica.
Bibliografa (adicional a la que figura en el programa de la materia)
Hacking I. (1991) La domesticacin del azar. Barceloma: Ed. Gedisa
Morin E. (1977) El Mtodo. Vol. 1. Madris: Ed. Ctedra
Prigogine I. Tal solo una ilusin? Ed. Tusquets, Barcelona (1983)
Prigogine, I. (1991) El nacimiento del tiempo. Barcelona: Ed. Tusquets
Prigogine I. y Stengers I.(1991) Entre el tiempo y la eternidad. Bs. As.: Ed. Alianza
Schnitman D. (Comp.) (1994) Nuevos paradigmas. Cultura y subjetividad. Bs. As.: Ed
Paidos
Wagensberg J. (Comp)(1996) Proceso al azar. Barcelona: Ed. Tusquets
Wagensberg J. (1985) Ideas sobre la complejidad del mundo. Barcelona: Ed. Tusquets
20

Captulo 2. Los principios de la Estadstica


Ante el trmino Estadstica es probable que se evoquen cifras, extensos cuadros,
tablas de nmeros, datos econmicos y demogrficos, grficos, porcentajes, etc. En
general, lo cierto es que la actitud de la mayora de las personas, ante la Estadstica, es de
escepticismo cuando no de irona. Ahora bien, independientemente de las opiniones
subjetivas, no puede negarse que la Estadstica es un instrumento que circula e interviene
en los mbitos y dominios ms diversos y cotidianos y especficamente en el campo de la
investigacin. Se hace estadstica cuando se estima el tiempo probable para llegar a un
punto x de la ciudad un da viernes en que el aumento del transito es una constante. Pero
tambin se hace estadstica cuando se repiten o reiteran experiencias u observaciones de un
fenmeno para extraer conclusiones acerca de un hecho ya sea en el campo de las ciencias
sociales o las ciencias naturales. Con mayor o con menor precisin o sistematizacin se
esta haciendo un recuento o inventario de sucesos.
En la historia de la humanidad aparece la estadstica expresando diversos censos o
recuentos :
En la Biblia, el cuarto libro del A.T., Nmeros, se destaca por la preocupacin de los
israelitas por la precisin numrica :
dos censos ( caps. 1-4; 26)
reglamentaciones de los sacrificios ( caps. 28-29)
instrucciones en el reparto del botn (caps. 31)
divisin del territorio alrededor de las ciudades levticas (35. 1-8)
En el Nuevo Testamento, Lc. 2. 1-5, se menciona el censo ordenado por el
emperador Augusto, en vsperas del nacimiento de Cristo.
En Egipto se encontraron vestigios de cierto tipo de administracin, organizacin y
movimientos poblacionales sistematizados y anotados con periodicidad.
En China, Confucio (500 a.C. ) narra un censo realizado por el Rey Yao (3000 a.C.),
que realiz una estadstica agrcola y un relevamiento comercial del pas.
En Grecia, Platn, menciona un dilogo entre Socrates y Glauco en el que destacan
la importancia de la estadstica para el hombre de gobierno.
Imperio Romano, los censos calculaban la cantidad de ciudadanos y sus bienes.
En Inglaterra, en el 1000 d.C., el Rey Guillermo el conquistador, estableci un
censo o documentacin administrativa.

21

En Italia, al final de la Edad Media y en el Renacimiento se registran datos


estadsticos.
La Iglesia, en el Concilio de Trento, introduce la obligacin de inscribir los
matrimonios, nacimientos y muertes.
Con German Cnning, (1600-1681), en el siglo XVII aumentan los datos oficiales y
se sistematiza la estadstica como descripcin de los aspectos ms notables de un
Estado. Funda, en Alemania, la Estadstica Universitaria, puramente descriptiva, al
mismo tiempo que en Inglaterra surgen los aritmticos polticos que pretendan crear
un estadstica investigadora, derivando de esta dos tendencias : Clculo probabilstico,
probabilidades y curva de Gauss y Clculo demogrfico.
Si bien fue definida la estadstica en la unidad anterior de manera conceptual a
partir de lo sealado por Susel, es posible definirla en forma operacional:

La Estadstica es un mtodo cientfico para recolectar, organizar, resumir, presentar y


analizar datos correspondientes a un conjunto de individuos u observaciones, para luego
sacar conclusiones vlidas y tomar decisiones lgicas y razonables basadas en el anlisis
de dichos datos.

La Estadstica es un rama de la matemtica que tiene por objeto el estudio de los


fenmenos que se presentan dentro de un marco de incertidumbre y, por lo tanto, no
explicables mediante leyes ni apelando al pensamiento deductivo. Es el estudio de la
tendencia de los resultados variables cuando las observaciones se hacen en condiciones
idnticas y sus resultados son impredecibles desde el punto de vista del observador. Los
fenmenos, que se presentan en gran nmero, dependen de una gran variedad de causas.
Por lo tanto, la Estadstica es un mtodo especialmente adecuado para el estudio
cuantitativo de fenmenos de masa o colectivos fuertemente influidos por una multitud de
causas complejas, como los fenmenos sociales.

22

Funciones de la Estadstica

Describir

Inferir o generalizar

Estadstica

Estadstica

Descriptiva

Inferencial

Describe la realidad tal como

Es un conjunto de tcnicas que

se la observa

permiten hacer inferencias o

Se utiliza para sintetizar

generalizaciones a partir de una

grandes cantidades de datos

pqequea cantidad de datos

Tcnicas

Tcnicas

Estadstica grfica.

Eleccin al azar de una

Medidas de tendencia

muestra

central.
Medidas de orden.

Distribucin muestral
Probabilidad

Medidas de variabilidad/
dispersin

La Estadstica se aplica a distintos campo cientficos: Psicopedagoga, Psicologa,


Sociologa, Biologa, Fsica, etc. Las diversas ramas del saber aplican los criterios
estadsticos para extraer informacin til de la gran cantidad de observaciones y registros
que se realizan, mediante la descripcin y la sntesis precisas de lo que se ha observado. Es
un procedimiento que se facilita con la asignacin numrica a las observaciones.
La Estadstica aplicada a la Psicologa se denomina Psicoestadstica

23

2.2. Estadstica Descriptiva

Un esquema de las funciones de la Estadstica descriptiva es el siguiente:

Ciencias Sociales/ Naturales

observaciones en

Descripcin

gran nmero

Estadstica

asigna valores

Sntesis

Cuando se ha definido el problema a resolver, est delimitada el contexto de


estudio, estn determinados los objetivos de la investigacin y los factores que se quieren
estudiar y ya se cuenta con una cierta cantidad de datos, es momento entonces de obtener
de estos toda la informacin til para la investigacin. De esto se encarga la Estadstica
descriptiva.
Una vez que se ha realizado la recoleccin de los datos observados, procede a
organizarlos y resumirlos para describirlos sin obtener ms conclusiones que los que estos
datos aportan. Esta descripcin informa la localizacin, dispersin y forma de distribucin
de los datos por medio de descripciones grficas y numricas.
Aunque esta descripcin es importante e imprescindible, generalmente no es suficiente. Se
requiere interpretar y generalizar los resultados obtenidos de manera que puedan aplicarse
en forma extensiva a todo el contexto en donde se presenta el fenmeno investigado
De esto se encarga la Estadstica inferencial.

2.2. Poblacin y Muestra


El objetivo de toda investigacin, en general, es hacer generalizaciones o
predicciones sobre hechos que estn ms all de la observacin directa.
Establecido el objeto de estudio, definidos los factores a observar y medir, elegido
el mtodo apropiado para la recoleccin de datos de acuerdo con el problema, sus objetivos
e hiptesis, corresponde afrontar el diseo y delimitar el contexto en que se manifiesta el
problema que se constituir en la poblacin.
Por razones de costo y de tiempo normalmente es imposible observar a toda la
poblacin.

24

La estrategia de la mayora de las investigaciones es analizar un problema


determinado que se manifiesta en una poblacin, a partir de un grupo de individuos o
unidades de anlisis representativos de dicha poblacin.

Por lo tanto, en las

investigaciones, lo que se analizan son muestras de una poblacin.


Los elementos, personas, objetos o fenmenos a observar constituyen la muestra de
la investigacin.
En este punto es necesario analizar algunos trminos que utiliza la estadstica y son
parte de una estructura conceptual sistemtica.
Universo: es la serie real o hipottica de todos los elementos que componen unas
caractersticas definidas relacionadas con el problema de investigacin. Es decir, esta
conformado por la totalidad de unidades de anlisis que se quiere estudiar. Por ejemplo,
todos los padres que han sufrido la prdida de un hijo menor de 25 aos en accidentes
de trnsito.
Poblacin: es un conjunto definido, limitado y accesible del universo que forma el
referente para la eleccin de la muestra. Es el grupo al que se intenta generalizar los
resultados. Por ejemplo, todos los padres del universo previamente definido que
concurrieron en los ltimos 5 aos a alguna institucin de salud mental de la Ciudad de
Buenos Ares.
Tambin se utiliza este trmino para denominar a todos los datos recogidos. Es ms
pertinente en este caso llamarla Poblacin de Datos.
Poblacin de

Conjunto de todos los entes a los cuales se pueden

Investigacin o estudio

aplicar las conclusiones obtenidas a travs de la


prediccin, estimacin o verificacin de una hiptesis.

Poblacin o

Conjunto de todas las mediciones que es posible obtener

Poblacin de datos

a partir de observar una cierta caracterstica en cada uno


de los elementos de la poblacin de estudio.

Muestra: es una parte representativa de una poblacin o universo, cuyas

caractersticas debe reproducir lo ms exactamente posible. Es un conjunto


pequeo de datos extrados de la poblacin a partir de algn

procedimiento

especfico que asegure su representatividad. Cuanto ms grande sea el conjunto de


datos asegura mayor representatividad. Por ejemplo, un grupo de 100 historias

25

clnicas tomadas al azar de 4 instituciones a la que concurri la poblacin


previamente definida

Muestra

Cualquier subconjunto de la poblacin de estudio

de estudio

Muestra de datos

Cualquier subconjunto de la poblacin de datos

Unidad de anlisis, elemento o individuo (muestral): es la unidad ms pequea en la


que se puede descomponer la muestra, la poblacin o el universo. Esta unidad puede ser
una persona, un grupo, un centro, una familia, sectores de una ciudad, un pueblo Unidad
Experimental

UNIVERSO
HIPOTTICO
(prcticamente infinito)

UNIVERSO o
POBLACIN, (finito)

MUESTRA, N
Unidades a observar

Unidades que pueden


ser observadas
Conjunto de unidades existentes
a las que se aplica la teora

26

Fuente: Diagrama de Mora y Araujo (1973)


2.3. Recoleccin parcial de datos. Muestra
La Estadstica trabaja con muestras. La muestra es un subconjunto representativo de la
poblacin. Esto es as porque, generalmente, el gran nmero de unidades de anlisis
posibles de la poblacin es imposible de abarcar. Por razones de economa, de tiempo y
dinero, se investiga, en representacin de la poblacin, a la muestra.
Para que sean validas las conclusiones que se sacan a partir de las muestras, estas deben ser
representativas de la poblacin. Las muestras pueden obtenerse en forma probabilstica
utilizando en algn paso del proceso la eleccin azarosa de las unidades que la componen,
es decir cuando se trata de una muestra aleatoria.
Existen cuatro mtodos de muestreo para conformar una muestra probabilstica.
Muestra aleatoria o por azar simple : La muestra bsica se selecciona por azar,
partiendo de una poblacin. Se toma al azar una cantidad N de observaciones sobre el
total de la poblacin, y si la muestra es lo bastante extensa y bien seleccionada,
representar al conjunto significativamente en la mayora de los casos. Este mtodo
asegura que cada elemento de la poblacin tiene la misma probabilidad de ser incluido
en la muestra.
Muestra por azar sistemtico: se eligen los elementos de la muestra utilizando un
sistema fijo de intervalos iguales, a partir del primer elemento elegido al azar. Por
ejemplo, en una lnea de produccin de algn producto se toma el primero al azar y los
siguientes cada 100 productos que salen de la lnea. Este mtodo es ms conveniente
que el anterior cuando se trabaja con una poblacin muy extensa.
Muestra al azar por estratos: cuando en la poblacin es heterognea y pueden
reconocerse grupos bien diferenciados en cuanto al factor en estudio, se divide a la
misma en estratos internamente homogneos y de cada uno de ellos se saca, al azar, un
grupo cuyo nmero de elementos sea proporcional al tamao del estrato del cual
provino. Por ejemplo, en una poblacin que compuesta por hombres y mujeres la misma
cantidad de unidades de anlisis al azar en los hombres y en las mujeres.
Muestra al azar por conglomerado: en este caso se divide a la poblacin en sectores
llamados conglomerados y que son heterogneos internamente, de tal forma que en cada
conglomerado estn representadas todas las caractersticas de la poblacin; entonces, un
conglomerado puede representarla, y de ste se extrae una muestra al azar. Por ejemplo,
en un estudio de investigacin de mercado en donde se supone que la necesidad del

27

producto es variada pero con iguales caractersticas en toda la ciudad se elige la muestra
al azar en un barrio de la misma.
La muestra escogida al azar es la nica que puede ser examinarse con completa confianza
por medio de la teora estadstica. En una muestra aleatoria representativa se incluyen,
proporcionalmente, elementos de todos los diferentes grupos que haya en la poblacin. No
todas las muestras aleatorias son representativas.
Condiciones o requisitos de la muestra para determinar la seriedad, validez y
confiabilidad de un informe estadstico:
1. Comprender parte del universo o de la poblacin y no su totalidad.
2. Amplitud. Es estadsticamente proporcionada a la magnitud de la poblacin,
3. Representatividad. Refleja verdaderamente la composicin y las caractersticas
de la poblacin.
4. Muestra tomada al azar. La ausencia de distorsin en la eleccin de los
elementos de la muestra. Esto asegura que cada miembro de la poblacin tienen
igual posibilidad de pertenecer a la muestra.
Ventajas

Limitaciones

En las ciencias sociales, con una muestra

Cierta

relativamente

parmetros.

reducida

en

relacin

al

inexactitud

respecto

de

universo se pueden encuestar las grandes


poblaciones y ncleos humanos.
Las muestras suponen economa en los
costos.
Disminucin del tiempo empleado para
obtener y procesar la informacin.

2.4. Variables
Todos los elementos de la muestra y los de la poblacin tienen atributos,
caractersticas. La variable es un atributo susceptible de tomar distintos valores o variantes.
Cuando el atributo es variable en formas impredecible, se trata de una variable aleatoria.
La Estadstica se ocupa solo de variables aleatorias. Es un aspecto o dimensin de
un objeto o fenmeno y de las propiedades que estos pueden asumir y no puede predecirse
el valor para ninguna unidad de anlisis. Por ej. sexo, rendimiento escolar, nacionalidad,
puntaje en un examen, edad, peso, color de ojos, etc.

28

los

Cuando el atributo toma siempre el mismo valor para todo los elementos
observados, no se trata de una variable, sino de un atributo constante o simplemente de una
constante. Es decir este atributo no se modifica a travs del tiempo. Ej.: La edad mnima
para votar
As como los atributos tienen diferente naturaleza, esto debe reflejarse en la forma
de medirlos.
CUALITATIVAS

VARIABLES
No admiten valores intermedios.
DISCRETAS

Su valor es un nmero entero.


ej.: N de hijos, N de autos

CUANTITATIVAS
(numricas)

Admiten infinitos valores


CONTINUAS intermedios, puede subdividirse.
ej.: temperatura, puntajes de un
test.

2.4.1. Niveles de Medicin


Medir es asignar atributos, jerarquas nmeros a objetos o hechos segn alguna
regla. La medida es una respuesta acerca de cuanto de una propiedad existe y puede variar.
Se distinguen dos propiedades: Extensivas (longitud, peso, altura, etc.) e Intensivas ( brillo,
inteligencia).
Las unidades de medida son convencionales, una vez elegidas se deben mantener
constantes para que sean comparables y medibles.
Existen dos grandes tipos de mediciones:

Medicin Directa: se mide por la observacin y el hallazgo de unidades tpicas que


sumados dan un resultado
Ejemplos: Peso (Kilogramos); Altura (Centmetros); Distancia (metros)

Medicin Indirecta: se obtiene a partir de tomar datos que se incluirn en una ecuacin.
Ejemplo: Energa, Inteligencia, etc.

Segn el tipo de variable, sus magnitudes pueden expresarse segn diferentes Niveles de
Medicin o Escalas de Medicin

29

ESCALAS O NIVELES DE MEDICIN


VARIABLES CUALITATIVAS

VARIABLES CUANTITATIVAS

NIVEL NOMINAL

NIVEL ORDINAL

ESCALA DE

ESCALA DE RAZN

(nombra/ clasifica)

(jerarquiza/ordena)

INTERVALOS

O COCIENTES

Determina igualdad

Determina la ordenacin Determina igualdad de

Determina la igualdad de

desigualdad entre los

de elementos respecto a

intervalos constantes. El

razones o cocientes entre

elementos, asigna un

algn rango o atributo.

punto 0 (cero) y la

dos puntos de una escala

smbolo, un nmero o

Relaciona

unidad de medida son

indepe3ndientemente de

una descripcin en

jerrquicamente a los

arbitrarios.

la unidad de medida.

palabras. No es

elementos entre si.

Esta es una verdadera

Esta escala de intervalos

escala cuantitativa, y

tienen un punto 0 (cero)

estrictamente una escala. Las relaciones que se

La aplicacin estadstica establecen son de mayor puede aplicarse a ella

verdadero en su origen

es el MODO. La

a menor o viceversa.

La aplicacin estadstica

cantidad de elementos

La aplicacin estadstica estadsticas.

presentes en cada

es la MEDIANA.

La aplicacin estadstica GEOMTRICA

categora, la frecuencia.

EJ.:

es la MEDIA y el

COEFICIENTE

Ordenacin de

DESVIO STANDAR O

VARIACIN.

Categoras

estudiantes por CI.

TPICO ()

Ej.:

psicopatolgicas

Dureza de los

Ej.:

N de jugador de

minerales

Escalas de

football

Nivel

medicin de

socioeconmico

inteligencia

Ej.:

casi todas las medidas

es

la

MEDIA
y

el
DE

Longitud
Peso

Temperatura

2.5. Distribucin de frecuencias.


Los datos recogidos tienen poca significacin si no se los clasifica con algn
criterio y ordena de alguna manera sistemtica.
Filas o matriz de datos: datos recogidos sin organizacin numrica. Ej.: la altura de
100 estudiantes.
Ordenaciones: es un conjunto de datos numricos en orden creciente o decreciente.
La diferencia entre el mayor y el menor se llama rango. Ej.: ordenar de menor a mayor o
viceversa la altura de los 100 estudiantes. La altura mxima registrada es 174 cm. y la
menor altura es 160 cm. El rango es 174-160 = 14 cm.
Distribucin de frecuencias: Se cuentan la cantidad de unidades de anlisis que
poseen igual valor de la variable y el resultado es la frecuencia fi del valor. Luego se

30

ordenan los valores de menor a mayor o viceversa consignndose en una tabla la


frecuencia de cada uno
Distribucin de frecuencias en intervalos de clase: Cuando la cantidad de valores
diferentes es muy grande o ciuando la variable es contnua, y por lo tanto, hay poca
repeticin de valores, es til distribuirlos agrupando los valores en clases o categoras y
determinar el nmero de individuos que pertenecen a cada clase, la frecuencia de clase.
La disposicin tabular o en tablas de los datos por clase con su correspondiente
frecuencia (i) se denomina distribucin o tabla de frecuencia en intervalos de clase.
Ejemplo:
Muestra de alturas de 100 estudiantes universitarios

Nmero de estudiantes

Altura (cm.)

160-162

163-165

18

166-168

42

169-171

27

172-174

N (total)

100

Los datos se los ordenan con algn criterio y este depende de del objetivo de las
investigacin y del tipo de variable. Por ejemplo, si se desea analizar el aumento o la
disminucin de la variable es conveniente ordenar los datos de manera creciente.
Una tabla de distribucin de frecuencias contiene dos columnas. La primera
muestra todos los posibles valores que asume la variable: altura de estudiantes, edad,
cursada de otra carrera, sexo, estado civil, etc. En la segunda columna se ubica el nmero
de veces, la frecuencia, con que se presenta dicho valor
Si se trata de tabular los datos de ms de una variable, como cantidad de alumnos
que cursan otra carrera y sus respectivas edades, se debe elegir una variable y ordenar los
restantes en funcin de la misma. Este tipo de distribucin de frecuencias que resume los
datos de dos variables asociadas de la muestra se llama Tabla de Contingencia

31

Frecuencias dobles
corresponden a dos
variables distintas

Cursan otra
carrera

NO

SI

TOTAL

18-23

23-28

28-33

33-38

38-43

12

15

Edad

TOTAL

frecuencias marginales: verifican


2.5.1. Frecuencia Absoluta y Relativa
La frecuencia simple o absoluta (i ) es el nmero de veces que se repite o
presenta en una muestra un determinado valor de variable. La suma de todas las
frecuencias simples es igual al nmero total de unidades de anlisis de la muestra y se
simboliza con la letra N y se designa tamao de la muestra.

muestra de altura de 100 estudiantes universitarios


Valores de la
Variable

Frecuencias simples o
Frecuencias absolutas
xi

160-162

163-165

18

166-168

42

169-171

27

172-174

8
100
N: Tamao de la muestra

32

La frecuencia relativa (r) de una clase es su frecuencia absoluta dividida por el tamao de
la muestra N (fr =i / N)

La suma de las frecuencias relativas siempre es 1,00 (uno).

r =i / N
Ejemplo de aplicacin
Muestra de altura de 100 estudiantes universitarios
xi

160-162

0,05

163-165

18

0,18

166-168

42

0,42

169-171

27

0,27

172-174

0,08

100

1,00

1 = 5, 2 = 18, 3 = 42, 4 = 27 y 5 = 8

r = i / N = 42 / 100 = 0.42
Otra expresin de la r es la frecuencia relativa porcentual o frecuencia porcentual (%)
que indica las veces que se repite la variable cada 100 observaciones de la misma. Esta se
obtiene multiplicando cada r por 100. La suma de todas las % da como resultado 100.
r . 100 = %
Muestra de altura de 100 estudiantes universitarios
xi

r %

160-162

0,05

5%

163-165

18

0,18

18%

166-168

42

0,42

42%

169-171

27

0,27

27%

172-174

0,08

8%

100

100%

r % = r x 100 = 0.42 x 100 = 42%

33

Cuando se agrupan los valores de la variable en frecuencia, segn lo ya sealado se pueden


utilizar distintos criterios:
datos sin agrupar en intervalos de clase.
Si se simboliza como X a la variable y la misma son las edades de estudiantes varones del
segundo ao de la carrera de psicologa
Xi : 20-31-24-22-20-21-25-20-21-20
datos agrupados.
Ej. Edades de estudiantes varones del segundo ao de la carrera de psicologa

Xi

20

21

22

24

25

31

10

datos agrupados por intervalos de clase. Este recurso se utiliza cuando es muy
grande el nmero de valores diferentes de la variable.
Ej. Edades de estudiantes varones del segundo ao de la carrera de psicologa

i
20-22
7
23-25
2
26-28
0
29-31
1
10
N
Cada valor de la variable se agrupa en intervalos de valores que se denominan clases
Xi

Cuando los datos se agrupan en intervalos, los valores extremos de la clase se denominan
lmites inferiores y superiores respectivamente de la clase. Las distancia entre sus lmites,
o sea entre el mnimo y el mximo, se denomina mdulo de la clase La seleccin del
intervalo de clase se relaciona con cada caso particular. Es necesario conservar una
informacin suficientemente detallada del fenmeno. Para esto hay que evitar clases

34

demasiado pequeas o muy numerosas que podran complicar, sin provecho alguno, los
clculos ulteriores y la informacin.
Cuando se desconoce el lmite inferior del menor intervalo o el lmite superior del
mayor intervalo o se desconocen los lmites de ambos, se presenta un fenmeno
denominado intervalos abiertos y se registra:
Xi
menos de
20
20-22
23-25
26-28
Ms de 29
N

i
0
7
2
0
1
10

En un intervalo de clase, los lmites reales o verdaderos se denominan fronteras de


clases y es la definicin mas exacta de los lmites inferiores y superiores de una clase. En
la prctica, las fronteras se obtienen promediando el lmite superior de una clase con el
inferior de la clase siguiente:

li + Ls
2
Limite superior
xi
20-22
23-25
26-28
29-31
N

i
7
2
0
1
10

Lmite inferior
Ejemplo:

li + Ls = 23 + 22 = 22,5
2
2
lir

xi

Lsr

19,5

20-22

22,5

22,5

23-25

25,5

25,5

26-28

28,5

28,5

29-31

31,5

10

Lmites reales
35

El punto medio o marca de clase del intervalo i (Xm) es la semisuma o promedio


de los lmites reales inferiores y superiores de un mismo intervalo. Todos guardan la
misma diferencia.
xi = lir + Lsr
2

19,5 + 22,5 = 21
2

lir

xi

Lsr

xi

19,5

20 - 22

22,5

21

22,5

23 - 25

25,5

24

25,5

26 - 28

28,5

27

28,5

29 - 31

31,5

30

10

El tamao del intervalo de clase se llama mdulo de la clase y es la diferencia


entre la frontera o lmite real superior (Ls) y la frontera o lmite real inferior (lir)

m = Lsr - lir = 28,5 - 25,5 = 3


Cuando todos los intervalos de clase de una distribucin de frecuencia tienen la
misma amplitud o tamao se los consigan as: c. En tal caso c es igual a la diferencia entre
dos lmites inferiores o superiores de dos clase sucesivas.

lir

xi

Lsr

19,5

20 - 22

22,5

22,5

23 - 25

25,5

25,5

26 - 28

28,5

28,5

29 - 31

31,5

c = 25,5 - 22,5 = 3

c = 28,5 - 25,5 = 3
2.5.2. Reglas generales para formar distribuciones de frecuencias
a. Determinar el mayor y el menor de todos los datos, hallando as el rango o
diferencia entre ambos.
36

b. Dividir el rango en un nmero adecuado de intervalos de clase del mismo tamao.


Si no es posible, se puede utilizar intervalos abiertos o de distinto tamao. El mejor
criterio de eleccin de intervalos es hacer que coincidan las marcas de clases o puntos
medios (xi) con los datos realmente observados. Esto tiende a disminuir el error de
agrupamiento. No es necesario que coincidan las fronteras con datos realmente
observados, si es conveniente que los intervalos los contengan.
c. Determinar el nmero de observaciones que cae dentro de cada intervalo de clase,
la frecuencia de clase, esto se logra mejor con el uso de una tabla de recuentos.
Tabla de recuentos
Recuento

20-22

//// //

23-25

//

Xi

26-28
29-31
N

0
/

1
10

2.5.3. Frecuencia Acumulada


Hasta el momento se trabaj con frecuencias simples, registrando para cada clase o
intervalo de clase la cantidad de veces que dicha variable se haca presente en la
observacin. Estas distribuciones se denominan tablas de frecuencias simples. Otra manera
de distribuir las frecuencias es en forma acumulada (Fi). La frecuencia total de todos los
valores menores que la frontera de clase superior de un intervalo de clase se denomina
frecuencia acumulada hasta ese intervalo de clase inclusive. O sea, la frecuencia
acumulada contabiliza el nmero de observaciones del registro de datos hasta un
determinado valor de variable incluido. Algo as como subtotales. La acumulacin del
ltimo intervalo de la distribucin es equivalente al total de la muestra (N).
La tabla que presenta tales frecuencias se denomina tabla de frecuencias
acumuladas, o distribucin de frecuencias acumuladas o distribucin acumulada.
Al igual que la frecuencia absoluta para la frecuencia acumulada tambin se pueden
calcular la frecuencia acumulada relativa y la relativa porcentual.
Los distintos tipos de frecuencias el investigador los usa segn la necesidad de
descripcin de los datos.

37

Xi

Fi

Fir

Fi%

20-22

0,7

70%

23-25

0,9

90%

26-28

0,9

90%

29-31

10

100%

10

La lectura que se puede hacer de tabla es por ejemplo, 2 varones tienen entre 23-25
aos, pero tambin que 9 varones tienen menos de 25 aos, o que estn entre 20-25
2.6. Representaciones Grficas
Un grfico es una representacin de la distribucin de valores de la variable. Para
cada tipo de variables existe una gama de grficos especficos. Los grficos permiten una
visualizacin rpida de la evolucin o distribucin de una variable. Esta representacin
permita una rpida y clara comparacin y superposicin de muestras tomadas en distintas
oportunidades de tiempo o lugar. El requisito que deben cumplir los grficos es la
proporcionalidad del rea representada.
BARRAS
CUALITATIVAS
(categricas)

SECTORIAL / PASTEL
PICTOGRAMA

VARIABLES
BASTONES
DISCRETAS
CUANTITATIVAS

PICTOGRAMA

(numricas)
CONTINUAS

HISTOGRAMA
POLIGONO DE
FRECUENCIAS
OJIVA DE GALTON
POLGONO DE
FRECUENCIAS
ACUMULADAS

38

BARRAS: es un grfico unidimensional, es decir de una unidad, donde los


rectngulos, las barras, que se diagrama tienen el ancho de sus bases idnticas. Este
ancho se escoge arbitrariamente, pero toda la representacin debe conservar la misma
base. La base de la barra representa geomtricamente cada uno de los valores que asume
la variable. La altura de la barra representa geomtricamente la frecuencia
correspondiente a cada uno de los valores de la variable. Esta escala debe construirse
con precisin para que realmente guarden las barras entre si la precisin necesaria para
su comparacin. En los ejes cartesianos, las bases se apoyan sobre el eje de las abcisas
(x) y las alturas sobre las ordenadas (y).
El siguiente grfico representa grficamente el nivel de rendimiento de un sujeto adulto en
el test de inteligencia WAIS de Weschler.

TEST DE I NTELI GENCI A PARA ADULTOS


40

Escalas: VERBAL Y EJECUCIN

40

35

35

30

30

25

25

20

20

15

15

10

10

37

39
Escala Verbal

Escala de Ejecucin

SECTORIAL / PASTEL: tambin se lo denomina diagrama circular porque se


representa grficamente toda la muestra mediante un crculo. El total de la muestra, N,
es equivalente a los 360 del crculo. A partir de este dato y conociendo cada una de las
frecuencias que asume la variable, se calcula el ngulo que represente a cada frecuencia.
El ngulo o sector del circulo representa a cada atributo, en este caso es el equivalente a
la barra, en tanto representacin grfica.

i x 360
N
39

El siguiente grfico representa la distribucin por sexos de padres que asistan a un centro
de atencin en violencia familiar. Los consultantes eran vctimas de violencia por parte de
sus hijos. La muestra, 250 personas, est tomada del archivo de historias clnica.

xi

mujeres

195

varones

55
N

250

VIOLENCIA FAMILIAR:Padres Golpeados

VARONES 22%

MUJERES 78%

DISTRIBUCIN POR SEXOS


MUJERES
ADRES

VARONES

Lic. Roberto E RamosPoblacin consultante en la Fundacin Familia por Familias (1996)

PICTOGRAMA : para la representacin de las frecuencias se utilizan smbolos. La


eleccin del mismo est en relacin al tema que se trata y es totalmente arbitrario el
modelo. Por ejemplo, si se trabaja con datos referidos a la densidad demogrfica puede
simbolizarse con personas, si se trata de forestacin pueden utilizarse arboles, etc.Si es
importante determinar con claridad la unidad de representacin.

Por ejemplo, en el caso de la muestra anterior, de los padres golpeados por sus hijos:

40

xi

mujeres

195

varones

55
250

N
L = 5 personas
mujeres

varones

LLLLLLLLLL

LLLLLLLLLL

LLLLLLLLLL

LLLLLLLLLL
LLLLLLLLL

Por las caractersticas del pictograma, se lo puede usar en para representar escalas
cualitativas y particularmente cuantitativas discretas, pero no es conveniente. No es el tipo
de grfica ms conveniente porque puede generar confusin el valor, la frecuencia y el
significado.
BASTONES: para este grfico se ubican en el eje horizontal las categoras de las
variables, igual que en las barras, con la diferencia que los bastones no tienen amplitud
en su base, son solo lneas o segmentos que guardan una distancia proporcional y
preestablecida entre si.
HISTOGRAMA: es un conjunto de rectngulos continuos con base en el eje
horizontal (x), centros en las marcas de clase o punto medio y longitudes iguales a los
tamaos de los intervalos de clase, o sea considerando los lmites inferiores y superiores
de cada intervalo. Tambin tienen reas proporcionales a las frecuencias de clases que
se ubica en le eje vertical (y).
Tiempos cronometrados en una carrera
Nota: Esto
es la nota al pie
Subttulo
T

t
u
l
o

5,2
4,8
4,4
4
3,6

Y
1

3,2
2,8

2,4

1,6

10

20

30

40

50

Ttulo de columna

41

POLIGONO DE FRECUENCIA: se obtiene conectando los puntos medios de las


partes superiores de los rectngulos del histograma.
POLGONO DE FRECUENCIAS ACUMULADAS: es similar al polgono de
frecuencias, con la diferencias que el histograma sobre el cual se traza el polgono se
distribuye en forma creciente, de izquierda a derecha, siendo la ultima barra la altura
mxima coincidente con la muestra total (N). Por lo tanto la unin de los puntos medios
de las partes superiores de los rectngulos del histograma dar como resultado una lnea
recta quebrada ascendente.
OJIVA DE GALTON: cuando se trabaja con frecuencias acumuladas el grfico que
recoge dichas frecuencias es la ojiva. La lnea que se obtiene es similar al polgono de
frecuencias acumuladas pero con una curvatura ascendente.

2.7. Sntesis de Datos. ndices estadsticos


Hasta aqu se vieron las tcnicas de la estadstica descriptiva que se utilizan para
resumir un grupo de observaciones utilizando tablas y grficos. En el presente captulo
veremos que es mucho ms claro y rpido transmitir la informacin a partir de ndices
numricos que la representan.
Estos ndices denominados ndices estadsticos o simplemente estadsticos son
una medida de la tendencia de los valores predominantes de la variable en la muestra y de
su variabilidad.
Dado un grupo de datos organizados en un cuadro de distribucin de frecuencias
estos estadsticos los describen en dos o tres valores representativos.
Las caractersticas de la informacin que interesa describir pueden sintetizarse en las
siguientes:

La tendencia central de los datos

La dispersin o variacin de los mismos.

Los datos que ocupan ciertas posiciones.

La simetra de los datos

La forma en que los datos se agrupan.

2.7.1. Estadsticos de Tendencia Central


Estos ndices representan la tendencia de las observaciones de una variable.
Las tres medidas ms utilizadas son:

42

La media
La mediana
La moda
Cada una de estas medidas representan ventajas o inconvenientes a la hora de
expresar una tendencia, aunque en ciertas ocasiones y para muestras muy numerosas
pueden coincidir.

La media (X)

La media aritmtica o simplemente la media de un grupo de observaciones de una


variable es el promedio ponderado de los valores, es decir, la suma de todos los valores
dividida por la cantidad de observaciones. La media expresa la tendencia central de las
observaciones de la variable, entendiendo esto como un valor tpico o representativo de la
misma.
Si la tabla de valores de una variable X es

fi

fr

x1 f1 fr1
.........
Xk fk frk
La media es el valor que podemos escribir de las siguientes formas equivalentes:
1
X = X1 fr1 + ... + Xk frk = 1 (X1 f1 + ...Xk fk) =
N
N

i=1

Xi. fi

Si los datos no estn ordenados en una tabla, entonces:

_
x1 + .....+ xn
X = ---------------------N
En algunas situaciones, debe revisarse cuidadosamente la representatividad de la
media:

Como todas las observaciones intervienen en el clculo de la media, la

aparicin de una observacin extrema, har que la media se desplace en la


direccin de la misma. Por lo tanto, el promedio es muy sensible a los valores
extremos de la variable En consecuencia, no es recomendable usar la media como
medida central en las distribuciones muy asimtricas.

43

Si consideramos una variable discreta, por ejemplo, el nmero de hijos

en las familias argentinas, el valor de la media puede no pertenecer al conjunto de


valores de la variable; Por ejemplo x = 1,2 hijos.

La mediana (Md)

Si se considera una variable discreta X cuyas observaciones en una tabla estadstica


han sido ordenadas de menor a mayor. Llamaremos mediana M al primer valor de la
variable que deja por debajo de al 50 % de las observaciones.
En el caso de variables continuas, las clases vienen dadas por intervalos y aqu la
frmula de la mediana se complica un poco ms (pero no demasiado): Sea l (i-1) , li el
intervalo donde hemos encontrado que por debajo estn el 50 % de las observaciones.
Entonces se obtiene la mediana a partir de las frecuencias acumuladas, mediante
interpolacin lineal como sigue

N/2 - Fi-1
M = l (i-1) + ------------------ mi
fi
Esto equivale a decir que la mediana divide al histograma en dos partes de reas
iguales.
Propiedades de la mediana
Entre las propiedades de la mediana, vamos a destacar las siguientes:

Como medida descriptiva, tiene la ventaja de no estar afectada por las

observaciones extremas, ya que no depende de los valores que toma la variable,


sino del orden de los valores de la misma. Por ello es adecuado su uso en
distribuciones asimtricas.

Es de clculo rpido y de interpretacin sencilla.

A diferencia de la media, la mediana de una variable discreta es siempre un

valor de la variable que estudiamos (ej. La mediana de la variable nmero de hijos


toma siempre valores enteros).

La moda (Mo)

Se llama moda a cualquier valor de la variable que posea la frecuencia absoluta


mxima de la distribucin de frecuencias. El smbolo que la representa es Mo.
Una distribucin puede tener una moda nica (unimodal) o dos o ms modas
(plurimodal)
De la moda se destacan las siguientes propiedades:
44

Es muy fcil de calcular.

Puede no ser nica.

Relacin entre media, mediana y moda


En el caso de distribuciones unimodales, la mediana est con frecuencia
comprendida entre la media y la moda (incluso ms cerca de la media).
En distribuciones que presentan cierta inclinacin, es ms aconsejable el uso de la
mediana. Sin embargo en estudios relacionados con propsitos estadsticos y de inferencia
suele ser ms apta la media.
2.7.2 Estadsticos de posicin o de orden
Los estadsticos de posicin van a ser valores de la variable caracterizados por
superar a cierto porcentaje de observaciones en la poblacin (o muestra).
Tenemos fundamentalmente a los percentiles como medidas de posicin, y asociados a
ellos veremos tambin los cuarteles y deciles

Percentiles

Para una variable discreta, se define el percentil de orden k, como la observacin


Pk que deja por debajo de s el k % de la poblacin.
Esta definicin nos recuerda a la mediana, pues como consecuencia de la definicin es
evidente que
M = P50
En el caso de una variable continua, el intervalo donde se encuentra Pk, se calcula
buscando el que deja debajo de s al k % de las observaciones.
La frmula es similar a la del clculo de la mediana pero dividiendo N por 100

Cuartiles

Los cuartiles Q son un caso particular de los percentiles. Hay 3, y se definen como:
Q1 = P25
Q2 = P50 = M
Q3 = P75

Deciles

Se definen los deciles como los valores de la variable que dividen a las
observaciones en 10 grupos de igual tamao. Ms precisamente, definimos D1,D2, ..., D9
como:
Di = P10 i

donde

i =1, ..., 9

Por ejemplo:
D1=P10

D6=P60
45

Por lo tanto:
D5=P50=M
2.7.3. Medidas de variabilidad o dispersin
Los estadsticos de tendencia central o posicin indican donde se sita un grupo de
puntuaciones. Los de variabilidad o dispersin describen si esas puntuaciones o valores
estn prximas entre s o si por el contrario estn muy dispersas.

Rango Amplitud

Una medida razonable de la variabilidad podra ser la amplitud o rango A, que se


obtiene restando el valor ms bajo de un conjunto de observaciones del valor ms alto.
Propiedades del rango

Es fcil de calcular y sus unidades son las mismas que las de la variable.

No utiliza todas las observaciones (slo dos de ellas).

Se puede ver muy afectada por alguna observacin extrema.

El rango aumenta con el nmero de observaciones, o bien se queda igual. En

cualquier caso nunca disminuye.

Varianza

La varianza V se define como la media de las diferencias cuadrticas con respecto a


su media aritmtica de N puntuaciones, es decir
1
V = ----N
Esta medida es siempre

N
2
( Xi - X)
i =1
una cantidad positiva, con propiedades interesante para la

realizacin de inferencia estadstica. Como sus unidades son las del cuadrado de la
variable, es ms sencillo usar su raz cuadrada, que es la que vemos en la siguiente seccin.
En muchos textos tcnicos esta frmula est ligeramente modificada al dividir la sumatoria
por N - 1. Cuando estudiemos las tcnicas de inferencia se ver en qu casos se utiliza esta
modificacin.

Desviacin tpica o estndar

La varianza no tiene la misma magnitud que las observaciones (ej. si las observaciones se
miden en metros, la varianza lo hace en metros cuadrados).
Si se desea que la medida de dispersin sea de la misma dimensionalidad que las
observaciones bastara con tomar su raz cuadrada. Por ello se define la desviacin tpica o
estndar S como

S =

V
46

Ejemplo de clculo de medidas de dispersin


Calcular el rango, varianza y desviacin tpica de las siguientes cantidades medidas en
metros:
3, 3, 4, 4, 5
Solucin: El rango de esas observaciones es la diferencia entre la mayor y menor de ellas,
es decir, 5 - 3 = 2. Para calcular las restantes medidas de dispersin es necesario calcular
previamente el valor con respecto al cual se miden las diferencias. Este es la media:

X = (3+3+4+4+5) / 5 = 3, 8 metros
La varianza es:
1
V = -------N

N
2
( Xi - X)
= 1/5
i =1

2
2
2
2
2
(-0.8) + (-0.8) + 0.2 + 0.2 + 1.2

V = 0.545 metros cuadrados


Siendo la desviacin estndar:

S =

0.545

= 0,738 metros

Propiedades de la varianza y la desviacin estndar.

Ambas son sensibles a la variacin de cada una de las puntuaciones, es

decir, si una puntuacin cambia, cambia con ella la varianza. La razn es que si
miramos su definicin, la varianza es funcin de cada una de las puntuaciones.

No es recomendable el uso de ellas, cuando tampoco lo sea el de la media

como medida de tendencia central.

Coeficiente de variacin

Las medidas de centralizacin y dispersin dan informacin sobre una muestra. Se


puede preguntar si tiene sentido usar estas magnitudes para comparar dos poblaciones. Por
ejemplo, Si se necesita comparar la dispersin de los pesos de las poblaciones de elefantes
de dos circos diferentes, S nos dara informacin til.
Pero qu ocurre si lo que se compara es la altura de unos elefantes con respecto a
su peso? Tanto la media de X como la desviacin estndar (S), se expresan en las mismas
unidades que la variable. Por ejemplo, en la variable altura se puede usar como unidad de

47

longitud el metro y en la variable peso, el kilogramo. Comparar una desviacin (con


respecto a la media) medida en metros con otra en kilogramos no tiene ningn sentido.
El problema no deriva slo de que una de las medidas sea de longitud y la otra sea
de masa. El mismo problema se plantea si se mide cierta cantidad, por ejemplo la masa, de
dos poblaciones, pero con distintas unidades. Este es el caso en que se compara el peso en
toneladas de una poblacin de 100 elefantes con el correspondiente en miligramos de una
poblacin de 50 hormigas.
El problema no se resuelve tomando las mismas escalas para ambas poblaciones.
Por ejemplo, se puede medir a las hormigas con las mismas unidades que los elefantes
(toneladas). Si la ingeniera gentica no sorprende con alguna barbaridad, lo lgico es que
la dispersin de la variable peso de las hormigas sea prcticamente nula (Aunque haya
algunas que sean 1.000 veces mayores que otras!)
En los dos primeros casos mencionados anteriormente, el problema viene de la
dimensin de las variables, y en el tercero de la diferencia enorme entre las medias de
ambas poblaciones. El coeficiente de variacin es lo que permite evitar estos problemas,
pues elimina la dimensionalidad de las variables y tiene en cuenta la proporcin existente
entre medias y desviacin tpica. Se define del siguiente modo:
S
S
CV = ------- porcentualmente CV% = --------- 100
X
X
Propiedades del coeficiente de variacin

Slo se debe calcular para variables con todos los valores positivos. Todo

ndice de variabilidad es esencialmente no negativo. Las observaciones pueden ser


positivas o nulas, pero su variabilidad debe ser siempre positiva. De ah que slo se
debe trabajar con variables positivas, para la que se tiene con seguridad que x> 0.

No es invariante ante cambios de origen. Es decir, si a los resultados de una

medida le sumamos una cantidad positiva, b> 0, para tener Y = X + b, entonces


CVY < CVX

Es invariante a cambios de escala. As por ejemplo el coeficiente de

variacin de una variable medida en metros es una cantidad adimensional que no


cambia si la medicin se realiza en centmetros.

Bibliografa
Aron A. y Aron E. (2001) Estadstica para Psicologa Cap.1 Bs.As.: Pearson Education,
Cortada de Kohan, N. y Carro, J. M. (1968) Estadstica aplicada. Bs. As.: EUdeB
48

Captulo 3. Correlacin y Regresin

3.1 Distribucin bi-variada.


Una distribucin bidimensional o bivariada, es la distribucin estadstica en la que
intervienen dos variables, x e y, y, por tanto, a cada individuo o unidad de estudio le
corresponden dos valores, xi, yi. Estos dos valores se pueden considerar como
coordenadas de un punto (xi, yi) representado en un diagrama cartesiano. As, a cada
individuo de la distribucin le corresponder un punto, y toda la distribucin se ver
representada mediante un conjunto de puntos tambin llamada nube de puntos. La forma
que presenta esta nube de puntos refleja el grado de correlacin entre las dos variables,
como veremos ms adelante.
Deber tenerse presente que dado que las variables utilizadas son cuantitativas,
este desarrollo es utilizado cuando se trabaja con escalas de intervalos iguales o con
escalas de cocientes.
Por ejemplo, suponiendo que si a los cinco hijos, A, B, C, D y E, de una familia se
les pasan unas pruebas que miden la aptitud musical (Mu) y la aptitud para las
matemticas (Ma) y se obtienen los siguientes resultados:

Esta tabla es una distribucin bidimensional porque intervienen dos variables:


valoracin Mu, valoracin Ma. A cada individuo le corresponden dos valores: A(5,6),
B(7,10), C(4,5), D(8,6), E(2,4). De este modo se asocia a cada individuo un punto en un
diagrama cartesiano:

Esta representacin grfica de una distribucin bidimensional se llama nube de


puntos o diagrama de dispersin.
49

Entre dos variables de una poblacin que determinan una distribucin


bidimensional puede existir una relacin ms o menos estrecha que se llama
correlacin,.
Existen distintos patrones de correlacin, pero la ms frecuente y que

se

estudiar es la correlacin lineal, que existe cuando la relacin entre las variables en el
grfico de coordenadas cartesianas se puede representar con una recta. Esta correlacin
se puede medir mediante el coeficiente de correlacin (ro), que es un nmero,
asociado a los valores de las dos variables. El coeficiente de correlacin puede valer
entre -1 y 1.
Cuando = 1 existe una correlacin directa y absoluta o perfecta entre las dos
variables de modo que el valor de cada variable tiene un nico valor de la otra y est
ubicado sobre la recta que las representa. Los puntos de la nube estn todos situados
sobre una recta de pendiente positiva de tal forma que al aumentar una variable aumenta
la otra.

Esto ocurre, por ejemplo, cuando una barra metlica se somete a distintas
temperaturas, x1, x2,, xn, y se miden con precisin sus correspondientes longitudes, y1,
y2,, yn. Las longitudes se obtienen funcionalmente a partir de las temperaturas de
modo que, conociendo la temperatura a que se va a calentar, se podra obtener la longitud
que tendra la barra.
Esto solo puede suceder cuando las variables estn relacionadas mediante una
ecuacin lineal.
En la realidad, cuando se estudian la relacin entre variables en el campo
biopsicosocial, no existe nunca una relacin perfecta. En estos casos la relacin est
representada por una nube de puntos como el que indica la figura.
Cuando es positivo y grande (prximo a 1) se dice que hay una correlacin
fuerte y positiva. Los valores de cada variable tienden a aumentar cuando aumentan los
de la otra.

50

Es el caso de las estaturas, x1, x2,, xn, y los pesos, y1, y2,, yn, de diversos
atletas de una misma especialidad. A mayor estatura cabe esperar que tengan mayor peso,
pero puede haber excepciones.
Cuando es prximo a cero (por ejemplo, = - 0,12 o = 0,08) se dice que la
correlacin es muy dbil (prcticamente no hay correlacin) y en este caso la nube de
puntos es amorfa.

Es lo que ocurrira si lanzramos simultneamente dos dados y anotramos sus


resultados: puntuacin del dado rojo, xi; puntuacin del dado verde, yi. No existe
ninguna relacin entre las puntuaciones de los dados en las diversas tiradas.
Cuando es prximo a -1 (por ejemplo, p = -0,93) se dice que hay una
correlacin fuerte y negativa. Los valores de cada variable tienden a disminuir cuando
aumentan los de la otra.

Si en un conjunto de pases en vas de desarrollo se miden sus rentas per cpita,


xi, y sus ndices de natalidad, yi, se obtiene una distribucin de este tipo, pues suele
ocurrir que, en general, cuanto mayor sea la renta per cpita menor ser el ndice de
natalidad.
Cuando = -1 todos los puntos estn alineados en una recta de pendiente
negativa y entonces existe una correlacin negativa y absoluta o perfecta entre las dos
variables.

51

3.1.1. Coeficiente de Correlacin en una distribucin bidimensional


Para estudiar la relacin entre dos variables se introduce este nuevo estadstico,
que en una poblacin se constituye en un parmetro de la relacin.
Cada una de las dos variables X e Y de una distribucin bidimensional en una
poblacin, tiene sus propios parmetros. Para el estudio de la correlacin se necesitan sus
medias x y y y sus desviaciones tpicas, x, y.
Hay adems un nuevo parmetro, xy, llamado covarianza, que mide el grado de
relacin entre las dos variables: cmo vara cada una con relacin a la otra.
La covarianza de una distribucin bidimensional de N individuos dados por los
pares de valores (X1,Yy1), (X2, Y2),,Xn,Yn), se calcula mediante la frmula
siguiente:

(X x) . (Y y)
xy =

(X x) . (Y y)

El coeficiente de correlacin , denominado coeficiente de correlacin de


Pearson se obtiene dividiendo la covarianza por el producto de las desviaciones
estndar de cada variable:

Este parmetro no tiene dimensiones. Por ejemplo, si la variable x es una longitud


y la y un peso, los valores x, x. son longitudes, y sus valores varan segn que los datos
estn dados en centmetros o metros; los valores y, y son pesos, y sus valores varan
segn las unidades en que se expresen los datos Kg. o grs.; la covarianza, xy, es el
producto de una longitud por un peso, y su valor vara segn las unidades en que se den
xi, yi; sin embargo, el coeficiente de correlacin es un nmero abstracto cuyo valor no
depende de las unidades en que se hallen los valores de las variables. Adems, el hecho

52

de que tome valores entre 1 y 1 hace que resulte muy cmodo interpretar sus
resultados.
Por todo ello, es un parmetro sumamente adecuado para calcular la correlacin
entre dos variables estadsticas.
Cuando la correlacin se determina sobre una muestra de la poblacin el smbolo
que se usa para representar el coeficiente de correlacin de Pearson es r y solo se podrn
generalizar los resultados a la poblacin mediante una prueba de significacin que
descarte el posible error de muestreo.
La frmula para conocer el valor del ndice o coeficiente de correlacin en una
muestra es la misma que la sealada precedentemente pero aplicada a muestras:
(X - X ) . (Y -Y )
-1 r 1

r=
(X - X) . (Y - Y)

El valor y el signo del coeficiente de correlacin puede variar segn sea la fuerza
de la misma y su sentido. Cuanto ms cerca 1 -1 ms fuerte es la correlacin y cuanto
ms cerca de 0 es ms despreciable.
En sntesis, el coeficiente de correlacin brinda tres informaciones: si hay o no
correlacin, la fuerza y el sentido de la misma.
3.2. Ecuacin de Regresin
Se llama recta de regresin a una recta que marca la tendencia de la nube de
puntos. Si la correlacin es fuerte (tanto positiva como negativa) y, por tanto, los puntos
de la nube estn prximos a una recta, el uso de la recta de regresin permite predecir el
valor de una variable a partir del valor de la otra.
Matemticamente hay dos rectas de regresin, la recta de regresin de Y sobre X y
la de X sobre Y.
La ecuacin de la recta de regresin de Y sobre X es:

^
Y = ayx

^
+ byx . X

donde Y representa la estimacin de la variable

Y en funcin de la variable X
El smbolo ^ sobre la variable Y significa que se trata de un valor estimado por la
recta de regresin y no es un valor medido experimentalmente.
Los parmetros a y b de la recta de regresin se determinan mediante un mtodo
matemtico que se denomina el mtodo de los cuadrados mnimos partiendo de la

53

condicin por la cual la suma de los cuadrados de las desviaciones entre los valores Y
experimentales de los estimados por la recta de regresin es la mnima posible.
De igual forma, la recta de regresin de X sobre Y es aquella para la cual la suma de los
cuadrados de las desviaciones de los valores experimentales de X respecto de las X
estimadas por la recta de regresin es la mnima.
La ecuacin que surge para el parmetro b de la recta Y en funcin de X es:
(X - X) . (Y - Y)

bxy =
(X - X )
El parmetro a es:

axy = Y - b . X
Las rectas de regresin tienen las siguientes peculiaridades:

Ambas pasan por el punto ( X , Y ) llamado centro de gravedad de la

distribucin.

Los valores byx y bxy

se llaman coeficientes de regresin de Y sobre X y de X sobre Y, respectivamente.

Slo es vlida la estimacin de una variable a partir de la otra


cuando no se exceden los lmites de valores experimentales que se
utilizaron para calcular la recta.
El producto byx y bxy se llama Coeficiente de determinacin y su smbolo es r y si
su valor es a 0.80 tiene sentido utilizar una de las rectas de regresin para estimar una
variable a partir del valor de la otra.
3.3. Interpretacin del Coeficiente de correlacin de Pearson
En base a lo desarrollado en los puntos anteriores y a modo de resumen es posible
afirmar que:

Cuando la correlacin es fuerte, las dos rectas de regresin son muy

prximas (son la misma s = 1). Si la correlacin es dbil, las dos rectas de


regresin forman un ngulo grande.

Cuando = 1 existe una correlacin directa y absoluta entre las dos

variables de modo que el valor de cada variable se puede obtener exactamente a


partir de la otra.

Cuando es prximo a cero (por ejemplo, p = -0,12 o p = 0,08) se dice que

la correlacin es muy dbil (prcticamente no hay correlacin).

54

Cuando es positivo y grande (prximo a 1, por ej. p = 0,90) se dice que

hay una correlacin fuerte y positiva. Los valores de cada variable tienden a
aumentar cuando aumentan los de la otra.

Cuando es negativo y de valor absoluto grande (prximo a 1, por ej. p = -

0,93) se dice que hay una correlacin fuerte y negativa. Los valores de cada
variable tienden a disminuir cuando aumentan los de la otra.

Cuando = -1 todos los puntos de la recta estn sobre una recta de

pendiente negativa y entonces existe una existe una correlacin negativa y absoluta
entre las dos variables.

Naturalmente existe toda una gama de valores intermedios entre las

correlaciones fuertes y dbiles, ya sean stas positivas o negativas.


En base a lo anterior es posible afirmar que el coeficiente de correlacin brinda
informacin respecto a:
1.- La existencia de la relacin entre 2 variables.
2.- El grado o intensidad de tal relacin.
3.- El sentido o direccin de la relacin (de acuerdo al signo + - de p).
El estudio de la correlacin entre variables presta grandes servicios en los dominios
donde la experimentacin es en general muy difcil: biometra, psicologa aplicada,
ciencias econmicas, etc. Es necesario, sin embargo, tener presente que una correlacin,
aunque sea fuerte, no implica necesariamente una relacin de causa a efecto entre ambas
variables. Por ejemplo, si en un recinto en que se hace aumentar la temperatura se colocan
un hilo metlico y un caldo de cultivo con microorganismos y se miden simultneamente el
alargamiento del hilo y el desarrollo de los microorganismos, se hallar entre esas dos
variables una fuerte correlacin. La causa, origen de la correlacin observada, es
evidentemente externa a las variables mismas.
Con respecto a la utilidad del estudio de la correlacin es de destacar que la recta de
regresin sirve para realizar estimaciones fiables de una de las variables para valores de la
otra variable.

55

3.4. Coeficiente de correlacin por rangos. Spearman


En algunas situaciones el cientfico no dispone de una escala de valores medibles
para las variables de su investigacin, por ser stas caractersticas de difcil o imposible
medicin. Por ejemplo: adaptacin social, aspectos estticos, honestidad, humor, habilidad
para las ventas, etc.
Sin embargo, en muchos casos, una variable puede clasificarse con un nivel de
medicin ordinal, por rangos u rdenes de jerarqua, para diferenciar cada unidad de
anlisis.
Para calcular el coeficiente de correlacin entre dos variables de estas
caractersticas se cuenta con una frmula especial que toma en cuenta las posiciones
relativas de cada serie, para calcular el denominado coeficiente de correlacin de
Spearman,
Di

6
=1 -(

)
N (N - 1)

Siendo : coeficiente de correlacin por rangos de Spearman.


Di: Diferencia de rango de una prueba respecto a la otra para el
mismo individuo.
N: Nmero total de individuos.
Cuando el coeficiente de correlacin de Spearman se calcula para muestras y no
para una poblacin su smbolo es R.
A modo de ejemplo se desea calcular el coeficiente de correlacin de Spearman,
entre las posiciones logradas por 6 alumnos en las olimpadas de matemtica e historia
realizadas en un colegio de nivel medio. Los resultados se muestran en la siguiente tabla:

Alumno

Matemtica

Historia

Di

Di

-1

-2

56

Reemplazando valores en la frmula:


6 . 8
R=1-

= 0,77
6 (36 1)

El coeficiente de correlacin por rangos posee propiedades anlogas a la del


coeficiente de correlacin de Pearson. Por tal motivo, la interpretacin de los valores del
coeficiente de Spearman es anloga a la ya vista en el punto anterior.
Bibliografa
Aron A. y Aron E. (2001) Estadstica para Psicologa Cap.1 Bs.As.: Pearson Education,
Cortada de Kohan, N. y Carro, J. M. (1968) Estadstica aplicada. Bs. As.: EUdeB

57

Captulo 4. Fundamentos de la inferencia estadstica


Los temas que integran los Captulos 2 y 3 corresponden al campo de la Estadstica
Descriptiva, y como se ha visto,

permiten la presentacin y resumen de los datos

recogidos del anlisis de una poblacin o de una muestra en una investigacin.


Sin embargo, la Estadstica tiene como principal objetivo ser una gua del
investigador en la toma de decisiones que exceden a los datos de la muestra. Esto significa
que las conclusiones respecto de la muestra se generalizan a la poblacin que la misma
representa.
Las tcnicas y procedimientos que se utilizan para tal generalizacin corresponden
a la Estadstica Inferencial o Inductiva.
Algunas de los procedimientos inferenciales que se estudiarn son: Pruebas de
Hiptesis o de Significacin, Tcnicas de Estimacin de Parmetros y Pruebas de
correlacin y Regresin.
4.1. Parmetros y Estadsticos
En el Captulo 2 se llamaron ndices estadsticos o simplemente Estadsticos a las
medidas que representan al conjunto de valores de una variable en una muestra. Si esta
muestra es perfectamente representativa de la poblacin estos ndices deberan tener los
mismos valores que en la poblacin, pero es fcilmente comprensible que esto suceder
con certeza solo si se toman todos los datos de la poblacin. Los ndices tomados de esta
forma se denominan Indices ciertos o Parmetros de la poblacin.
Los mismos ndices, determinados sobre la muestra de una poblacin son los
Estadsticos de la misma y representan una estimacin de los parmetros.
Cmo es prcticamente imposible investigar todas las unidades experimentales de la
poblacin, se investiga sobre muestras representativas de la misma y, a partir de las
tcnicas de la estadstica inferencial se estiman los parmetros de la poblacin.
Para diferenciar los conceptos de estadsticos y parmetros, en la literatura
estadstica se realiza una diferenciacin en los smbolos que los representan. Los
parmetros se simbolizan con letras del alfabeto griego: (media), (varianza) y
(desvo estndar).
4.2. La teora de las probabilidades y las tcnicas inferenciales
Ante la imposibilidad de contar con todos los datos del comportamiento de una
variable en la poblacin, el investigador deber recurrir a los antecedentes que cuente sobre
el mismo y decidir una probable distribucin de los valores de la variable en la poblacin.

58

A partir de esta distribucin probable de valores, la estadstica inferencial permite


realizar inferencias utilizando el mtodo inductivo en pruebas que toman en cuenta los
datos conocidos de las muestras.
Para adoptar una distribucin probable de la variable y dependiendo del carcter de
sta, se recurre a los modelos matemticos (tericos) que ofrece la teora de las
probabilidades.
El modelo ms utilizado y que, en general, se adapta exitosamente a la mayora de
las variables cuantitativas de una investigacin psicolgica es el modelo normal de
probabilidades que estudiaremos en la unidad siguiente.
La adopcin del modelo normal para la distribucin de probabilidades de la
variable en la poblacin implica una serie de consecuencias matemticas que desembocan
en la determinacin del modelo de probabilidades de la distribucin de los ndices
estadsticos de las muestras.
Este modelo de distribucin muestral es, en realidad, un modelo de distribucin de
los distintos valores que puede asumir el ndice por efecto del muestreo. Puede afirmarse
que esta distribucin expresa una distribucin de errores probables del azar del muestreo
en el clculo de los estadsticos muestrales respecto del parmetro de la poblacin. Es
decir, errores probables por efecto de tomar muestras aleatorias y no toda la poblacin.
Al contar con un modelo terico de distribucin de los estadsticos muestrales es
posible, entonces, comparar los resultados empricos de una muestra particular con dicha
distribucin y de esta manera decidir si la muestra es una muestra probable de una
poblacin o si existe una diferencia significativa entre el resultado de la muestra y la
distribucin muestral terica.
La lgica de toda prueba de significacin es decidir si hay una diferencia
significativa entre los estadsticos de la variable obtenidos empricamente en la muestra y
la distribucin probable terica del estadstico en muestras del mismo tamao de esa
poblacin.
Para la Estadstica, decir que hay una diferencia significativa quiere decir que se
descarta la diferencia producida por un error de muestreo ya que el ndice obtenido no se
encuentra dentro de la probabilidad terica.
En otras palabras, toda prueba de significacin estadstica determina si es
probable o no un error de muestreo, a partir de los resultados de la investigacin.
Los psiclogos realizan investigaciones partiendo de una hiptesis de trabajo que, de ser
confirmada, probara un principio terico o la efectividad de alguna nueva metodologa de
59

abordaje teraputico. Esta hiptesis de investigacin slo podr aprobarse con seguridad a
partir de un experimento que permita la evaluacin y medicin de todas las variables que
intervengan en el fenmeno investigado.
Este procedimiento que es comn en ciencias tales como la qumica y la fsica, con
sus experimentos de laboratorio, es imposible cuando se trabaja con fenmenos complejos
que involucran conductas sociales, en los que participan muchas variables, y algunas no
controlables o desconocidas. Es en estos casos en que se recurre a la comprobacin
estadstica de las hiptesis, que tendr como resultado la afirmacin de la hiptesis de
investigacin o su negacin.
Como se seal, la estadstica slo puede evaluar una probable diferencia
significativa en los resultados de una investigacin respecto de un comportamiento
poblacional conocido, por lo que, la aprobacin de la hiptesis se realiza slo cuando
existe una muy pequea probabilidad que se trate de una diferencia producto del azar del
muestreo. Esto implica que la decisin sobre la hiptesis de investigacin se toma de
manera indirecta y una vez que se descarte un error de muestreo.
Es por esto, que se necesita plantear una hiptesis en la que se pueda contrastar
estadsticamente ese probable error de muestreo y es la que se denomina Hiptesis nula o
Hiptesis estadstica, y sta ser la que se ponga a prueba en la prueba de hiptesis o
prueba de significacin estadstica.
La hiptesis nula afirma que no hay diferencias significativas entre los resultados
de la investigacin y los marcados por el modelo terico de distribucin muestral, o lo
que es lo mismo, que la diferencia en los valores de los ndices respecto del parmetro
poblacional es producto del error de muestreo.
Frente a esta hiptesis siempre habr una hiptesis que afirme lo contrario que se
denomina hiptesis alternativa.
Slo si se rechaza la hiptesis nula el investigador podr afirmar la hiptesis
alternativa. Si sta coincide con la hiptesis de investigacin habr afirmado esta ltima.
Como se ver en los temas siguientes, siempre que se contraste una distribucin
muestral el investigador debe decidir previamente el nivel de error que est dispuesto a
asumir en su decisin. A este nivel de error posible se lo llama el nivel de significacin de
la prueba.
Este nivel de significacin corresponde con una zona de muy baja probabilidad del
modelo de probabilidades que se descarta para realizar el contraste de la hiptesis nula. La
zona de probabilidades que efectivamente se utiliza para contrastar la Hiptesis nula es la
60

restante del modelo y se denomina zona de confianza, y es donde se confa de que se


cumpla dicha hiptesis.

4.3. Errores de Tipo I y Tipo II


La prueba de hiptesis siempre involucra un posible error en la decisin porque se
dejan zonas del modelo de muy baja probabilidad fuera del contraste. Esto es inevitable en
toda prueba estadstica y es lo que marca siempre un nivel de incertidumbre. Por lo tanto,
toda decisin sobre una hiptesis implica un riesgo de equivocacin, y slo ser
comprobado posteriormente, cuando los resultados esperados de la aprobacin de la
hiptesis no se verifiquen. Esto origina dos tipos de errores posibles cuando se contrasta
una hiptesis para tomar una decisin.
El rechazo de la Hiptesis nula errneamente, es decir cuando no se la tendra que
haber rechazado, se denomina Error de Tipo I.
La situacin inversa, es decir, no rechazar la hiptesis nula cuando se la tendra que
haber rechazado implica un Error de Tipo II.
Como se ver ms adelante, es posible tomar medidas para acotar los errores, pero
la disminucin de un tipo de error siempre tendr como consecuencia aumentar el otro.
4.4. Teora de Probabilidades
Como ya hemos sealado, la gran contribucin de la estadstica va ms all de la
descripcin de una o ms muestras. Tiene que ver con la poblacin, ya que permite
conocer, con algn grado de certidumbre, caractersticas de las poblaciones que no se
pueden conocer de manera directa porque dichas poblaciones son infinitas o tan grandes y
complejas que se hace imposible abarcarlas totalmente en un estudio. El captulo de la
estadstica que se ocupa de las tcnicas que permiten estas determinaciones, como hemos
visto se denomina estadstica inferencial inductiva.
El objeto de toda inferencia estadstica est en decir algo acerca de las diversas
caractersticas de la poblacin estudiada, sobre la base de hechos conocidos a propsito de
una muestra sacada de dicha poblacin.
Como se seal anteriormente toda inferencia estadstica se realiza en base a un
modelo probabilstico, lo que hace necesario que nos aboquemos al estudio de la Teora de
las Probabilidades como fuente de dichos modelos.

61

4.5. El azar y su estudio sistemtico


Como se seal en el captulo 2, el trmino general para cualquier caracterstica que pueda
medirse en una unidad experimental, y que vare dentro de la poblacin en estudio es la
variable. Las variaciones se producen por dos razones principales:
1.

El error en la medicin, que incluye la variabilidad debida a clasificaciones

equivocadas, la variabilidad de los instrumentos que se usan y la variabilidad entre


los que hacen las mediciones.
2.

La variabilidad inherente a todos los sistemas biolgicos. Existen

diferencias entre las especies, entre individuos dentro de una especie y entre partes
de un mismo individuo.
Por estas razones, se denomina a toda variable que es observada como parte de un
experimento como variable aleatoria. Por lo tanto, cada observacin de un conjunto de
datos revela un resultado de dicha variable aleatoria. En algunos casos se asignan
arbitrariamente nmeros a los resultados de una variable aleatoria que no puede expresarse
cuantitativamente, por ejemplo, 0 si la cualidad estudiada no est presente, 1 si lo est,
resultando una variable aleatoria discreta dicotmica (slo dos resultados posibles). En
otros casos, variables pueden expresarse con una escala cuantitativa continua como
mediciones de tiempos mediciones de habilidades tratndose, entonces, de variables
aleatorias continuas.
Como se seal, la aleatoriedad de la variable deviene del concepto de azar en la
manifestacin del fenmeno, al que entendemos como el suceso o caso fortuito, es decir
aquello que sucede imprevistamente, es decir, sin "intencionalidad" conocida.
Con la cada del determinismo, como plantea Sussel, la evolucin del pensamiento
cientfico lleva a darle hoy, un real estatuto al azar como inherente a toda investigacin;
no ya en forma peyorativa, como ignorancia, sino como aquello que se desconoce en una
primera aproximacin a partir de un pensamiento lineal y simple, y que exige considerarlo
permanentemente parte del proceso.
Sistematizar el azar, sera entonces algo as como un sofisma, pues como podra
sistematizarse lo fortuito, como podramos sistematizar lo desconocido. Pero el azar es
posible de sistematizar a partir de la Teora de las Probabilidades que permite contrastarlo
permanentemente utilizando herramientas apropiadas.
La estadstica inferencial se constituye en una de esas herramientas, permitiendo al
cientfico, en cualquier campo "predecir y prever" con relacin a los fenmenos que le

62

conciernen, acotando as el impacto de lo que llamamos "lo imprevisto", pero no como una
forma ilusoria ms para eliminar la "incertidumbre", sino amplificando la predictibilidad.
Para ilustrar lo expresado acerca del desconocimiento y la incertidumbre.de un
problema investigado, puede tomarse un ejemplo: si estudiamos las consecuencias del
parto de cinco madres, internas de un neuropsiquitrico con diagnstico de psicosis, se
podra suponer que ninguno de los hijos recin nacidos, o algunos, o todos podran
presentar alteraciones de personalidad significativa. Estamos en presencia de una situacin
azarosa (o aleatoria) y lo esencial de este azar es que no se sabe el resultado cierto, ya que
podran ser cualquiera de los mencionados. Si no es posible evaluar o conocer qu tan
factible es cada resultado, tenemos una situacin de incertidumbre. Pero si, por el
contrario, es posible tener una idea de cunto probables son los diferentes resultados
(ninguno, alguno, algunos o todos), se tendr una situacin de riesgo, sobre la que se
puede actuar preventivamente..
Estas situaciones enfrentaron al pensamiento cientfico, imperante hasta fines del
siglo XIX, a su imposibilidad de resolverlas. El esquema causal determinista concibe a las
leyes cientficas, como una relacin entre fenmenos, de tal suerte, que estaran
encadenados indefectiblemente y eternamente a una relacin causa-efecto, en forma
inmutable y unvoca, donde a idnticas situaciones se obtienen idnticos resultados. Pero
si los fenmenos responden a situaciones de riesgo, es decir son fenmenos aleatorios, que
implican el comportamiento de poblaciones o universos numerosos que no se ajustan a
leyes sistemticas y estn influidos por el azar, ante idnticas situaciones pueden obtenerse
comportamientos diversos de los sujetos o entidades.
Esta aspecto afianza ms a la Estadstica y al Clculo de Probabilidades, ya que
estas disciplinas permiten arribar a leyes estables (no fijas), del comportamiento
"promedio" de los individuos de la poblacin.
El clculo de probabilidades se atribuye a los matemticos Pascal y Fermat, a partir
del siglo XVII, cuando estudiaban responder a las preguntas que surgan en los juegos de
azar.
Posteriormente Laplace, a fines del siglo XVIII - principios del XIX, le da una
estructuracin definitiva al Clculo de Probabilidades, permitiendo adems su unificacin
con la Estadstica, hasta ese momento disciplinas separadas, de tal manera, que se
constituye la Probabilidad como una estructura matemtica de base de la Estadstica.
La probabilidad es una cualidad, de lo "probable", y ambas palabras provienen de la
familia de "probar", siendo sta un verbo, que significa por tanto una accin, un hacer, con
63

el fin acreditar por la experiencia que algo del orden de un atributo o fenmeno es
verosmil, la verosimilitud indica aquello que puede ser verdad o no para la razn.
Por lo tanto probar es hacer un examen y un experimento de cualidades, que
permita el conocimiento del fenmeno.
Por ello se tiene, por un lado los conceptos que apuntan a los hechos como
fenmenos captados por los sentidos y por otro, a experiencias que intentan mediante la
comparacin, por oposicin o analoga con experiencias previas,

arribar a la

comprobacin.
Los sucesos aleatorios se caracterizan porque admiten dos resultados posibles o
ms, y no se tienen elementos de juicio, para afirmar cul de esos resultados ocurrir en
una determinada situacin.
A esos resultados que tienen la misma oportunidad de ocurrir, se los llama sucesos
o fenmenos equiprobables, es decir que son igualmente posibles de suceder cuando no
hay razn para que uno de ellos pueda producirse con preferencia a otro.
De esto se deducen los dos componentes esenciales en toda situacin o experimento
aleatorio:

La enumeracin de posibilidades a futuro, llamado espacio muestral, que es

el conjunto de todos los resultados posibles.

La cuantificacin de la incertidumbre, que es la asignacin de

probabilidades.
La probabilidad de un evento dentro del espacio muestral, puede ser nula, posible o
segura. Si se toma un ejemplo, sera:
a. Nula. Ej. Cul es probabilidad de encontrar un alumno, en una comisin de
Psicoestadstica, del turno noche, en Agosto de 2016, en la Universidad Kennedy,
que tenga 6 aos de edad.
b. Posible. Cul e la probabilidad de que llueve en algn da del mes.
c. Segura. Qu probabilidad existe, de que un alumno universitario tenga el nivel
primario completo.
4.6. Probabilidad Terica y emprica
La probabilidad es una rama de las matemticas que se ocupa de medir
cuantitativamente la posibilidad de que un suceso o experimento tenga un determinado
resultado.

64

La probabilidad de un "resultado" se representa con un nmero, entre 0 y 1. El 0


indica la probabilidad nula y el 1 la probabilidad segura. Entre los valores de 0 y 1 se
encuentran las probabilidades de los sucesos posibles.
Los problemas sencillos, son aquellos que miden la probabilidad de un suceso
favorable en un experimento o acontecimiento, con un nmero conocido de resultados,
todos ellos con igual posibilidad de ocurrir.
El nmero total de resultados posibles conocidos se indica con la letra n, y de esos
resultados l o los favorables, es decir, aquellos que se esperan que sucedan, se designan
con la letra f.
La probabilidad es la que se ocupa de medir cuantitativamente una posibilidad, por
tanto responde a una frmula matemtica, que relaciona los dos elementos n y f, de la
siguiente forma:
p =

f
n
Es un cociente, que se resuelve reemplazando los trminos:
Ejemplo: si se tienen cuatro lpices negros y uno rojo en mi cartera, al sacar un lpiz sin
mirar, tengo la probabilidad de sacar el lpiz rojo entre cinco posibilidades, esto sera el
total de lpices, n = 5, f, es decir lo favorable, es el lpiz rojo, o sea f = 1.

p=

1
5

(tengo un solo rojo)


(tengo un total de 5 lpices)

p = 0,20

Hay una probabilidad de 0,20 de sacar un lpiz rojo al azar


Si se quiere saber la probabilidad de sacar un lpiz verde, su posibilidad f es igual a
0, y n sigue siendo 5, resulta del cociente p=0,00 (probabilidad nula). En cambio si todos
los lpices fueran rojos, la probabilidad de sacar uno rojo entre cinco, sera 5 dividido 5
igual p=1.00 (probabilidad segura)
Al estimar la probabilidad, puede ocurrir que se sepa previamente cules son los
sucesos totales posibles sin hacer ninguna medicin previa como, por ejemplo la
probabilidad de sacar un 2 al tirar un dado. Otra situacin, como ocurre en la mayora de
los casos, es que no se sepan los sucesos posibles previamente por lo que es necesario
realizar una experiencia y registrar todos los resultados posibles,
En el primer caso, se calcula tericamente la probabilidad, apelando a la lgica, y
se habla de probabilidad terica. En cambio, cuando los problemas se estudian mediante
experimentos repetitivos y el clculo de probabilidades se determina sobre la base de ellos,
se habla de probabilidad emprica.
65

La probabilidad emprica de un suceso, est determinada por las veces que ese
suceso se d al repetir la experiencia, o sea la frecuencia con que se produce ese resultado,
y como la probabilidad es la relacin con el nmero total de experiencias, se puede
analogar la probabilidad con la frecuencia relativa de aparicin de ese evento.
Esta analoga responde a una Ley emprica formulada por el matemtico Bernoulli,
que la llam Ley emprica de los grandes nmeros, y puede enunciarse como: los
resultados de la experimentacin y observacin en los ms diversos campos de la ciencia,
tcnica, en los juegos de azar, etc., permiten afirmar, con "certeza" prctica, que, a
medida que crece el nmero de repeticiones de un acontecimiento de probabilidad p, la
frecuencia relativa se aproxima a p, llegando

a la igualdad cuando el nmero de

repeticiones es suficientemente grande.


Es por esto que, cuando se trata de poblaciones, se puede asimilar la distribucin de
frecuencias relativas de una variable a la distribucin de probabilidades de la misma.
Para entender intuitivamente esta conclusin basta en pensar que al repetir el clculo de
probabilidades con mayor nmero de ensayos los errores fortuitos se irn equilibrando y la
probabilidad se ir ajustando a la terica. Por ejemplo, si tiramos 10 veces una moneda al
aire es impensable que se obtengan como resultado 5 caras como indicara la probabilidad
terica, pero si repetimos la tirada 100000 veces es fcilmente comprensible que puedan
ocurrir 49000 caras y entonces la probabilidad terica y la frecuencia relativa de caras
seran

prcticamente

iguales

(probabilidad

terica

0,50,

probabilidad

emprica

49000/100000 = 0,49)
Observaremos que cuanto ms veces se repita el fenmeno, o sea cuanto ms
grande sea el nmero de observaciones, mayor es la aproximacin al valor que defina la
probabilidad de ese suceso.
Es importante destacar que no todos los problemas son sencillos, pues se pueden
estudiar acontecimientos en que los distintos resultados pueden tener distintas
probabilidades de ocurrir, o incluso tener un nmero infinito de posibles resultados. En
este caso se esrt en presencia de eventos compuestos.
Ante eventos compuestos, es necesario tener en cuenta de qu forma se arriba a la
estimacin cuantitativa de la probabilidad, siempre teniendo en cuenta delimitar
exactamente en tiempo y espacio el fenmeno y la forma en que se desean determinar los
resultados.
Puede analizarse a travs de un ejemplo: Se considera una poblacin marginal, es
decir de escasos recursos econmicos y se toma una muestra de 100 nios entre 5 y 7 aos,
66

para investigar distintas situaciones posibles. Si se quiere saber la probabilidad de


encontrar un nio con sntomas de desnutricin por un lado y por otro, la probabilidad de
que un nio presente un deficiente rendimiento escolar. Un evento sencillo sera el del
clculo de la probabilidad de cualquiera de las dos situaciones por separado, pero si se
plantea la probabilidad de encontrar nios con problemas de desnutricin y que
simultneamente presenten bajo rendimiento escolar, estaramos frente a un evento
compuesto.
La conjuncin y determina una probabilidad de eventos compuestos, es decir, que
ambos se tienen que dar juntos, matemticamente responde a la ley de la multiplicacin,
que significa que la probabilidad de obtener ambos es igual al producto de cada
probabilidad individual de cada evento, en frmula:

P (A y B) = P (A) . P (B)

Pero si ocurre, que ambos eventos se deben dar juntos, pero que la presencia de
uno depende de la presencia previa del otro, y viceversa, se plantea una probabilidad
condicional, dado que cada uno de los eventos puede depender del otro, son sucesos
dependientes. En este caso la frmula:

P (A y B) = P (A) . P (B/A) = P (B) . P (A/B)


P (B/A) se interpreta como la probabilidad de que sabiendo que sucede B, adems
suceda A y P(A/B) viceversa.
Mediante ejemplos sencillos se pueden ver las diferencias:
a.- Si de un mazo de 40 cartas quiero plantear la posibilidad de que al sacar 2
cartas juntas se d un 4 y 7 (compuesta independiente):
P (4 y 7) = P (4) . P (7) =

4 . 4
= 0,01
40
40
b.- Si en una bolsa hay 3 bolas blancas y 2 negras, si el primer suceso E1 es que la
primera bola que se saque sea negra:
P (E1)

2
3 + 2

2
5

Y E2 que la segunda bola extrada sea negra:


P (E2)

1
3 + 1

1
4

67

Se ve que E1 y E2 son sucesos dependientes. La probabilidad que sucedan ambos ser


entonces:
P (E1 E2) = 2 / 5 x 1 / 4 = 0,1
Otro tipo de casos, es el de la probabilidad en sucesos mutuamente excluyentes, es decir
cuando la presencia de un suceso anula la posibilidad de la presencia del otro, es decir que
no pueden ocurrir al mismo tiempo. El ejemplo ms sencillo es el de la moneda, si al
arrojar una moneda salga cara o seca, cada uno de los sucesos anula al otro. En este caso la
conjuncin plantea el sentido excluyente de la probabilidad, y matemticamente
responde a la ley de la suma, y se interpreta, como que la probabilidad de que se produzca
un evento A o B, es igual a la suma de sus probabilidades individuales
P (A B) = P (A) + P (B)
Una consecuencia de la definicin de probabilidades es que si se suman las probabilidades
de todos los sucesos posibles, la suma es siempre 1,00 (uno).
Si se numeran de 1 a k los sucesos posibles, entonces:
P1 + P2 + P3 + P4 +..+ Pk = 1.00
La suma de todos los eventos o sucesos posibles es 1,00
De esto, puede deducirse adems que:
P1 + P2 + P3 = 1,00 ( P4 +..+ Pk)

4.2.3. Distribucin de probabilidades


Al observar un fenmeno, las variables pueden adoptar distintos valores; en el
estudio estadstico, se recogen esos datos, se vuelcan en tablas, y se confeccionan los
grficos de acuerdo con los distintos valores que adopta la variable en cada muestra; si
llamamos X a la variable, los valores obtenidos son X1, X

2,

3...

Xn

Donde cada uno es un valor numrico o modalidad correspondiente al atributo que se est
midiendo (variable).
Se entiende que puede atribuirse a cada X una probabilidad P, resultando que la
sumatoria de todas las probabilidades individuales de todos los valores de X es igual a
1,00. De esta forma se define una variable aleatoria, con relacin a la ley de
probabilidades, mediante pares de valores (X1, P1), (X2, P2),..... , (Xn, Pn).
Si toma la variable valores continuos, al graficar el polgono de frecuencias resultar una
curva continua, y el rea debajo de la curva, dado que constituye una distribucin de

68

probabilidad continua, toma en cuenta todas las probabilidades por lo que representa a
1,00.
4.2.4. Modelos probabilsticas
Un modelo matemtico de probabilidades es una representacin ideal o una
construccin, en la forma de un sistema, proposicin, frmula o ecuacin y representa
todas las probabilidades que puede asumir una variable aleatoria que pueda represntarse
con el mismo. Estos modelos preexistentes son instrumentos para la interpretacin de
comportamientos en fenmenos aleatorios. En Estadstica son los que nos permiten la
interpretacin de los sucesos que investigamos. Muchas veces la interpretacin no resulta y
esto no depende de errores del modelo elegido, sino precisamente en el error al elegir el
modelo. Este debe responder a los fines de la investigacin para permitir la lectura e
interpretacin adecuada de los resultados y para lograr tener cierta predictibilidad sobre el
comportamiento de las variables dentro de una poblacin, en relacin el fenmeno
estudiado. Como debe indicar en qu forma se distribuyen los valores de la variable y sus
probabilidades, se les llama distribucin.
Una distribucin de probabilidad es un modelo para una variable aleatoria, que
describe la forma en que la probabilidad est distribuida entre los valores posibles que la
variable aleatoria puede asumir. Como se vio anteriormente la probabilidad puede ser
interpretada como la frecuencia relativa en un nmero indefinido de pruebas. Desde el
punto de vista matemtico, los conceptos distribucin de la probabilidad y variable
aleatoria estn interrelacionados; una variable aleatoria debe tener una distribucin de
probabilidad y sta debe estar asociada a una variable aleatoria.
El primer paso para toda inferencia estadstica que permita obtener informacin de la
poblacin a partir de la informacin de una muestra de la misma, es la adopcin de un
modelo

matemtico

de

distribucin

de

probabilidades

que

represente

el

comportamiento probable de una variable en dicha poblacin.


Las distribuciones que se describirn a continuacin son, por lo tanto, tericas; aunque
ellas tienen gran importancia y utilidad en la prctica.
En este curso se estudiarn dos tipos de distribuciones: la distribucin binomial y la
distribucin normal.
4.2.5. Distribucin binomial
La distribucin binomial representa las probabilidades de diferentes resultados de
una variable aleatoria, donde cada uno de los cuales puede tomar uno de dos valores. Las
variables discretas de este tipo se denominan dicotmicas.
69

Se puede tomar como ejemplo de esta variable a los resultados del lanzamiento de
monedas. En este tipo de problemas, el nmero de los lanzamientos constituye la magnitud
de la muestra, y el inters se centrar en el nmero de caras (xitos) obtenidas en n
pruebas.
Suponiendo que las n pruebas son estadsticamente independientes una de otra,
podemos evaluar inmediatamente las probabilidad de obtener r caras sucesivas seguidas de

(n-r) cruces. Supongamos que p es la probabilidad de obtener una cara; en este caso la
probabilidad de obtener una cruz es (1-p) y se simboliza como q. Como las pruebas son
independientes, puede utilizarse la regla de la multiplicacin para el clculo de la
probabilidad para el caso considerado:

r
p . p . p. . . . . . .p .

q.q.q.......q = p

n-r
. (1 - p)

( r trminos )
( n-r trminos )
Esto representa la probabilidad de este suceso segn un orden determinado de
aparicin de las caras y cruces
Es obvio que la probabilidad de obtener r caras y n-r cruces en otro orden tiene
la misma probabilidad. Por lo tanto, para

obtener la probabilidad de conseguir

exactamente r caras en cualquier orden slo se necesita contar el nmero de maneras


distintas que tenemos de obtener r caras y (n-r) cruces y sumar las probabilidades.
Cuando n es grande esto es engorroso, pero, afortunadamente existe una frmula
matemtica para determinar las combinaciones posibles de r en n y se expresa por:
n
(

n!
) = ----------------r
r ! ( n-r) !

donde n! es el factorial de n y (n-r)! es el factorial de (n-r)


Por lo tanto, la probabilidad total ser
n
r
n-r
P(r)
=
(
)
.
p
. q
r
Esta ecuacin que proporciona la probabilidad de obtener r sucesos esperados entre

n posibles, aplicada a todos los sucesos r posibles se conoce como la ecuacin de la


distribucin binomial de la probabilidad y se utiliza como modelo de probabilidades para
variables discretas cuyos resultados se expresen como xitos fracasos. Los parmetros

70

de la distribucin son: La media de la distribucin binomial es = n. p y la varianza es


2 = n . p . q
Si se representan grficamente las probabilidades para diferentes nmeros de
lanzamientos, al aumentar estos el grfico tiende a transformarse en una curva simtrica.
En ejemplo la la representacin de la probabilidad del suceso cara para el
lanzamiento de una, dos o tres monedas es el siguiente:
0,50

0,50

0,33

0,16

0,25

0,03

n caras

n caras

Un lanzamiento

n caras

Dos lanzamientos

Cinco lanzamientos

4.2.6. Distribucin normal


Este es el modelo de distribucin de variables cuantitativas continuas y
corresponde a la llamada funcin normal segn la siguiente ecuacin de Laplace:
(X-)
2

1
p=

e
2

Donde

= media
(parmetro de la curva)
= desvo estndar (parmetro de la curva)
e y son valores numricos constantes
Esta funcin est definida en todo el campo real y la representacin grfica

responde a una curva en forma de campana simtrica al eje de las ordenadas p. En esta
distribucin, la variable p es dependiente de X, y sta ltima es la variable independiente,
por lo que se conoce como distribucin de probabilidad continua de X.
Ejemplo grfico de la funcin normal
p

71

La mayora de las variables en los fenmenos objeto de estudio para las ciencias
sociales y biolgicas, cumplen aproximadamente las caractersticas de esta distribucin,
dado que las frecuencias tienden a distribuirse simtricamente alrededor de los valores
promedios de la variable, es decir de su media por lo cual cobra importancia relevante
cuando se adoptan como parmetros de la curva normal los parmetros de una variable en
una poblacin para permitir la observacin e interpretacin del comportamiento de las
misma.
Es un modelo til, que a travs de una extensa aplicacin en innumerables
investigaciones, justifica su empleo, pues se adecua y adems facilita trabajar
inferencialmente a travs de muestras y hacer la consecuente proyeccin a la poblacin.
Como expresa la ecuacin del modelo, las probabilidades no dependen del nmero
de casos considerados por tratarse de poblaciones y no de muestras.
Se observa su utilidad cuando al estudiar muestras cada vez ms grandes la distribucin de
las frecuencias relativas de sucesos aleatorios se hacen muy semejantes a las distribucin
normal de probabilidades. En la distribucin normal, se sabe que todos los sucesos se
consideran independientes, con la misma fuerza, y la misma probabilidad de ocurrir, tal
cual se supone a priori de cada una de las variables involucradas en el campo de los
fenmenos sociales, y este modelo hipottico encuentra en ello otro motivo de eleccin.
Volviendo a su expresin grfica, debe tenerse en cuenta que toda curva o figura,
en un grfico, encierra un rea proporcional al tamao de la poblacin ya que hay una
relacin proporcional del rea encerrada con la cantidad de sujetos o entidades que
presentan los valores de la variable, encerradas en esa superficie.
Con relacin a la curva normal, el rea de la regin encerrada bajo la curva entre
los valores X1 y X2, es la probabilidad de que la variable aleatoria continua X, tome valores
encerrados entre los dos valores de X:
p

X1

X2

72

Puntaje estndar

Los valores de las variables cuantitativas pueden expresarse de una forma que
facilita la utilizacin del modelo normal y que se denomina puntuacin estndar o
reducida y que se simboliza por la letra Z.
Consiste en transformar el valor de la variable restando el valor de la media poblacional y
dividiendo el resultado por el desvo estndar poblacional
Si llamamos X1 valor de la variable X cuya distribucin tiene una media de y un
desvo estndar de , el valor expresado en el puntaje estndar en
X1 -
Z1 =

4.2.7 Distribucin normal estandarizada


Llamada tambin distribucin de la variable reducida Z, es un modelo simplificado
y estandarizado, que permite trabajar con clculos matemticos sencillos, obteniendo
iguales resultados que con la curva normal, pues en la elaboracin del modelo
estandarizado, se hallan representadas todas las posibles curvas normales ya que esta
distribucin no depende de los parmetros de la poblacin y .
Es un ejemplo de distribucin continua muy significativo e interesante pues facilita
la comparacin entre postulados tericos y las experiencias prcticas a partir de la
Estadstica y el Clculo de probabilidades.
Es una funcin representada por una curva de forma de campana, igual a la normal
en forma, pero con las siguientes caractersticas:
a.

Es una curva con ordenadas p siempre positivas y decreciente hacia ambos lados

del mximo representado en el eje de simetra,


b.

Es simtrica respecto al eje de ordenadas p y asinttica con el eje de las abscisas Z

(quiere decir, que se acerca indefinidamente al eje Z pero jams lo toca).


c.

Tiene una probabilidad mxima, en el valor de Z = 0. (X = )

d.

Tiene dos puntos de inflexin, para los valores de Z= 1 y Z= -1 (X=+)(X=-)

-1

+1

73

Los valores de probabilidades de la variable estndar Z estn calculados y


representados en una Tabla a la que se puede recurrir transformando los valores de X en Z.
Cuando se trabaja con una poblacin, que responde a la distribucin normal, se
pueden efectuar operaciones que permitan utilizar el modelo de la variable reducidapara
calcular las probabilidades, efectuando las conversiones correspondientes.
Dos son en lneas generales las operaciones que se pueden realizar para dicha
transformacin: una grfica y otra de clculo:
a) Grfica: desplazando el origen de Z, es decir Z=0, al valor de la media de la
poblacin, resultando que la media del modelo estndar se transforma en el valor
0. Por ejemplo si la media de la muestra es 70 en X, ser 0 en Z:

70 (media)

-z

+z

b) En clculo: Transformando los valores de X, en valores de Z, mediante la


frmula vista anteriormente, que precisamente toma los valores de la media y del
desvo estndar de la poblacin, que es lo que identifica a la misma en particular.
Esta conversin, significa cambiar la unidad de medida a valores expresados en
unidades de desvo estndar, mediante la ecuacin:
(X-)

Remplazando en la Ecuacin de Laplace X por la variable reducida Z


Z
Z =

1
P/ =

2
e

74

Esto permite calcular las probabilidades en funcin de Z, transformando las


infinitas curvas posible segn los parmetros y en una sola curva normal estndar con
parmetros 0 y 1. Los matemticos calcularon las probabilidades con todos los valores de z
posibles con dos decimales y las registraron en una Tabla de Z.
Una vez efectuadas estas operaciones ya se puede utilizar la tabla de Z, pata hallar
cualquier probabilidad de la poblacin, consideradas como reas, que representan los
valores para cada par de valores de X que desee particularizar.
Algunas reas de probabilidades caractersticas pueden ser las que siguen:
Entre = -1 y = 1 se halla el 68,27% de la poblacin
Entre = -2 y = 2 se halla el 95,45% de la poblacin
Entre = -3 y = 3 se halla el 99,73% de la poblacin

-3

-2

-1

Como se seal anteriormente, el rea es proporcional a la probabilidad o a la


frecuencia relativa para cualquier par de valores de la variable, El rea se interpreta como
la cantidad de casos probables en el total de casos posibles, que se hallan entre ese par de
valores de variable, para nuestra interpretacin, sera la cantidad de sujetos o unidades de
anlisis que tienen esos valores de variables con relacin al total de sujetos o unidades de
anlisis de la poblacin.

4.2.8. Distribucin Muestral


Si se adopta el modelo normal de probabilidades para una poblacin se demuestra
matemticamente, a partir del Teorema de Lmite Central, que las posibles muestras de esa
poblacin tendrn como distribucin de probabilidades de los estadsticos muestrales,
tambin una curva normal para cada tamao de muestra y con parmetros diferentes para
cada caso. Esto significa que medias, desvos estndar, variancia, etc., de las muestras de
un tamao N definido tienen una probabilidad terica de distribuirse segn el modelo
normal de probabilidades.

75

Esta propiedad matemtica se utiliza para tomar decisiones inferenciales a partir de


los resultados empricos correspondientes a muestras de la poblacin.
Si se calcularan los estadsticos midiendo la variable en toda la poblacin
obtendramos un nico valor que sera el parmetro de la poblacin. Por lo tanto, esta
distribucin de probabilidades se produce por utilizar muestras y no estudiar toda la
poblacin.
De esta forma, podemos decir que la distribucin muestral es la representacin de
los errores en el clculo de los estadsticos de muestras de tamao N; errores posibles
por no considerar toda la poblacin y elegir aleatoriamente de

las unidades que

integran las muestras


La Estadstica Inferencial utiliza la distribucin de probabilidades tericas de
muestreo como el patrn de comparacin frente a los que se contrastan los resultados
empricos de una investigacin para saber si una muestra tiene un comportamiento igual
o significativamente diferente al de una poblacin.
Para afirmar que una diferencia es significativa se debe descartar la posibilidad de
que el resultado haya sido producto de un mero error de muestreo, representado en la
distribucin muestral.
La utilizacin de los modelos matemticos de probabilidades para probar hiptesis
se basa en una lgica de toma de decisin especfica de la Estadstica Inferencial. Esta
lgica permite que las pruebas inferenciales de la estadstica sean utilizadas en todo tipo de
problemas correspondiente a cualquier disciplina cientfica, ya que sus conclusiones no
toman en cuenta el marco terico de la misma sino la probabilidad de que los resultados
empricos no sean producto de un error inherente al muestreo.
A partir de esta lgica, segn lo visto anteriormente., se definen diferentes
conceptos que permiten hacer operativa la misma como: intervalo de confianza, nivel de
significacin, hiptesis de nulidad e hiptesis alternativa.

4.4. Pruebas de la Estadstica Inferencial


Existen diferentes tcnicas para contrastar los resultados empricos de una
investigacin que permiten tomar decisiones confiables en base a datos estadsticos.
4.4.1. Pruebas de hiptesis. Pruebas de significacin
El objetivo de una llamada prueba de hiptesis, es verificar si una hiptesis
planteada en una investigacin puede considerarse verdadera (o falsa) con un alto grado de

76

probabilidad. Las hiptesis son formuladas en forma matemtica y por lo tanto, su


verificacin es matemtica y se basa en la teora de las probabilidades.
A estas pruebas de hiptesis se las llama tambin pruebas de significacin, dado
que uno de los principios de estas pruebas es verificar si la diferencia entre los
estadsticos de una distribucin muestral y los obtenidos experimentalmente es
significativa.
Usualmente se trabaja con pruebas que responden a la distribucin normal como
modelo matemtico o probabilstico. Es por ello que primero debe observarse cul es la
capacidad de utilizacin de este tipo de distribucin.
En principio, esta distribucin se puede utilizar en aquellas variables que, a travs
de estudios previos con muestras grandes puede afirmarse que se distribuyen en forma muy
aproximada a la distribucin normal.
4.4.2. Error Estndar de una Distribucin muestral
Segn lo visto en el punto 3.2.8., si en una poblacin con una media aritmtica y
un desvo estndar se extraen n muestras de tamao N, obtendremos de cada una de las
muestras n medias aritmticas. Como se seal previamente, esta variacin de resultados
se produce porque tomamos al azar una cantidad limitada de datos de una poblacin y no
todos.
Cada uno de estas medias muestrales pueden representarse grficamente en funcin
de la cantidad de veces que se repite el mismo valor, es decir, de su frecuencia. Se puede
afirmar que, para tamaos de muestras N mayores a 30 unidades de anlisis, estas
distribuciones de medias muestrales siguen siempre muy aproximadamente la distribucin
normal, independientemente del tipo de variable que se trate.
Esto habilita, cuando se estudian las medias de muestras de una poblacin, a utilizar
la distribucin muestral probable de medias que surge de la Teora de las Probabilidades y
que tiene como parmetros una media que llamaremos y un desvo estndar de las
medias cuyo smbolo es m, que se denomina error estndar y cuya ecuacin de clculo,
de acuerdo al Teorema del Lmite Central es:

m = -------------

(Error Estndar)

N
Siendo: y los parmetros de la poblacin en estudio

77

La distribucin muestral de medias es, entonces, la distribucin terica probable de


medias de muestras de un tamao determinado La dispersin reflejada en m es producto
de tomar muestras de tamao N y es por esto, que tambin se la denomina el error
estndar de la distribucin. De la ecuacin, se deduce que m siempre es menor al
desvo estndar de la poblacin y que, cuanto mayor es el tamao de la muestra menor es
el error estndar. Esto ltimo es lgico, ya que cuanto mayor es N ms se acerca al tamao
de la poblacin, menor ser la dispersin de valores de medias muestrales, es decir,
disminuye la probabilidad de error.
4.4.3. Prueba de Hiptesis de Medias
Cuando la hiptesis plantea que una media muestral es significativamente diferente
a la media de la poblacin, para comprobarla se debe utilizar una prueba de significacin
de medias. La hiptesis mencionada ser la hiptesis de investigacin o experimental
Una hiptesis experimental slo puede probarse cientficamente mediante
experimentos vlidos y confiables, accin normalmente imposible de realizar en estudios
sociales, y esta es la causa por la que se prueban estadsticamente.
La hiptesis se formula siempre a partir de un estadstico de la muestra y, por lo
tanto, en este caso se utilizan los criterios de la lgica estadstica y se realiza una prueba
estadstica de significacin para verificar si lo que afirma la hiptesis puede deberse a un
error de muestreo o no.
Una prueba de significacin de medias es un contraste entre una media
experimental de una muestra de tamao N y la distribucin de muestreo probable para
muestras de la poblacin de igual tamao. Este contraste se realiza dentro de una zona
limitada de la distribucin muestreal caracterizada por los parmetros y m, que se
denomina intervalo de confianza o nivel de confianza de la prueba y que ser lo ms
amplio posible. Es necesario adoptar este nivel de confianza porque, al ser asinttica la
distribucin normal siempre existir una probabilidad de que exista una media que se
origine por error de muestreo aunque esa probabilidad sea nfima. Los niveles de confianza
se eligen siempre como mnimo del orden del 95% de las probabilidades de la distribucin
muestral y en las colas de la distribucin, ya que en esa zona la probabilidad es muy baja.
Esto significa que toda prueba inferencial descarta una parte del modelo en la zona donde
es menor el riesgo de equivocarse al tomar una decisin.
Plantear una prueba estadstica para determinar que una media experimental es
diferente significativamente de la media poblacional es afirmar que la misma est fuera del

78

intervalo de confianza de la distribucin muestral, ya que sta es la zona en la que el


investigador confa que se refleje un error de muestreo.
Por lo tanto, la lgica estadstica de esta prueba se basa en intentar demostrar la
falsedad de una hiptesis que avale la diferencia significativa, afirmando que el resultado
es producto de un error de muestreo. Esto se plantea con una hiptesis nula o de nulidad,
que sostiene que el resultado no es significativo. Esto es, La Hiptesis nula conjetura que
la diferencia entre la media de la poblacin y la de la muestra no es significativa y es
producto de un error de muestreo. En contraposicin a esta hiptesis existir siempre una
hiptesis estadstica que afirme lo contrario y que se denomina hiptesis alternativa
Por lo tanto, si la prueba demuestra que la media de la muestra se encuentra dentro
del intervalo de confianza no se puede rechazar la hiptesis nula y se rechaza la hiptesis
alternativa. Por lo contrario, si la media de la muestra se encuentra fuera del intervalo de
confianza, est dentro de la zona en la que puede sostenerse con un margen de probabilidad
alto que la diferencia entre la muestra y el parmetro poblacional es significativa. Por esta
razn, a la zona del modelo de probabilidad muestral que se descarta inicialmente es la
zona de significacin de la diferencia y se postula como el nivel de significacin de la
distribucin muestral, representndose con el smbolo .
Si ocurre esta ltimos, se rechaza la hiptesis nula y se acepta la hiptesis
alternativa que sostiene que la diferencia entre la media de la muestra y de la del universo
es significativa. Si la hiptesis experimental coincide con la hiptesis alternativa, se
comprueba la validez estadstica de la misma.
El nivel de significacin de una prueba estadstica lo elige el investigador, de
acuerdo al riesgo que implica la comprobacin de su hiptesis pero, nunca es mayor al 5%
de la probabilidad total de la distribucin. Como el nivel de confianza es el resto de la
distribucin, ser ms confiable la verificacin de una hiptesis cuanto mayor sea ste y,
por lo tanto, cuanto menor sea el nivel de significacin. Como se seal, esto es as porque
el nivel de significacin tambin es parte de la distribucin muestral y una muestra puede
estar dentro y ser posible slo por error de muestreo.
Un investigador, al elegir el nivel de significacin est dejando fuera del contraste
de la hiptesis una zona de probabilidades muy pequeas, lo que le permite tomar una
decisin con el menor error probable y, por lo tanto, con el menor riesgo posible.
La eleccin del nivel de significacin de la distribucin muestral depender de lo
que el investigador espera como resultado significativo. Si espera un resultado significativo

79

mayor que elegir la zona en la cola derecha de la distribucin. Si espera un resultado


significativo menor que elegir la zona en la cola de la izquierda del modelo. Por otro
lado, si el resultado ser significativo tanto si es mayor o si es menor que la zona de
significacin deber desdoblarse y ubicarse en las dos colas de la distribucin muestral, por
lo que se dice que se trata de una prueba de dos colas.
Reiterando, en el caso de que la hiptesis experimental proponga que la media
muestral es mayor que la media poblacional, se trata de a una prueba de una cola, y en
este caso todo el nivel de significacin se hallara del lado de medias mayores (derecha de
la curva). En el caso inverso, si se plantea una hiptesis experimental que exprese que la
muestra tiene una media menor que la de la poblacin, la zona de rechazo se ubica en la
otra cola de la distribucin, a la izquierda de la misma

Una cola
P(x)

Intervalo de Confianza

Nivel de Significacin ()

xf

Dos colas
P(x)

Nivel de significacin (/2)

( - )

( + )

Como la distribucin muestral es una distribucin normal. las pruebas de hiptesis


se realizan utilizando la distribucin normal estndar (en funcin de Z) que permite

80

delimitar perfectamente el intervalo de confianza y la zona de rechazo. As, para una


distribucin muestral, en la que la variable es medias de muestras de tamao N, se calcula
la variable estadarizada Z como:
X -
Z = ----------

(1)

N
X es la media muestral,

es la media poblacional
es el desvo poblacional,
N es el tamao de la muestra.
El procedimiento para realizar una prueba de significacin de medias muestrales
consiste en determinar el valor de la media muestral que est en el lmite entre nivel de
confianza y el de significacin. Una vez calculada la media muestral terica del este punto
del modelo se observa si la media experimental est dentro del nivel de confianza o dentro
del nivel de significacin. En el primer caso no se rechaza la Hiptesis nula y se rechaza la
alternativa. Si el resultado experimental cae dentro del nivel de significacin se rechaza la
Hiptesis nula y se acepta la alternativa.
Para el clculo del valor lmite de la media de la distribucin muestral se aplica la
definicin de Z expresada en la ecuacin (1), despejando trminos resulta:
X lim = + Z lim / N

donde: Zlim surge de la Tabla de Z que representa a la distribucin normal, para el Nivel
de significacin elegido
La interpretacin de X lim es que se trata del mayor valor de media terica
probable por error de muestreo para ese nivel de confianza (si la cola de significacin es
la derecha de la curva) y si la media experimental es mayor a este valor el investigador
puede arriesgarse y rechazar la Hiptesis nula y aceptar la Hiptesis alternativa. Si la cola
est a la izquierda de la curva el razonamiento es similar, dando el menor valor de media
terica probable por error de muestreo y se rechazar la Hiptesis nula si la media
experimental es menor que ese valor.

81

Si la prueba es de dos colas se debern determinar los dos valores lmites de las
medias de la distribucin muestral para el nivel de significacin elegido. El razonamiento
para rechazar la Hiptesis nula se deduce de los dos anteriores.
Existe un procedimiento alternativo para la toma de decisiones en esta prueba que
deriva del anterior y consiste en calcular el valor de Z exp para la media experimental y
luego compararlo con el Z lim que surge de la tabla. Si el Z exp est dentro del nivel de
significacin se rechaza la Hiptesis nula y se acepta la alternativa

4.4.4. Prueba de significacin de diferencias de medias muestrales.


En este caso, lo que se desea es saber si dos poblaciones difieren
significativamente. Lo que se tiene en general, como datos, son las medias de dos muestras
X1 y X2 de estas poblaciones, que se contrastarn para saber si hay diferencia significativa
entre ellas. Esta prueba es siempre de dos colas.
El Teorema del Lmite Central demuestra que las diferencias de medias de
muestras de una misma poblacin tambin se distribuyen segn la Distribucin Normal
con una media de diferencias nula ( = 0) y un desvo estndar de las diferencias dif.
Si se utiliza la misma frmula de Z aplicada a la curva normal de diferencias de
medias muestrales:

1 + 2

( X1 X2 ) 0
Donde dif =

Z exp =

dif

N1

N2

Si las muestras son mayores a N=30 pueden utilizarse los desvos muestrales de cada
muestra para estimar dif. Por lo tanto, el Zexp puede calcularse como:

( X1 X2 )
Zexp = ------------Donde Sd es el Desvo estndar de las diferencias estimado
Sd
Donde:

Sd =

S1 2 S2 2
---- + ---N1
N2

Una vez obtenida Zexp y tratndose de una prueba de dos colas siempre, el procedimiento
82

de toma de decisin es el ya visto: Se compara el Zexp con el Zlm , que se extrae de la


Tabla de Z, para saber si la diferencia de las medias caer en la zona de confianza o en la de
significacin y tomar la decisin correspondiente.
4.4.5. Tamao de Muestras. Prueba de t de Student
Lo planteado anteriormente se considera vlido si N > 30, dado que en esas
condiciones se podra decir que la aproximacin a la distribucin normal es buena, pero
cuando la muestra es de tamao menor y no se conoce el de la poblacin es necesario
hacer una correccin a los valores de la curva normal.
Un matemtico de apellido Gosset, y cuyo seudnimo fue Student, estudi y
desarroll una distribucin que es aplicable para los casos en que N 30. A esta se la
conoce como distribucin t de Student.
Esta distribucin esta expresada en una tabla de valores de t en la que se obtienen a
partir de los niveles de significacin ms usados en investigacin, y en funcin de los
grados de libertad de la prueba, que se definen como:

gl = N 1

Para N > 30 los valores de Z de la distribucin normal y los de t de la de Student


coinciden
4.4.6. Prueba de Hiptesis de medias cuando N 30 y no se conoce
Las ecuaciones de clculo y los procedimientos de decisin para las pruebas de
significacin de medias muestrales cuando N 30 son las mismas que las ya vistas,
reemplazando Z por t y utilizando los grados de libertad en lugar de N
El valor de texp correspondiente a una media de muestra estar dado por:
X -

texp =
S
N1
donde X es la media de la muestra, S su desvo estndar y N su tamao, y la media
poblacional o de referencia.

83

El valor hallado se compara con el obtenido de la tabla de t para el nivel de


significacin, tal que si est dentro del intervalo de confianza no se rechaza la hiptesis
nula, y si es mayor s.
Usualmente la tabla de t da los valores diferenciados segn las pruebas de una sola
cola o de dos colas, por lo que debe extraerse el valor de la tabla correspondiente.

4.4.7. Prueba de hiptesis de diferencias de medias cuando N 30 y no se


conoce
El procedimiento es anlogo al ya visto, solo que el valor de texp estar dado por:
( X1 X2 )

texp =
Sd
Donde:
N1 S12 + N S22
Sd =
N1 + N2 - 2
En este caso. Los grados de libertad estarn dados por:
gl = N1 + N2 - 2

Consultando la tabla para encontrar el tlim se acepta o rechaza la hiptesis nula con
la misma lgica de siempre
4.4.8. Prueba de estimacin de
Cuando se ha probado de una muestra es significativamente diferente a las
probables de una poblacin, se impone la tarea de predecir cual ser el parmetro que
corresponder a la nueva poblacin a la que pertenece la muestra. Debe recordarse que
cuando se habla de poblacin se est sealando el comportamiento de una variable en una
poblacin, por lo que la tarea ser predecir el parmetro que define el nuevo
comportamiento de la variable.
La prueba estadstica que permite hacer esta inferencia se denomina Prueba de
estimacin de y se basa en estimar los valores probables de a partir de la media y el
desvo estndar de la muestra y conociendo que la media est dentro del nivel de confianza

84

de la distribucin muestral terica de las muestras de tamao N de dicha poblacin cuyos


parmetros se desconocen.
La lgica de esta prueba consiste trabajar con la distribucin muestral de medias en
una prueba bi-lateral de tal manera de situar el Nivel de Confianza en el centro de la
distribucin. En principio se supone que la muestra es la que corresponde al lmite inferior
del Nivel de Confianza, es decir, es la media de valor menor probable, con lo que es
posible aplicar la ecuacin de estimacin de la probable sabiendo el valor de t

lim

que

corresponde al nivel de confianza elegido y los grados de libertad. Como, al desconocer el


parmetro de la curva no se sabe en qu lugar del Nivel de Confianza se encuentra la
muestra, un segundo paso consiste en suponer a la muestra se encuentre en el otro extremo
del nivel de confianza y recalcular . As, se obtienen los valores mximo y mnimos
probables de .
El resultado final de la estimacin es un intervalo de la distribucin de medias en el
cual puede estar el parmetro de la poblacin.
La ecuacin a utilizar en esta prueba se desprende de la definicin de Z, en este
caso reemplazada por t :

tlim

S
N-1

X + tlim

S
N-1

Si el valor de de la nueva poblacin es conocido y la muestra es mayor a N=30 es


posible hacer la estimacin utilizando los valores de la Tabla de Z y reemplazando en la ecuacin
N-1 por N.

Bibliografa
Aron A. y Aron E. (2001) Estadstica para Psicologa Cap.1 Bs.As.: Pearson Education,
Cortada de Kohan, N. y Carro, J. M. (1968) Estadstica aplicada. Bs. As.: EUdeB

85

Captulo 5. Anlisis de Frecuencias. Prueba de Chi cuadrado

La Prueba de chi cuadrado es una prueba muy general que puede emplearse
cuando se desea estudiar si las frecuencias obtenidas empricamente difieren
significativamente o no de las que se esperaran bajo cierto conjunto de supuestos tericos.
Se trata de una Prueba de hiptesis que se realiza a partir de las frecuencias, por lo que no
es imprescindible que se trabaje con variables cuantitativas como en las pruebas de
hiptesis ya estudiadas.
De hecho, es la prueba ms valiosa para estudiar variables cualitativas expresadas
en escala nominal ya que para variables cuantitativas existen otras pruebas de hiptesis,
que son ms adecuadas.
En esta prueba las hiptesis se expresan como igualdades o desigualdades entre las
frecuencias observadas en una investigacin y las frecuencias esperadas en funcin de
alguna condicin pre-determinada o modelo.
Es por esto, que se expresan las frecuencias como frecuencias observadas (las que
son producto de la investigacin) y frecuencias esperadas (las que son producto del
modelo terico de comparacin). Estas frecuencias se comparan segn un nuevo ndice
estadstico denominado Chi cuadrado y representado por el smbolo .
La Hiptesis de Nulidad de esta prueba se plantea como una igualdad entre las
frecuencias observadas y esperadas. Esta hiptesis conjetura que las diferencias entre las
frecuencias observadas y esperadas se deben al azar de muestreo y, por lo tanto, no son
significativas.
En cuanto a su lgica de contraste de las hiptesis, es similar a las dems pruebas
de significacin que se han estudiado, ya que se adopta un nivel de significacin y se
contrasta el estadstico

de la prueba con el valor lmite o crtico terico del intervalo de

confianza de la distribucin de probabilidades del estadstico

, expresado en una Tabla

en funcin del nivel de significacin y del grado de libertad de la prueba.


Esta prueba es siempre de una cola porque la distribucin de chi cuadrado siempre
parte del valor mnimo que es cero.
Para comparar las frecuencias y tomar una decisin sobre la Hiptesis nula el
estadstico proporciona una medida de la diferencia entre las frecuencias observadas y las
esperadas segn la siguiente ecuacin:

86

( fo - fe )

fe
Cuanto mayor es la diferencia entre las frecuencias observadas y las esperadas,
tanto mayor es el chi cuadrado. Este slo ser cero si todas las frecuencias observadas y
las esperadas son exactamente las mismas.
La distribucin de muestreo, esto es la distribucin de probabilidades de valores de
chi cuadrado producto del muestreo es conocida y est tabulada. Existe una curva de
distribucin probabilstica diferente para cada grado de libertad de la variable.
Si el chi cuadrado resulta mayor de lo que anticipara el azar de muestreo estaremos
en condiciones de descartar la hiptesis nula siguiendo el procedimiento habitual

5.1. Pasos a seguir para el clculo del estadstico chi cuadrado


1.

Encontrar las frecuencias observadas, reales de cada atributo

2.

Determinar las frecuencias observas para cada atributo, de acuerdo al

modelo propuesto
3.

Calcular las frecuencias observadas menos las esperadas de cada

atributo
4.

Elevar al cuadrado las diferencias

5.

Dividir cada diferencia cuadrtica por la frecuencia esperada del

atributo
6.

Sumar los resultados del paso anterior para obtener el chi cuadrado

de la prueba
7.

Extraer de la Tabla el chi cuadrado lmite o crtico para el nivel de

significacin adoptado y los grados de libertad


8.

Rechazar o no la Ho

Esta prueba puede utilizarse para diferentes situaciones segn los modelos de
comparacin de las frecuencias esperadas.

87

5.2. Prueba de bondad de ajuste.


En esta aplicacin se prueba si las frecuencias esperadas de una variable estudiada
se ajusten a un modelo esperado. Generalmente, se trata de un modelo de probabilidades
tericas para la variable (que surge de antecedentes empricos de la misma)
Sea una variable aleatoria X dividida en k categoras clases mutuamente excluyentes X1,
X2, ...., Xk .
Se extrae una muestra de unidades de anlisis independientes de la poblacin de
tamao N que va a ser clasificada segn la variable X y se denomina como fOi a la
frecuencia de la categora xi , de forma que

fOi = N

Hiptesis Nula (Ho): No hay diferencias significativas entre las frecuencias


observadas y las esperadas correspondientes a una distribucin modelo de
referencia (terica probabilstica )
Hiptesis Alternativa (Ha): Hay diferencias significativas con la distribucin
modelo de referencia
Si fei es la frecuencia esperada de Xi , tal que fei = N, se ve la discrepancia entre
las distribuciones observadas y esperadas a travs del clculo de chi cuadrado para los
datos empricos y su comparacin con el valor crtico del chi cuadrado de la tabla para el
nivel de significacin elegido y los grados de libertad de la prueba. Los grados de libertad
de la prueba son los grados de libertad de la variable (k 1) ya que pueden variar todas
las frecuencia observadas para la muestra menos las que corresponde a una categora
clase para que no se altere que foi = N .

prueba =

( foi - fei ) 2
fei

Los grados de libertad, para elegir la curva de chi cuadrado a contrastar se calcula
restando 1 a la cantidad de valores o atributos diferentes de la variable:

88

gl = n - 1
Los requisitos para aplicar la prueba son los siguientes:
1.

El tamao de la muestra debe ser mayor igual a 50

2.

Las frecuencias deben ser distintas de cero

3.

Hasta un 20% mximo de frecuencias menores a 5

5.3. Prueba de Independencia de dos variables


La situacin ms comn en la que se utiliza la prueba de chi cuadrado es aquella en
la que se investiga si existen dos variables cualitativas, cada una con mltiples atributos.
En esta seccin nos abocaremos a este caso.
En esta aplicacin se analiza la independencia de las dos variables, frecuentemente
expresadas en escala nominal, comparando las frecuencias observadas empricamente con
las frecuencias esperadas si las variables fueran independientes entre s.
Por lo tanto, en esta aplicacin hay un solo modelo de comparacin entre las
frecuencias y es el modelo de independencia entre las variables.
Los resultados de esta clasificacin se sistematizan en la Tabla de contingencia,
que expresa las frecuencias observadas de la asociacin de las dos variables.
Suponiendo que las variables observadas en la muestra son X e Y, la Hiptesis de
nulidad conjetura que: La diferencia entre las frecuencias observadas y esperadas segn
el modelo de independencia asociadas a las dos variables no es significativa y se debe al
azar de muestreo.
La distribucin de las frecuencias de la asociacin de ambas variables para cada
unidad de anlisis se representan en un Cuadro de distribucin de frecuencias llamado
Cuadro de Contingencia en el que las que cada celda representa las frecuencias en las que
coinciden dos atributos asociados de las variables.
La aplicacin de la Prueba de

permite contrastar la hiptesis Ho de

independencia entre las dos variables. En este caso se denomina Prueba de independencia.
Esta prueba se utiliza generalmente para probar la no-independencia de las
variables. Es la prueba ms importante para estudiar la Asociacin o Correlacin entre dos
variables cualitativas en escala nominal y complementa las pruebas de correlacin ya
estudiadas para variables cuantitativas o cualitativas en escala ordinal.
En la prueba de independencia los grados de libertad se calculan multiplicando los
grados de libertad de cada variable, calculados en la seccin anterior.

89

La decisin se toma de la misma forma que en la prueba de bondad de ajuste: si el


chi cuadrado de la prueba supera el chi cuadrado de la tabla de distribucin de chi
cuadrado para los grados de libertad correspondiente y un nivel de significacin, se rechaza
la Ho y se acepta la Ha.

Bibliografa
Aron A. y Aron E. (2001) Estadstica para Psicologa Cap.1 Bs.As.: Pearson Education,
Cortada de Kohan, N. y Carro, J. M. (1968) Estadstica aplicada. Bs. As.: EUdeB

90

Anda mungkin juga menyukai