Anda di halaman 1dari 477

1

2
ESTADÍSTICA GENERAL APLICADA CON EXCEL
INTRODUCCIÓN .............................................................................................................................. 8

¿Pero cuáles son los antecedentes de la transición del lápiz como principal instrumento a la tecla del
ordenador en la docencia universitaria? .............................................................................................. 9
Nueva pedagogía ............................................................................................................................... 10
Alcance de un libro así concebido..................................................................................................... 11
Método de enseñanza ........................................................................................................................ 12
Significado de estadística .................................................................................................................. 14
¿Pero es realmente una ciencia o es un método?............................................................................... 15
Evolución de su significado: ............................................................................................................. 16

CAPÍTULO I. GENERALIDADES ................................................................................................. 18

I.1 Definiciones de Estadíistica ................................................................................................... 18


I.2 Clasificación de la estadística para su estudio y enseñanza ................................................... 21

CAPÍTULO II. LA ESTADÍSTICA COMO MÉTODO DE ANÁLISIS ECONÓMICO ................ 21

II.1 Características básicas del programa de Excel 2013, su simbología y las funciones necesarias
para poder operarlo. .......................................................................................................................... 23
II.2 Aplicación del método estadístico a la economía................................................................... 27
II.3 Niveles de medición ............................................................................................................... 28
II.4. Análisis de datos..................................................................................................................... 31
II.4.1 Distribución de frecuencias ............................................................................................. 31

II.5 Análisis estadístico de las distribuciones de frecuencias........................................................ 60


II.5.1 Medidas de tendencia central ............................................................................................... 61
II.5.1.1 La Media Aritmética ......................................................................................................... 61
II.5.1.2 Moda (Mo) ........................................................................................................................ 67
II.5.1.2.1 Relación entre la media aritmética, la moda y la mediana. Planteamiento inicial ......... 70
II.5.1.3 Media Geométrica ( Mg ).................................................................................................. 72
II.5.1.4 Media Armónica (Ma) ...................................................................................................... 75
II.5.1.5 Relación entre las medidas de tendencia central. Planteamientos complementarios ........ 76
II.5.1.5.1 Prácticas I,II y III ........................................................................................................... 79
II.5.1.6 Trabajando con Excel: medidas de tendencia central ..................................................... 83
II.5.2 Medidas de dispersión.......................................................................................................... 86
II.5.2.1 Rango (𝑅) ......................................................................................................................... 87
II.5.2.3 Desviación estándar (s) ................................................................................................... 90
II.5.2.4 Varianza 𝑠2 ....................................................................................................................... 92
II.5.3 Ejercicios que relacionan las medidas de tendencia central con las de dispersión, con sus
respuestas correspondientes. .......................................................................................................... 93
II.5.4 Ejercicios con Excel ........................................................................................................ 95
II.5.5 Medidas de posición partitivas ...................................................................................... 100
II.5.5.1 Cuartiles (Qi) ................................................................................................................. 100
II.5.5.2 Desviación Cuartilica (DC) ........................................................................................... 104
II.5.5.3 Deciles y Percentiles. .................................................................................................... 104
II.5.5.3.1 Deciles (Di) ................................................................................................................ 104
II.5.5.3.2 Percentiles (Pi) ........................................................................................................... 105
3
II.5.5.3.3 Práctica IV ...................................................................................................................... 106
II.5.6 Ejercicios con Excel ...................................................................................................... 108
II.5.7 Medidas de asimetría y curtosis .................................................................................... 115

II.6 Exámenes de reconocimiento básico sobre agrupamientos distintos de datos ..................... 124
II.6.1 Importante: Ejercicio adicional sobre agrupamientos distintos de datos ...................... 127

CÁPITULO III. NÚMEROS ÍNDICE ............................................................................................ 130

III.1 Conceptos básicos de los números índice ............................................................................ 130


III.2 Tipos de índices .................................................................................................................... 131
III.2.1 Números índice simples. ............................................................................................... 131
III.2.2 Números índice compuestos o ponderados .......................................................................... 132

III.3 Pruebas matemáticas para escoger el índice más apropiado ................................................ 133
III.4 Cambio de base .................................................................................................................... 133
III.5. Deflactación ........................................................................................................................... 133
III.5.1. Inflactación ......................................................................................................................... 134

III.6 Construcción de índices........................................................................................................ 134


III.6.1 Índices simples para las ventas de un artículo ...................................................................... 136

III.7 Aplicaciones para deflactar e inflactar ................................................................................. 137


III.8 Caso real: Cálculo de la inflación mensual acumulada en México ...................................... 139
III.9 Ejemplos adicionales ............................................................................................................... 140
III.9.1 Ejemplos sobre el cálculo de números índices compuestos o ponderados de precios ......... 140
III.9.2 Numeros índice de precios simples o relativos: ................................................................... 141
III.9.3 Pruebas matemáticas ............................................................................................................ 142
III.9.4 Prueba de reversión de factores ............................................................................................ 144
III.9.5 Prueba de reversión cronológica .......................................................................................... 145

III.10 Índices eslabonados y en cadena ........................................................................................... 146


III.11 Diferentes tipos de índices usados en México....................................................................... 149
III.12 Ejercicios sobre la construcción de índices con variables de la economía de México .......... 150
III.13 Ejercicios con Excel: Números índices ................................................................................. 156
III.13.1 Índices relativos para un solo artículo ................................................................................ 156

III.14 Cálculo de la inflación mensual acumulada .......................................................................... 158


III.15 Números índices compuestos y ponderados .......................................................................... 163
III.16 Pruebas de reversión de factores y de reversión cronológica .............................................. 167
III.17 Práctica V......................................................................................................................... 174

CAPÍTULO IV. PROBABILIDAD ................................................................................................ 177

IV.1 Significado de probabilidad.................................................................................................. 180


IV.1.1 Axiomas de probabilidad .............................................................................................. 183

IV.2 Tipos de resultados posibles de un experimento .................................................................. 185


IV.2.1 Eventos mutuamente excluyentes ................................................................................. 185
IV.2.2 Eventos independientes ........................................................................................................ 187
IV.2.3 Eventos dependientes y de probabilidad condicionada ........................................................ 187
4
IV.2.4 Función ............................................................................................................................. 188
IV.2.5 Variable numérica ............................................................................................................ 188
IV.2.6 Variable aleatoria, 𝑿 ...................................................................................................... 188

IV.3 Determinación del número de sucesos compuestos ................................................................ 190


IV.3.1 Permutaciones .................................................................................................................. 190
IV.3.2 Combinaciones .............................................................................................................. 192
IV.3.3 Ejercicios de análisis combinatorio ampliado ............................................................... 193
IV.3.4 Examen: Introducción a la probabilidad ....................................................................... 217
IV.3.5 Práctica VI ........................................................................................................................ 218

CAPÍTULO V. DISTRIBUCIONES PROBABILÍSTICAS........................................................... 221

V.1 Principales distribuciones de probabilidad discretas ........................................................... 223


V.1.1 Distribución binomial ................................................................................................... 223
V.1.1.1 La media aritmética y desviación estándar de la distribución binomial ......................... 227
V.1.1.2 La distribución normal como límite de la binomial ...................................................... 230
V.1.1.3 Generación de la distribución binomial con Excel........................................................ 232
V.1.2 Distribución hipergeométrica ........................................................................................ 233
V.1.3 Distribución de Poisson ................................................................................................ 239

V.2 Distribuciones continuas ...................................................................................................... 243


V.2.1 Principales distribuciones continuas ............................................................................. 243
V.2.1.1.2 Grados de libertad...................................................................................................... 259
V.2.1.2. Distribución 𝒕 de Student ............................................................................................... 260
V.2.1.3 Distribución Ji (𝝌𝟐 ) ....................................................................................................... 261
V.2.1.4. Distribución 𝑭 ................................................................................................................ 263

V.3 Práctica VII .......................................................................................................................... 264

CAPÍTULO VI. CONCEPTOS BASICOS DE MUESTREO Y DISTRIBUCIONES EN EL


MUESTREO ................................................................................................................................... 271

VI.1 Concepto de universo y muestra: ......................................................................................... 271


VI.2.1. Métodos de muestreo....................................................................................................... 273
VI.2.1 Errores de muestreo y de no muestreo. ......................................................................... 274
VI.2.2 Selección de la unidad de muestreo. ............................................................................. 275
VI.2.3 Manejo de las tablas de números aleatorios .................................................................. 276
VI.2.4 Muestreo simple aleatorio ............................................................................................. 278
VI.2.5 Muestreo estratificado ................................................................................................... 279
VI.2.6 Muestreo polietápico ..................................................................................................... 280
VI.2.7 Muestreo por áreas ........................................................................................................ 280

VI.3 Aplicaciones ......................................................................................................................... 281


VI.3.1 Aplicación del muestreo simple aleatorio ..................................................................... 281
VI.3.2 Muestreo por áreas, combinado con el simple aleatorio y el estratificado. ........ 284
VI.3.3 Muestreo por racimos o conglomerados ....................................................................... 286
VI.3.4 Muestreo replicado ........................................................................................................ 286

VI.4 Definiciones básicas ............................................................................................................. 287

5
VI.4.1 Límites de confianza ..................................................................................................... 287
VI.4.2 Distribuciones de medias y proporciones muestrales ................................................... 288
VI.4.3 Error máximo permitido y error de muestreo................................................................ 294

VI.5 Determinación probabilística del tamaño de la muestra (𝒏) ................................................ 297


VI.5.1 Evaluación del tamaño de la muestra ............................................................................ 298

VI.6 Precisión alcanzada en la estimación lograda con diferentes métodos de muestreo ........... 300
VI.6.1 Muestreo simple aleatorio ............................................................................................. 301
VI.6.2 Estratificado y replicado ............................................................................................... 301
VI.6.3 Obtención del tamaño de la muestra en estadística de atributos ................................... 302
VI.6.4 RED GENERAL DE ACTIVIDADES EN UNA ENCUESTA DE MUESTREO ...... 316
VI.6.5 Práctica VIII .................................................................................................................. 322
VI.6.6 Práctica IX..................................................................................................................... 329

CAPÍTULO VII. ESTIMACIÓN DE PARÁMETROS .................................................................. 344

VII.1 Definición ......................................................................................................................... 344


VII.2 Desigualdad de Tchebycheff ............................................................................................ 348
VII.2.1 Definición...................................................................................................................... 348

VII.3 Propiedades de los estimadores ........................................................................................ 351


VII.3.1 Estimadores insesgados ...................................................................................................... 351
VII.3.1 𝒑 como estimador insesgado de 𝝅, en estadística de atributos. ................................... 354
VII.3.2 Cálculo de las proporciones muestrales ........................................................................ 356

VII.4 Estimadores eficientes, suficientes y consistentes ............................................................ 357


VII.5 Práctica X: Estimación de parámetros, cuyos ejercicios están resueltos .......................... 358
VII.6 Examen sobre teoría de la estimación para reafirmar sus conceptos básicos y aplicaciones
362

CAPÍTULO VIII. TEORÍA DE LA DECISIÓN ESTADÍSTICA O PRUEBA DE HIPÓTESIS .. 370

VIII.1 Importancia y Definición .................................................................................................. 370


VIII.2 Ejemplos: .......................................................................................................................... 375
VIII.3 Prueba de Hipótesis con Z usando Excel. Uso del excel en el cálculo de la prueba de
hipótesis 377
VIII.3.1 Prueba de Hipótesis ....................................................................................................... 377

VIII.4 Distribución t de Student .................................................................................................. 382


VIII.5 Prueba de Hipótesis con t usando Excel ( Martínez, 2005) .................................................. 386
VIII.6 Prueba de hipótesis de la diferencia de dos medias usando Excel .................................... 387
VIII.7 Distribución de probabilidad 𝝌𝟐 cuadrada y aplicaciones ............................................... 389
VIII.7.1 Probar la bondad de ajuste ............................................................................................ 390
VIII.7.2 Prueba de la independencia de las respuestas o de su clasificación usando las tablas
de contingencia................................................................................................................................ 392

VIII.8 Evaluación estadística de encuestas mensuales o periódicas ............................................ 395


VIII.8.1 Coeficientes de asociación ............................................................................................ 395
VIII.8.2 Personal ocupado promedio .......................................................................................... 396

6
VIII.8.3 Phi (𝝓) .......................................................................................................................... 397
VIII.8.4 V de Cramer .................................................................................................................. 397
VIII.8.5 Procedimiento ............................................................................................................... 398

VIII.9 Prueba de hipótesis con Ji - cuadrado usando Excel (Martínez, 2005:122) ..................... 409
VIII.10 Prueba de hipótesis con F: Análisis de variancia .............................................................. 412
VIII:10.1. Prueba de hipótesis con F aplicada a la verificación de la igualdad de varianzas. .... 412
VIII:10.2. Prueba de hipótesis con F aplicada a la verificación de la igualdad de más de dos
medias .......................................................................................................................................... 413

VIII.11 Práctica XI ........................................................................................................................ 418

TABLAS ESTADÍSTICAS, TOMADAS DE SAMUEL B. RICHMOND (1964) Y G. C.


CANAVOS (1988) PARA PROPÓSITOS DIDÁCTICOS, NO LUCRATIVOS. ......................... 432

Apéndice A: Distribución Normal .................................................................................................. 432


Apéndice B: Distribución Binomial ................................................................................................ 439
Apéndice C: Distribución t de Student ............................................................................................ 446
Apéndice D: Distribución χ2, Ji - cuadrada ..................................................................................... 449
Apéndice E: Distribución de F ........................................................................................................ 451
Apéndice F: Distribución de Poisson .............................................................................................. 459
Apéndice G: Distribución de Poisson acumulada ........................................................................... 465
Apéndice H: Distribución Hipergeométrica .................................................................................... 470

BIBLIOGRAFÍA............................................................................................................................. 475

7
ESTADÍSTICA GENERAL APLICADA CON EXCEL

INTRODUCCIÓN

Desde que el ser humano tuvo conciencia de su existencia buscó expresar sus pensamientos y
sus actividades, en forma tal que éstos le permitieran valorarse en su interrelación con el grupo
social al que pertenecía.

La matemática surgió como una experiencia en la mente humana; ella refleja la voluntad activa y su
objetivo es precisar en forma sistematizada el mundo interno y externo en que se desenvuelve el ser
humano. Observan los estudiosos de esta ciencia que sus elementos básicos son: lógica e intuición,
análisis y construcción, generalidad y particularidad. Advierten que diversas actividades han
destacado sus enfoques diferentes y que es únicamente el juego de estas fuerzas opuestas y la lucha
por su síntesis, lo que constituye su teoría, su utilidad y el supremo valor de la ciencia matemática.

Sin duda todo el desarrollo matemático ha tenido sus raíces psicológicas en necesidades más o
menos prácticas. Pero una vez en marcha, bajo la presión de las aplicaciones necesarias, dicho
desarrollo gana impulso por sí mismo y trasciende los confines de una utilidad inmediata. Esta
tendencia de la ciencia aplicada dio origen a la estadística. Así, se intuye que la estadística es una
rama de la matemática aplicada, que tiene sus orígenes en la observación y descripción en la
matemática pura, que termina siendo uno de los instrumentos para hacer investigación aplicada.

En ese sentido se considera que la manifestación de las matemáticas requirió la identificación de un


procedimiento para hacerlo; en ese contexto surgió la estadística como una de las metodologías de
esa importante ciencia; su aplicación se generalizó de tal manera que en la actualidad se le
considera como uno de los métodos de mayor aplicación al estudio de fenómenos en casi todas las
ramas del saber científico.

Como una consecuencia de la generalización anterior, la ciencia económica se ha beneficiado con la


aplicación de esta valiosa disciplina cuyo uso le ha permitido identificar y cuantificar las
características relevantes de los fenómenos económicos de interés para los investigadores; ello hizo
factible por ejemplo realizar análisis de estructura, de predicción y de evaluación de políticas
públicas y, en el ámbito del estudio, las pruebas de hipótesis a partir de las cuales se formulan las
teorías económicas, que una vez verificadas, permiten configurar las leyes que le han dado
categoría de ciencia a la economía, conocer el estado del arte y los conocimientos frontera de la
misma.

Así, la estadística como instrumento operativo de las matemáticas se revela como una disciplina con
técnicas y procedimientos de gran ayuda para la configuración, análisis e interpretación de
cualquiera de los fenómenos económicos conocidos o por identificar.

La importancia de esta disciplina en el análisis económico determinó la conveniencia de escribir


esta obra que, con las debidas adecuaciones, su uso puede ser extensivo a las ciencias sociales en
general.
8
Aun cuando existe una amplia bibliografía sobre el tema, dentro de la cual, se deduce, que existen
libros de excelente calidad en el país; sin embargo, se piensa que esta obra tiene cualidades que le
dan originalidad y la ubican como un libro de texto de introducción a la estadística, ya que viene a
llenar el hueco existente en el método estadístico aplicado al análisis de la economía mexicana. Se
considera que esta obra es singular porque con ella se prepara al estudiante para que desarrolle su
propia actuación dentro del binomio enseñanza-aprendizaje, participando él también como
protagonista en la transmisión del conocimiento y coadyuva así con el profesor en la reflexión y
evaluación de las ideas utilizadas para aprender economía usando la estadística y las Nuevas
Tecnologías de la Información y las Comunicaciones, NTIC.

¿Pero cuáles son los antecedentes de la transición del lápiz como principal instrumento a la
tecla del ordenador en la docencia universitaria?

Indudablemente que es una influencia la innovación tecnológica que se experimenta constantemente


en la actualidad y cuyas aplicaciones se manifiestan masivamente partiendo de los últimos treinta
años cuando se empleó en la creación y transportación de la información por medio de excelentes
canales de comunicación; ello ha permitido la utilización de más y mejores datos para la expansión
de los conocimientos humanos en prácticamente todas las ciencias, los cuales son manejados en las
computadoras por medio de programas de cómputo amigables prácticamente desde la temprana
edad de cada sujeto, cambiando las características del mundo en que se desarrolla, que al hacerlo,
está en condiciones de educarse más rápidamente y aun mejor, de especializarse y en general
aumentar su conocimiento y cultura. La oportunidad que le brinda la innovación tecnológica así
descrita está sustentada en lo que se ha dado en llamar la sociedad o educación del conocimiento,
misma que ha sido usada intensamente en la docencia de la Facultad de Economía. Impulsada por
los proyectos PAPIME como el presente (304414) de libros de estadística con este enfoque; con ella
se han revolucionado los programas y métodos pedagógicos y de investigación tanto en los niveles
educativos de licenciatura como de doctorado.

La triada del conocimiento

Al respecto, se considera que si la educación del conocimiento hace posible que el ser humano
como creador (hardware) aplique la tecnología (hardware) materializando el conocimiento para
captar , manejar y tratar la información con programas de cómputo (software) donde refleja el
conocimiento para su aplicación para presentarla en producto, es indudable que brinda una opción
para la mejor transmisión del conocimiento a los estudiantes, quienes además de adquirir una
amplia información que puede ser teórica y práctica. Facilitando con celeridad su capacidad creativa
para ser profesionistas e investigadores competitivos al contar, en el caso de los economistas, con
instrumentos que los auxilian para hacer análisis e interpretaciones apropiadas de los fenómenos
económicos que suelen estudiar.

Para que ellos puedan generar ese producto, que no es más que la aplicación inteligente del acervo
adquirido y de su hábil instrumentación técnica en la solución de los problemas económicos que
aquejan a la sociedad, requieren de cambios radicales no solo en los contenidos de los programas de
estudio, también en los sistemas de enseñanza- aprendizaje.

9
Nueva pedagogía

Ello conlleva a elaborar nuevos textos de estadística diferentes a los vigentes hasta hace poco, cuya
obsolescencia entre otras cosas ha sido ocasionada por la ausencia de bases de datos y de softwares
(programas de cómputo) que faciliten la transmisión de sus contenidos a una generación nacida en
la era de la electrónica y, por consiguiente, ávida de libros de texto cuyos contenidos se puedan
ilustrar con el uso de la computadora, del internet y de programas de cómputo. Lo anterior, obliga a
pensar en una nueva pedagogía, cuya connotación es la de enseñar a aprender dentro de la sociedad
del conocimiento, pero no sólo a los alumnos, también al profesor quien ahora debe tener la
humildad de aceptar que debe aprender todos los días a conocer el potencial de estos medios para
enseñarlos a sus discípulos.

Así, quiérase o no ha surgido una nueva pedagogía, la cual tiene como referente básico las Nuevas
Tecnologías sobre la Informática y Comunicación, cuyas siglas son: NTIC, apuntaladas por la
tecnología del internet que es el vehículo que ha hecho posible el surgimiento, expansión y rápida
aplicación del conocimiento económico. De ahí que sea conveniente abrevar en ésta para determinar
los nuevos espacios en que se debe educar sobre la ciencia económica en la UNAM. Esta situación
ahora induce a pensar cómo se debe enseñar a aprender y con qué libros se debe hacer para evitar el
rezago de la UNAM con respecto a otras instituciones que enseñan economía en el país y en el
extranjero.

En efecto si tradicionalmente en el aula el profesor era el principal emisor de conocimientos, ahora


con las carreteras de la información se está en posibilidad de modificar o implementar nuevos
programas educativos, cuyo sustento para el profesor deben ser libros que además de contener los
conocimientos básicos sobre estadística, debe tener un claro sustento en la cibernética.

Vistos así los nuevos libros, su alcance es muy grande porque deben hacer posible el uso en el “aula
de clase” del internet, que tiene la capacidad de transportar palabras, archivos, imágenes, gráficas y
así establecer “una relación educativa entre tutores y alumnos” sin más limitación que la capacidad
de los servidores utilizados.

En este contexto es que se dice que los nuevos libros de estadística deben permitir a profesores y
alumnos acceder conjuntamente a las bibliotecas virtuales, a diccionarios especializados, a bases de
datos y a una amplia gama de softwares especializados que de manera enunciativa pero no
limitativa, se pueden mencionar entre ellos a Word, Excel, Spss, Eviews, Stata, R, etc.

El alcance así visualizado de los nuevos libros de estadística modifica la relación entre maestro y
alumnos, que en esta etapa de transición es forma muy parecida al enfoque de la educación
presencial, pero que evoluciona constantemente hacia nuevos horizontes de trabajo derivados de la
sociedad del conocimiento, cuyo eje rector son las NTIC.

¿Qué características debe tener ahora un libro de estadística básica que sirva para enseñar a
aprender a profesores y estudiantes de economía, de contabilidad, finanzas, mercadotecnia, ventas,
y otros campos de las ciencias sociales y de las administrativas?

10
La respuesta en parte es que debe servir para el desarrollo de la pedagogía de la información
económica, analizada e interpretada con la ayuda de la cibernética a nivel de licenciatura, es decir,
que ayude a los estudiantes a acercarse a la metodología de la estadística sin la preocupación o
ansiedad que suele asociarse con esta disciplina. Para ello los contenidos de este libro deben
presentarse e ilustrarse con el rigor técnico necesario para que los alumnos dominen formalmente
sus métodos de trabajo, dominio que debe facilitarse aplicando dichos métodos al análisis e
interpretación de variables económicas mexicanas, mediante el uso de las tecnologías de la
información y las comunicaciones (TIC). Con esta nueva pedagogía los profesores y los estudiantes
desempeñan un nuevo y más activo papel de grupo, que rompe con el tradicional método de
enseñanza-aprendizaje, en el que el profesor es protagonista porque constituye la fuente del
conocimiento. Con estos nuevos textos todos somos protagonistas, se elimina el monólogo y
estimula el diálogo porque se dispone de más tiempo para hacer análisis y porque la información
está disponible simultáneamente para todos, de manera que ya no es exclusiva del profesor. Por
consiguiente, debe interpretarse que las NTIC usadas en textos de estadística deben hacer de los
nuevos libros además de un recurso didáctico importante, deben constituir la base para conformar
nuevos métodos de enseñanza de esta importante hibridación de la economía con las matemáticas.

Así, un libro moderno de estadística debe caracterizarse por contener la metodología estadística
básica, tanto la descriptiva como la inferencial; además debe mostrar cómo se pueden estudiar con
mayor facilidad, profundidad y extensión los fenómenos económicos usando las NTIC. Puede
decirse que el “nuevo libro electrónico” debe fungir como el hilo conductor para que como un solo
grupo, maestros y alumnos deban prepararse para captar y utilizar la información que les permita
crear, administrar, seleccionar, procesar y difundir conocimientos de utilidad social e individual, en
este caso, económicos. Así, ambos actores desarrollar un método didáctico que les ayude a aprender
para enseguida enseñar cómo manejar o manipular la información con propósitos educativos y
formativos.

Alcance de un libro así concebido

Como las NTIC ayudan a mejorar el método didáctico, ello permitirá atenuar y quizás eliminar la
heterogeneidad que suelen tener los estudiantes sobre conocimientos de teoría económica,
matemáticas y estadística, en virtud de que se uniforma la transmisión virtual del conocimiento, se
incrementa el número de los ejercicios porque los cálculos ahora los hace la computadora y se
intensifica el manejo conceptual porque el profesor tiene más tiempo para atender a los alumnos
rezagados. Todas estas ventajas cristalizan en un mejor método de enseñanza mediante el cual ha
sido posible reducir los altos índices de deserción y de reprobación que antes existían en esta
materia.

En esta perspectiva es que a continuación se visualiza la actividad del binomio profesor –


estudiante de la siguiente manera: El profesor debe capacitarse para actuar como un educador con
vocación de investigador, con el fin de que induzca aprendizajes relevantes para la superación de la
persona y para su participación significativa en la economía y en la sociedad. El estudiante debe
abandonar su conducta pasiva de mero receptáculo del conocimiento, de ente receptor de los
contenidos de los cursos para vincularse con el profesor en la búsqueda de información que además

11
de contribuir a su formación sólida, ésta sea la base para su especialización que lo convierta luego
en experto; en otras palabras, que la pedagogía de las NTIC le abra escenarios en que pueda actuar a
futuro con agrado en cosas que le gusten y sean útiles para su comunidad.

Es indudable que el profesor al estarse preparando continuamente, porque este tipo de libros lo
obliga a actualizarse, motivarse y capacitarse permanentemente, actúa como medio de desarrollo
académico profesional, de manera que estará en condiciones de orientar oportunamente a los
alumnos a hacer durante el curso un mayor uso del correo electrónico, de los browsers o buscadores
de información, al chateo para precisar la definición de los conceptos, etc. Por consiguiente, este
tipo de libro induce a revolucionar la concepción pedagógica tradicional de la estadística, todo ello
gracias a la aplicación de las innovaciones tecnológicas derivadas de la NTIC en este tipo de
modernos textos de estadística básica.

Método de enseñanza

Al contarse con un libro con estas características, en el pasado reciente ha servido como
instrumento para formular y conducir la práctica docente con las siguientes características:

Se han podio conjugar el método holístico con el Montessori, el socrático y el sistémico; éste último
se basa en la relación de sistemas que se establecen, básicamente los constituidos por los alumnos,
los maestros y la sociedad. Así al trabajar con sistemas vivos, se está en condiciones de dialogar
(método socrático), de reflexionar, de cuestionar, no repetir sino explorar, indagar la causalidad de
los fenómenos en estudio y generar el conocimiento necesario para que los alumnos trabajando en
el presente se preparen para afrontar su destino en el futuro con éxito. En lo que se refiere al método
holístico, con él se fomenta la terapia de grupo al intentar entender conjuntamente las totalidades o
realidades complejas, entendimiento que adquieren a partir de la demostración de las leyes
económicas, de los axiomas, de los teoremas, de las propiedades o características del instrumental
matemático- estadístico que se utilizan en el grupo. Con el método de Montessori, caracterizado por
“aprender haciendo con acciones lúdicas que favorecen el autoeducación”, se ha logrado la
motivación de los estudiantes, evitando la deserción masiva, ya que la motivación se mantiene a lo
largo de la exposición temática del curso en cada semestre escolar.

En este contexto es que se usa el aula tradicional para exponer el contenido de los cursos, para
organizar y administrar la cátedra y la investigación, así como para realizar evaluaciones sobre el
grado de asimilación que logran los alumnos sobre las materias que se imparte, y, para hacer
ejercicios manualmente y en esa forma afianzar los conocimientos. El aula multimedia se usó para
exponer la teoría y enfatizar conceptos relevantes, así como para los seminarios y presentación de
expertos que se invitan periódicamente, en tanto que el aula de cómputo sirve para ilustrar la teoría
con la metodología electrónicamente usando diferentes programas y para hacer operaciones
rápidamente.

En consonancia con la necesidad de crear nuevos conocimientos y métodos de trabajo para analizar
e interpretar con rigor técnico los datos de los fenómenos bajo estudio, el profesor investiga,
genera y difunde periódicamente sus hallazgos en el aula y foros académicos relacionados con sus
temas de investigación. Con esta simbiosis se asegura la congruencia de la didáctica con la
12
investigación aplicada hacia un objetivo específico: producir para transmitir el conocimiento
ampliado y actualizado de las materias.

Lo anterior apunta al diseño de modelos de enseñanza – aprendizaje especiales, acordes con las
características escolares de los alumnos y sobre todo porque el docente está actualizado en el
sentido de que usa métodos pedagógicos que motivan a los estudiantes a profundizar en los temas
de la estadística, haciendo ejercicios interesantes sobre los fenómenos de la economía mexicana,
utilizando para ello preferentemente programas de cómputo para ilustrar los cálculos rápidos en
forma que hacen factible optimizar el tiempo disponible en el análisis e interpretación de los
resultados estadísticos que se obtienen sobre los fenómenos económicos en estudio; además,
tomando en cuenta que la ciencia actualmente se hace y difunde a partir de sus avances en el mundo
anglosajón, por esa razón se recomienda que se consulte la bibliografía en inglés para mantener
actualizados a los alumnos en el estado del arte estadístico y conocimientos frontera que surgen.

Derivado de lo anterior puede decirse que esta obra es original porque la presentación de su
contenido se caracteriza por; primero, la exposición del método estadístico, sus características,
alcance y limitaciones, fenómenos factibles de analizar y, finalmente, se indica cómo se aplica en el
análisis e interpretación de los resultados correspondientes. Con ello se hace una aportación en la
nueva presentación del conocimiento, cuya transmisión resulta rápida y atractiva; en ocasiones se
ratifican o rectifican algunas interpretaciones superficiales o radicales en cuanto a la bondad del
método estadístico aplicado a la empresa y la economía en general.

Con base en lo anterior, los contenidos temáticos de la obra se presentan con la siguiente secuencia:

En el capítulo I se establece la relación que existe entre la Estadística y la Economía, así como la
función específica que tiene la primera como instrumento de análisis de la segunda.

En el capítulo II se define, caracteriza y usa a la estadística descriptiva en su acepción paramétrica,


con la que se identifica la importancia que tiene en la tipificación de los fenómenos bajo estudio por
el investigador.

Aquí se presentan los métodos necesarios para identificar, recopilar, clasificar, procesar, presentar
para analizar e interpretar la información de un fenómeno de interés para el (la) investigador(a),
hombre o mujer de negocios, estudiante o analista. Es por ello que se hace una amplia exposición de
los diferentes métodos que se usan para clasificar y agrupar los datos de una variable en estudio, así
como de los métodos que se utilizan para tipificar estadísticamente las características de la variable
mediante las medidas de tendencia central, las de dispersión, las de asimetría y curtosis, así como de
las de posición y las de concentración.

En el capítulo III se expone la metodología de los números índice y en el IV la introducción a la


probabilidad. Así, en lo que se refiere a los primeros, se describe la importancia que tienen en el
análisis económico y sobre la segunda, se establece la relación que existe entre la información
posible y la información probable de una variable, dentro de su naturaleza intrínseca del análisis de
la predicción que muchas veces es necesario hacer en un entorno en que existe riesgo e
incertidumbre. Se hace pues una introducción a la teoría de la probabilidad, usándola para la
13
identificación de los resultados posibles que genera un experimento realizado en determinadas
condiciones, el tipo y la caracterización de esos resultados, mismos que se analizan en el marco de
una distribución probabilística, capítulo V, que sienta posteriormente las bases para la introducción
a las distribuciones de muestreo, que a su vez constituyen el basamento teórico para realizar
investigaciones de campo, con muestras probabilísticas, capítulo VI, así como para la estimación de
parámetros, capítulo VII y pruebas de hipótesis, capítulo VIII.

En este contexto conviene decir que para constatar la buena o mala asimilación de estos
conocimientos, al final de cada capítulo se incluyeron, ejercicios, prácticas y exámenes contestados
con el fin de que el lector verifique personalmente su dominio de los temas.

Observaciones: 1) Los ejercicios con Excel toman como guía los de los profesores Ciro Martínez
(2005) y María E. Cristófoli (2005) adaptados a variables mexicanas; 2) lo aquí expuesto tiene su
origen en nuestra larga experiencia docente, lo que significa que muchos conocimientos también
provienen de los autores descritos en la bibliografía y de muchos otros que resulta difícil acordarse;
para estos últimos, nuestras disculpas; 3) así, el mérito de este libro es de muchos pero los errores,
deficiencias, omisiones y limitaciones en general, son responsabilidad exclusiva del responsable
del proyecto PAPIME 304414.

Finalmente, se desea expresar sinceros agradecimientos a los dictaminadores de este libro, cuyas
opiniones permitieron mejorar sus contenidos y vigorizar la autorización para la publicación
institucional de este libro. Igualmente, se reconoce en mucho la colaboración académica del
profesor José Alberto Reyes de la Rosa, así como el trabajo de las becarias Campos Soberanes Ana
Xiadani, Colinas Picazo Montserrat, Hernández Valdez Karla Ivette, Martínez González Jessica
Lorena y Martínez Servín Diana, cuya participación entusiasta enriqueció esta obra.

Significado de estadística

Su significado emana del vocablo “estado” y en general es sinónimo de datos (Rojas: 2001).

Lo anterior se debe básicamente a que cuando el ser humano se organiza en sociedad y aparece el
Estado como promotor de su bienestar, entonces es cuando el gobernante se empieza a preocupar
por la obtención de datos relativos a la población y a la riqueza, para fines guerreros y de
administración pública. Con el transcurso del tiempo la sociedad se fue desarrollando y con ella se
fueron obteniendo datos de carácter más variado para uso general de los gobiernos, cuyo análisis se
hace con la metodología de lo que hoy se conoce como estadística descriptiva.

En este contexto también se usa mucho la estadística inferencial, cuya aplicación se basa en
muestras. El origen de esta disciplina puede atribuirse a las personas que trabajan los seguros de
vida y principalmente ciertas áreas de la experimentación biológica durante el siglo XIX, la cual se
hacía con muestras empíricas. En opinión de Maddala (1996:33) lo anterior llevó a Sir R.A.Fisher a
desarrollar la metodología de la estadística inferencial; el muestreo probabilístico a principios del
siglo XX.

14
¿Pero es realmente una ciencia o es un método?

Para contestar esta pregunta antes es conveniente señalar como preámbulo de la respuesta la opinión
de los señores F. E. Croxton y D. J. Cowden (1965), quienes la consideran no como ciencia sino
como un método científico, es en esta acepción que coincide el Profesor Gilberto Loyo (q.e.p.d.)
quien en cierta ocasión de 1967 indicó que precisamente la estadística es un conjunto de métodos.
Agréguese a lo anterior que varios de los autores que se citarán en este libro son de la opinión de
que es un método. No obstante, otros consideran que es una ciencia. Esta situación dubitativa hace
que en este libro se indique que es ambas, dado que la ciencia al no ser estática gracias a la
investigación pura y aplicada que se realiza, continuamente aumenta sus conocimientos, es decir se
está haciendo ciencia estadística al incrementarse sus leyes, teoremas, axiomas, etc.

Ahora bien, ante la contundencia mostrada por otros autores quienes consideran que es un método,
se decidió profundizar en su estudio para demostrar porqué también es un método. Así, ahora
conviene decir que la ciencia en general ha evolucionado conforme avanzan los instrumentos, las
técnicas y métodos usados para aumentar el conocimiento científico. En este contexto, señala
Riveros et al (2009: 17) “Una de las tareas del hombre de ciencia es encontrar, generalizar, y
extrapolar nuevas leyes y teorías que le permitan predecir, dentro de ciertos límites, situaciones
futuras, ya que, además, le ayuden a explicar los fenómenos naturales que vaya descubriendo”.

Este incremento en el acervo de información científica se logra con el uso de los métodos, de más y
mejores instrumentos de trabajo, etc. utilizados para aumentar, corroborar, mejorar o corregir los
conocimientos existentes en un momento dado. Derivado de este continuo flujo de información
robusta es que el concepto de ciencia cambia con el tiempo, motivo por el cual algunos estudiosos
del tema como Riveros et al (ídem) comentan que “la ciencia no tiene ni tendrá definición exacta”.

Lo antes dicho hace más difícil determinar si la estadística es ciencia o método. Así, con ánimos de
coadyuvar en el arribo a una definición firme se ha creído conveniente citar la que hace
Rosenblueth (1971) de la misma; quien dice: “La ciencia es el conocimiento ordenado de los
fenómenos naturales y de sus relaciones mutuas”, aquí se considera apropiado enfatizar:
“conocimiento de los fenómenos sociales y de sus relaciones mutuas”.

Al respecto, se considera que para arribar a ese conocimiento ordenado se requiere de un método
para lograrlo y en este sentido se intuye que la estadística es un método porque es un conjunto de
procedimientos para obtener, clasificar, analizar e interpretar la información de un fenómeno de
interés para el investigador, ya que al aplicar los procedimientos en forma sistemática, se obtienen
conocimientos científicos que son racionales, se demuestran con evidencias y son congruentes con
los objetivos que tiene en mente el investigador.

En consonancia con esta opinión de que es un método, la Academia Mexicana de Ciencias (2013)
informa que la estadística es “una herramienta primordial en la planeación de políticas públicas, en
la investigación científica, para conocer a un país o el funcionamiento de las empresas públicas y
privadas”.

15
A manera de complemento al enfoque macroeconómico anterior, ahora se hace referencia a su uso
en el campo de la microeconomía, concretamente en el estudio de la producción manufacturera. Al
respecto, Kume (1990: xv) corrobora que la estadística está constituida por métodos “que son
herramientas para mejorar los procesos de producción y reducir sus defectos”. Abunda indicando
que estas herramientas aportan objetividad y exactitud a la observación y que las máximas de la
línea de pensamiento estadístico son:

1. Dar mayor importancia a los hechos que a los conceptos abstractos;


2. No expresar hechos en términos de sensaciones o ideas, es decir, comenta que se deben de
utilizar cifras derivadas de los resultados específicos de la observación;
3. Los resultados de la observación, acompañados éstos – como lo son – por error y variación,
son parte de un todo oculto; y
4. Aceptar a la tendencia regular, que aparece en gran número de resultados de observación,
como información confiable.

Independientemente del campo en que se aplique la estadística, se infiere que con sus métodos, al
estar caracterizando a los fenómenos en estudio vía la cuantificación y descripción de sus datos de
sección cruzada o temporal, de hecho lo que está proporcionando es una metodología para realizar
un análisis de sus variaciones con las cuales el investigador ésta en condiciones de poder decir que
tal o cual indicador es mayor, menor, más grande, inferior, etc. que él mismo en otro momento en el
tiempo o con respecto a otro indicador. En este amplio e integral contexto se corrobora la vigencia
de la definición de estadística que le diera la Matemática Ana María Flores (q.e.p.d) (1964), quien
asevera que “con ella se miden las variaciones de un fenómeno en estudio, sin importar el campo
del conocimiento, el método ni la época en que se haga”.

Evolución de su significado:

Derivado de esta última aseveración: ¿Pero ha existido siempre un criterio uniforme a través del
tiempo sobre el concepto de estadística?

Es obvio que no, ya que lo que es ahora estadística es completamente distinto a lo que se creía hace
medio siglo, y aún hace mucho más tiempo.

Por ejemplo, como se indicó previamente, es sinónimo de “dato” o de número, ya que por ejemplo
cuando se hace mención a las estadísticas de alumnos, de su matrícula, de su número, de sus
calificaciones, el semestre que cursan, etc., se está haciendo referencia a sus datos.

Sin embargo dicha acepción no corresponde, no es congruente con la función que desempeña como
disciplina dentro del método científico, ni con las actividades que desempeñan en la actualidad los
expertos en estadística, puesto que no son meros “recolectores y tabuladores de datos numéricos”
(Mood: 1955).

Pensando que no es suficiente esa exposición para dar una respuesta satisfactoria a la pregunta
arriba mencionada, es conveniente profundizar en lo antes dicho, en particular desglosar y explicar
los diferentes concepciones que han existido con el fin de contar con elementos para pronunciarse
16
sobre si es o no ciencia, para ello ahora se expondrán varias definiciones sobre la materia y se
observará como han variado a través del tiempo.

17
CAPÍTULO I. GENERALIDADES

I.1 Definiciones de Estadíistica

Como todas las disciplinas la Estadística ha sido considerada, por los teóricos dedicados a ella, según
el grado de desarrollo en que se encuentra su teoría y su aplicación.

Al dar a conocer las definiciones que sobre ella existen, se está interpretando como la expresión de lo
que se consideró en una fecha dada; lo que era y para qué servía.

Presentándolas en orden cronológico (García, 1964), se obtiene el orden siguiente:

Achenwall (1748).- "La Estadística tiene por objeto el conocimiento de las cosas públicas, y
enseña los medios para percibir las relaciones que hay entre ellas, siempre que sean dignas de notarse
en cada República".

Achenwall (1749).- "La Estadística es la ciencia del Estado que se ocupa de la riqueza y
contiene el conocimiento básico de las verdaderas posibilidades de una sociedad burguesa".

Achenwall (1749).- "La Estadística es la ciencia del Estado que se ocupa de determinar la
riqueza individual".

Bielfield (1770).- "La Estadística es aquella rama del conocimiento político cuyo objeto de
estudio es el poder real y relativo de los diversos estados modernos, el poder emanado de sus
ventajas naturales, la industria y la civilización de sus habitantes y la sabiduría de sus gobiernos".

A. F. Luder (1792).- "La Estadística describe la situación de un estado en la actualidad o


como era en una época determinada.

Meusel (1794).- "La Estadística es una exposición científica ordenada de la constitución y


actual organización política de los Estados".

Sociedad Estadística de Londres (1838).- "La Estadística es la investigación y coordinación


de aquellos hechos que son calculados para ilustrar las condiciones y posibilidades de una Sociedad".

D. E. Worl (1840).- "La finalidad de la Estadística consiste en la legitimidad de las diversas


relaciones, en la detección de lo más posiblemente absoluto de los fenómenos relativos, de lo
constante obtenido de las variables y en sacar de lo nuevo las leyes relativas".

Joe Fallati (1843).- "La noción de lo real es el punto medio de la Estadística, la realidad se
encuentra, en parte, en los hechos, en parte en las leyes de los fenómenos".

Noreau de Jonneis (1847).- "La Estadística es la ciencia de los hechos sociales, expresados
en términos numéricos".

18
Romelín (1863).- "La Estadística describe las características de la sociedad humana a base de
observaciones metodológicas y de enumeraciones de fenómenos similares".

Levasser (1889).- "La Estadística es el estudio numérico de los hechos Sociales".

Arturo Bowley (1901).- "La Estadística es la ciencia de los promedios, la ciencia de los
grandes números".

W. F. Willcox (1934).- "La Estadística es el estudio numérico de grupos o masas a través


del estudio de las unidades que las componen, ya sea que estas unidades sean humanas o
subhumanas, animadas o inanimadas".

McFarlane Mood (1955).- "Estadística es la tecnología del método científico; proporciona


instrumentos y técnicas para los investigadores, y estos instrumentos pueden ser de aplicación
complementaria general y útiles en cualquier campo de la ciencia".

Wilburg Jimenez Castro (1963).- La define como "método científico o ciencia de previsión
de hechos futuros con base en el conocimiento de datos pasados y presentes."

Ana María Flores (1964).- "La Estadística es la ciencia de medir variaciones".

Significado profano de la Estadística (Diccionario, 1964).- Algunos la consideran como dato,


otros dicen que comprende la recolección de grandes masas de datos y la presentación de éstos en
tablas o gráficas; suele incluir también el cálculo de totales, promedios, porcentajes, etc. Este
significado, según Mood (ibíd.) tiene 60 años de retraso, porque estas operaciones más o menos
rutinarias constituyen solamente parte inicial de la estadística de hoy.

Claudio Napoleoni (1960).- “La Estadística económica es aquella rama de la estadística


aplicada que utiliza los métodos estadísticos para el estudio de los fenómenos económicos, en cuanto
sean susceptibles de expresión numérica".

Croxton y Cowden (1965).- "Estadística es la recopilación, presentación, análisis e


interpretación de los datos numéricos".

Stuart y Ord (1991).- “La estadística es la rama del método científico relacionada con la
recopilación de los datos que se obtienen al contar o medir las propiedades de las poblaciones”.

Mendenhall, Wackerly y Scheaffer (1994).- “La estadística trata del diseño de experimentos o
encuestas mediante muestras para obtener una cantidad determinada de información a un costo
mínimo y del uso óptimo de esta información para hacer inferencias con respecto a una población”.

Infante Gil y Zaráte de Lara (2003).- “Estadística es un conjunto de técnicas para la


recolección, manejo, descrpción y análisis de información, de manera que las conclusiones obtenidas
de ella tengan un grado de confiabilidad especificado”.

19
Montgomery y Runger (2004).- “El campo de la estadística trata de la recolección,
presentación, análisis y uso de datos para tomar decisiones, solucionar problemas y diseñar
productos y procesos”.

Como puede observarse, todavía no está claro si es ciencia o método, lo cual es comprensible porque
la ciencia en particular ha evolucionado conforme avanzan los instrumentos, las técnicas y métodos
usados para aumentar el conocimiento científico. En este contexto, como antes se indicó, para
Riveros et al (2009:17) “Una de las tareas del hombre de ciencia es encontrar, generalizar, y
extrapolar nuevas leyes y teorías que le permitan predecir, dentro de ciertos límites, situaciones
futuras, y que, además, le ayuden a explicar los fenómenos naturales que vaya descubriendo”. Se
aclara que antes de esa tarea es fundamental para el investigador describir las características del
fenómeno en estudio de su interés, mismas que le ayudan a determinar si es o no necesario buscar,
establecer y aplicar nuevas leyes y teorías que expliquen mejor el fenómeno que está estudiando.

Por otra parte, se cree conveniente hacer un resumen de las definiciones anteriores con el fin de
constatar la evolución del concepto de ciencia y para que coadyuve a demostrar que la estadística es
un método. Así, en principio puede decidirse que cada una de las definiciones refleja lo que se
entendía por dicha disciplina en cada época, esto es, son viva expresión del campo en que se le
aplicaba, del momento y enuncian lo que se pretendía obtener. En otras palabras, estas definiciones
indican para quien se investigaba y qué es lo que interesaba saber (alimentación, riqueza, número de
hombres disponibles para el trabajo, producción, etc.).

Así se constata que las definiciones que abarcan toda la segunda mitad del siglo XVIII están
enfocadas a hacer de la Estadística una ciencia de información acorde con el industrialismo que ya se
gestaba en Inglaterra, y a la consolidación de los Estados europeos.

Con base en la doctrina del liberalismo y el surgimiento de nacionalismo en la Europa occidental, se


fortalece el Estado cuyo poder se encuentra en manos de esa clase social dinámica en sus orígenes
llamada BURGUESIA, la que diera impulso en general al estudio de las ciencias entre las cuales se
cuenta la Estadística.

Así pues el siglo XlX, es un período en que se fortalece la idea de aplicar los métodos estadísticos al
análisis general de las ciencias sociales (Véase definiciones de Levaseer y Romelin).

Nuevas definiciones (Véase definiciones de Arturo Bowley y W.F. Willcox) habían de formularse en
torno al inicio de un siglo XX cuya primera mitad se caracteriza por cambios profundos e
imprevistos. Estos hechos hicieron una necesidad la existencia de datos estadísticos que sirvieron
para la formulación de planes bélicos o científicos. Esto fue un primer paso hacia la programación
adecuada porque se basaba en datos estadísticos.

Una vez terminadas las dos guerras mundiales, viene una paz que hace posible que se logre un gran
avance en la técnica de producción, en donde una vez más surge la competencia entre las grandes
corporaciones (monopolios), la que da lugar a la búsqueda de nuevos métodos estadísticos que
garanticen la producción en masa y con el mínimo de defectivos (control estadístico de calidad). Hay
20
otra característica importante en esta segunda mitad del siglo XX; la liberación de una gran cantidad
de países que antes de la segunda guerra mundial eran "colonias", y que, ahora como países
independientes elaboran sus planes de desarrollo con un conocimiento aceptable de la realidad en
que se desenvuelven, gracias a la aplicación de los métodos estadísticos en el estudio de sus
economías.

Se considera que las definiciones de los señores Claudio Napoleoni, Mood y los autores que
posteriormente les siguieron conforme al orden cronológico establecido, corresponden al significado
que tiene actualmente la estadística. Por su atemporalidad, la definición de la maestra Ana María
Flores es la más conveniente para el concepto general de la Estadística.

Como el objetivo es presentar y exponer el uso de los Métodos Estadísticos, aplicados a la economía
se ha considerado convenientemente ajustarse a la definición dada por los señores Croxton &
Cowden para la descriptiva, y la especializada de Claudio Napoleoni ya que ésta es la más idónea
para los propósitos del economista.

I.2 Clasificación de la estadística para su estudio y enseñanza

1. Estadística Descriptiva. Incluye los métodos de recopilación, organización presentación, análisis


e interpretación de un grupo de datos, ya sean datos de muestreo o información completa sin
ningún intento por hacer una predicción basada sobre los datos.

2. Estadística Inductiva o Estadística Inferencial. Comprende los métodos para obtener inferencias
a partir de datos muestrales. Para ser específicos, la inducción o inferencia estadística incluye los
métodos de generalización, estimación ó predicción de las características de una población o
universo basados en una muestra.

CAPÍTULO II. LA ESTADÍSTICA COMO MÉTODO DE ANÁLISIS ECONÓMICO

Es conveniente mencionar que aunque los métodos estadísticos en general son prácticamente
universales en su aplicación, siempre aparecen problemas especiales en cualquier campo de la
investigación que hacen dudar al investigador sobre la aplicación de este método para el logro de los
objetivos buscados; esto también aplica en el campo de la economía, donde en determinados
fenómenos en estudio suelen surgir dificultades peculiares y problemas que dificultan la obtención
de los resultados por lo que en esos casos, el estudioso se avoca al diseño de la metodología
específica para alcanzar los objetivos concretos de su investigación.

En general, afortunadamente puede decirse que los métodos estadísticos aplicados a la economía han
experimentado amplio desarrollo, siendo confiable su aplicación a la ciencia económica; ya que
como informa el profesor Zamora (1963: 66) en opinión de J. M. Keynes (con las consideraciones
del momento en que lo dijo y desde su óptica muy particular): "este método se basa en la
observación cuantitativa de agregados, en el estudio de ellos y encaminado a descubrir
uniformidades y constancias entre los elementos que los constituyen. Se funda en la observación

21
porque considera directamente los hechos, y los reúne, selecciona y clasifica; se asienta en la
observación cuantitativa porque sólo opera con hechos que son medibles: Y se ocupa en la
observación de agregados, porque aun cuando para llegar al análisis de ellos hayan de pasar antes por
el de los individuos o cosas que los forman, su verdadero campo de aplicación es el estudio de los
conjuntos, no el de los elementos que lo forman".

En este contexto conviene agregar que si se recuerda que las leyes económicas son la expresión de
sucesos que se repiten (Sweezy, 1987:22) uniformemente en fenómenos globales, lo anterior se
corrobora precisamente con la metodología estadística.

En consonancia con lo anterior el Profesor Alonso Aguilar Monteverde (q.e.p.d; 1965) señaló que
"las leyes económicas son estadísticas en virtud de que requieren de la repetición para poder
configurarse". Derivado de lo anterior se puede afirmar que las leyes económicas son hechos
repetidos en sucesos masivos dentro del sistema económico, que se identifican con los métodos
estadísticos.

Así, puede decirse que el método científico, que es la estadística, efectivamente sirve para el análisis
de los fenómenos económicos dentro de sus múltiples manifestaciones. Con su aplicación se puede
evaluar, hasta donde es posible la magnitud y el impacto que tiene el acto del hecho económico
dentro de la sociedad, al igual que ayuda a determinar si se puede prever o proyectar; en otras
palabras; en general permite cuantificar las diferentes acciones que realizan los individuos dentro del
sistema económico en que se desarrollan.

En este sentido, pueden mencionarse como ejemplos de la antes dicho situaciones tan diversas como
las siguientes: Si se desea saber la producción de bienes y servicios en un período determinado; si
interesa conocer las características de la población económicamente activa, su aportación al
Producto Interno Bruto; o quizás indagar su incidencia en el fortalecimiento del mercado interno, en
el consumo y adquisición de bienes de capitales, etc. entonces la estadística es el método que ayuda
a contestar estas interrogantes.

Este breve análisis además, permite detectar la estrecha relación que hay entre la economía y la
estadística así como la importancia que tiene ésta última dentro de la primera. Esto no debe llevar al
extremo de pensar que la economía vale por la estadística, o que se desarrolla a expensas de ella
como llegó a pensar el profesor Moore, quien dijera, "nada se sabe en tanto que no pueda medirse”
(Zamora, ibíd., 67).

Esta concepción es un error derivado posiblemente de la falta de profundidad en el conocimiento de


la ciencia económica (Zamora, ibíd., 67), ya que según él, para Marshall "semejante opinión es
exagerada e inexacta", ya que dice que se acepta como instrumento de análisis más no como
sustituto de la economía. Para fundamentar su razonamiento establece que:

Todo estudio cuantitativo exige una selección y organización de los datos numéricos, o sea, la
existencia previa de una teoría. Por ejemplo antes de cuantificar el consumo es necesario definirlo
como una categoría económica particular.
22
Una serie de datos numéricos, un cuadro estadístico, con un estudio sólo cuantitativo, carece en sí de
interés, si no se le somete a un trabajo cualitativo de interpretación.

A esta fundamentación debe sumarse la de Samuelson (1963:8) quien indica: "el razonamiento
lógico es la clave del éxito para dominar los principios fundamentales (teoría económica), mientras
que la ponderación sagaz de los datos empíricos es la llave para dominar las aplicaciones
económicas".

Resumiendo se dice que la aplicación de la estadística en los fenómenos económicos es conveniente


dentro de ciertos límites y tomando en cuenta las características del fenómeno en estudio, esto es, ver
si es posible aplicarle determinado método que favorezca la obtención de resultados buscados con
los objetivos establecidos de la investigación, a la vez tomar en cuenta si es de interés social la
realización del trabajo que con ella se logre.

Así, una vez establecida la importancia de la estadística en el análisis económico, a continuación se


describen las características del programa EXCEL que se utilizará para hacer los ejercicios
electrónicamente.

II.1 Características básicas del programa de Excel 2013, su simbología y las funciones
necesarias para poder operarlo.

Microsoft Excel es un programa de hoja de cálculo que forma parte del paquete integrado Microsoft
Office, que permite crear y aplicar formatos para analizar datos y tomar decisiones. Concretamente,
se puede usar para hacer un seguimiento de datos, crear modelos de análisis, escribir fórmulas para
realizar cálculos, dinamizarlos de diversas maneras y presentarlos en una variedad de gráficos con
aspecto profesional, que se ajusta al trabajo de modo claro y conciso..

En la actualidad el saber utilizar un software es de gran importancia, ya que ayuda a facilitar el


aprendizaje, y a realizar los trabajos de una manera más sencilla y eficaz. Cabe señalar que se está
consciente de la amplia gama que existe de instrumentos digitales dentro de la sociedad del
conocimiento en la actualidad, los cuales facilitan la creación y difusión de nuevos conocimientos
científicos en las diversas disciplinas del saber humano. Por ejemplo, por señalar algunos,
indudablemente que son muy importantes los apps o las aplicaciones de R commander, Skype, etc

Sin embargo, debido a la importancia que tiene el programa Microsoft Excel en este libro, de manera
concreta en los métodos de enseñanza y aprendizaje de la estadística, es conveniente describir
algunas de sus características, propiedades y alcances básicos que se logran con su desarrollo
aplicado en el análisis de la economía.

Es conveniente decir que este software fue seleccionado por ser uno de los programas más utilizados,
con mayor disponibilidad y popularidad en el ámbito educativo. Con esto se pretende que el lector no
encuentre obstáculos en su funcionamiento y utilización del software.

23
A lo largo de esta obra se presentan una serie de cálculos con el empleo de las funciones que incluye
Excel 2013, gráficos para una mejor visualización de los datos, así como funciones que permiten
aplicar formatos con aspecto profesional, como los siguientes:.

Dentro de las novedades de Excel 2013 se encuentran:

- Recomendación de gráficos. Al crear un gráfico a partir de una tabla, se puede utilizar esta nueva
funcionalidad. Excel, dependiendo de los datos, propondrá varios tipos de representaciones,
consiguiendo así, evitar tener que definirlo manualmente.

- Guardar los archivos en OneDrive es más fácil. Al guardar los documentos en la nube se podrá
acceder a ellos desde prácticamente cualquier dispositivo conectado a internet. Además es muy
sencillo compartir presentaciones en modo lectura o escritura.

- Con Excel Online sólo es necesario disponer de una cuenta de correo de Microsoft para acceder a
una versión reducida de Excel de forma gratuita. Se puede crear y modificar presentaciones de Excel
desde el navegador de cualquier equipo conectado a internet, sin necesidad de instalar la versión de
escritorio de Excel 2013.

- Etiquetas de datos más enriquecidos. Se podrás incluir en los gráficos etiquetas que contengan texto
actualizable, es decir, al modificar los datos cambiará el valor de la etiqueta. A su vez, también se
tendrá la oportunidad de combinarlo con texto libre. Si cambias el tipo de gráfico las etiquetas no
desaparecerán.

- Cambios en la cinta de opciones para gráficos. Antes, al crear un gráfico, se disponía de tres
pestañas para modificar sus características. En la nueva versión de Excel el número ha sido reducido
a dos, esto facilita encontrar aquello que se quiere variar en el formato del gráfico.

- Ajuste rápido de gráficos. A las anteriores mejoras mencionadas se une la aparición de tres botones
a la derecha del gráfico que permiten variar su aspecto de manera sencilla y rápida.

- Conexión con nuevos orígenes de datos. Se dispone de mayor versatilidad al crear tablas, puesto
que, permite importar datos desde nuevas fuentes, por ejemplo, proveedores OLE DB.

APERTURA DE EXCEL

Puede empezar a trabajar con la hoja de cálculo mediante dos opciones:

1. Da clic en el botón Iniciar y en el buscador escribe la palabra Excel. Posteriormente da doble


clic en el icono de Excel 2013 o presiona la tecla Enter.

24
Cuadro II.1
Apertura de Excel desde el buscador

Escribe

Fuente: Investigación directa

2. Abrir la ventana de ejecutar con la combinación: Win + R


Escribir la palabra Excel y da clic en el botón aceptar o presiona la tecla Enter.

Cuadro II.2
Apertura de Excel con función Ejecutar

Fuente: Investigación directa

Independientemente de la opción que elijas se deberá dar clic en: libro en blanco.

Cuadro II.3
Inicio de un nuevo documento de Excel

Fuente: Investigación directa

25
Es importante señalar que para los ejercicios de Excel de este libro se utiliza el signo diagonal “/”
que indica la separación de una instrucción a otra. Algunos simboles como +, -, *,=, etc. Se incluyen
en paréntesis pero se teclean sin este.

HOJA DE TRABAJO

Con cualquiera de las dos opciones anteriores en la pantalla se mostrará lo siguiente:

4 El cuadro II.4
Entorno de trabajo de Excel 2013

9 1 2
7

5
6

Fuente: Investigación directa


10

1. Grupos de opciones: portapapeles, fuente, alineación, número, estilos, celdas y modificar.


2. Fichas
3. Cinta de opciones: archivo, inicio, insertar, diseño de página, fórmulas, datos, revisar, vista y
complementos
4. Barra de accesos rápidos
5. Barra de estado y área de autocalcular
6. Botones de modo de visualización y Zoom
7. Barra de formulas
8. Cuadro de nombres
9. Encabezado de columnas
10. Encabezado de filas

La herramienta “Análisis de datos: instalación

La herramienta Análisis de Datos es muy útil para desarrollar análisis estadísticos simple o complejo,
ya que puede ahorrar pasos y tiempo. Cuando utilice una de estas herramientas, deberá proporcionar
26
algunos datos y parámetros para cada análisis y la herramienta utiliza las funciones de macros
estadísticas o técnicas correspondientes para realizar los cálculos y mostrar los resultados. Algunas
herramientas además de generar gráficos también elabora tablas de resultados.

Para acceder a esta herramienta se va a la pestaña Archivo, de la columna izquierda de clic en


Opciones, de la nueva pantalla nuevamente vaya a la columna izquierda y seleccione Complementos.
En la parte inferior de la vista de completos dice Administra: deberá seleccionar COMPLEMENTOS
DE EXCEL clic en Ir. Activar la casilla que corresponde a HERRAMIENTAS PARA ANÁLISIS.
Finalmente da clic en Aceptar.

Esta herramienta estará disponible en la pestaña Datos, en el grupo Análisis.

Cuadro II.5
Herramienta Análisis de Datos

Fuente: Investigación directa

II.2 Aplicación del método estadístico a la economía

Con el objetivo de ilustrar los métodos estadísticos que se aplican con máxima frecuencia en el
análisis del sistema económico, se ha considerado necesario hacer una exposición en forma detallada
de los mismos a fin de demostrar su uso, y con ello tratar de hacer clara su aplicación en el desarrollo
del curso que se pretende dar al alumnado.

Para iniciar dicha exposición se ha juzgado conveniente comenzar a explicar el significado de la


terminología utilizada para presentar el método científico.

27
Población

Se denomina población o Universo a todo grupo o conjunto total de elementos que tienen ciertos
atributos que lo caracterizan en común, como por ejemplo: pueden ser los habitantes de la
República Mexicana con un determinado grado de enseñanza primaria para el año 2010. Como se
ve, éste es un grupo con una característica, que es la instrucción primaria para el año 2010.

Las poblaciones pueden ser finitas o infinitas. Se dice que una población es finita cuando está
compuesta por un número determinado de elementos. Ejemplo de ello puede ser los habitantes de
una localidad que tienen agua potable en sus hogares.

Una población es infinita cuando sus elementos sean inconmensurables, por ejemplo, la población de
moscas en todo el mundo.

Serie estadística

Es la sucesión de los datos de una variable en el tiempo. Ejemplo: sea Xi donde X representa a la
variable cuyos valores de sus datos los da i que toma valores desde i = 1,2,3,4, …., 27, 28, …., 45,
46, ……, 75,76, ….., 𝑛. Lo que se estudia es la distribución de los datos de la variable. Cuando los
datos corresponden a un punto en el tiempo se le llama serie de datos de corte transversal; cuando
corresponden a diferentes momentos en el tiempo, se le llama serie de tiempo. Si sus datos se
relacionan con la variable tiempo, se establece una relación que se gesta entre dos variables, donde
una de ellas es el tiempo, en función del cual se observa la evolución de la otra variable. En este caso
se les llama series de tiempo porque los valores corresponden a varios puntos de la variable en el
tiempo; ejemplo:

Tabla II.1
Producción de oro
1 2 3 4 5 6 7
Producción de oro (kilos) 10.3 9.7 9.3 8.3 7.3 7.4 6.5
Fuente: Investigación directa con datos hipotéticos

Como puede observarse, la producción de oro del año 1 al 7 constituye una serie estadística
temporal, ya que se observa el comportamiento de la producción en el tiempo.

II.3 Niveles de medición

Importancia: Los datos de un fenómeno en estudio se pueden clasificar de acuerdo con los niveles de
medición (Mason, 2000:11) para detectar sus características relevantes; estos niveles determinan los
cálculos que pueden realizarse para resumir, presentar e interpretar la información, así como las
pruebas estadísticas que pueden aplicarse para verificar determinadas hipótesis sobre el fenómeno en
estudio. En otras palabras, sirven para cuantificar, dimensionar la magnitud de sus datos.
Son cuatro los niveles de medición: nominal, ordinal, de intervalo y de razón que los describe
Mason (2011:12):

28
 Nivel nominal: es la más baja o primitiva, con ella los datos sólo pueden clasificarse o
contarse. No existe ningún orden específico para las marcas. Mason comenta que un ejemplo
puede ser que si hay 6 colores de dulces en una bolsa de lunetas: M&M, y si a cada uno de
los colores se le asigna un número: al café, el valor 1; al amarillo, el 2; al azul, el 3; al
naranja, el 4; al verde, el 5 y al rojo el 6. Entonces se pueden clasificar los dulces
simplemente por colores.

Ahora bien, a cada color se le puede llamar categoría. Así, se pueden contar o colocar primero el
color amarillo, enseguida el verde, etc., en otras palabras, no hay un orden específico para clasificar
los colores (también sexos, bancos, compañías telefónicas, aerolíneas, etc.). Las categorías son: a)
mutuamente excluyentes y b) exhaustivas. Son mutuamente excluyentes porque cada color, persona,
banco, etc. se clasifican en tan sólo una categoría. Por ejemplo, si se hace referencia a los bancos,
Banamex y Bancomer; éstos no pueden ser al mismo tiempo, es uno o es otro. Son exhaustivas,
porque cada color, persona u objeto de medición debe aparecer registrado por lo menos en una
categoría. Así, dado que sólo se pueden contar, cuando se codifican en 1,2,3, … . . , 𝑛, no se pueden
manipular (hacer cálculos), por ejemplo, 1 + 2 no es igual a 3; en este sentido, si son colores, no se
puede decir que el color café más el color amarillo no es igual al color azul. Por consiguiente, si
ahora se toma el ejemplo de registrar el uso del teléfono por tipo de compañía, se tendrá un nivel
nominal de las siguientes categorías o compañías:

Tabla II.2
Compañías telefónicas y llamadas
Compañía Número de llamadas %
Telmex 5 50
Telcel 3 30
Otras 2 20
Total 10 100
Fuente: datos hipotéticos

Lo más que se puede hacer es clasificarlas en forma diferente, ergo, poner primero a Telcel. No
existe ninguna medida para el nivel nominal de medición, sólo un conteo; luego no hay un orden
específico para las categorías: cada compañía telefónica; eso sí, éstas son mutuamente excluyentes
porque el usuario usa el servicio de una u otra empresa; son exhaustivas porque cada usuario aparece
registrado en una categoría. De manera que todas las categorías (compañías) incluyen todos los
usuarios de teléfonos.

 Nivel ordinal: Supone que una categoría ordenada de derecha a izquierda, está clasificada
como más alta que otra. En este caso las categorías se clasifican con un orden de acuerdo con
las características que poseen y son mutuamente excluyentes y exhaustivas, pero no es
posible distinguir la magnitud de la diferencia que existe entre ellas. Tampoco es posible
sumarlas entre sí, tampoco se puede concluir que una categoría, por ejemplo, sea el doble o
en triple de otra categoría (ya que los datos simplemente se ordenan). Ejemplo:

29
Tabla II.3
Calificación de los alumnos
Categorías Frecuencia
Muy bien 6
Bien 15
Regular 20
Mala 12
Muy mala 3
Fuente: datos hipotéticos

Lo único que se puede decir es que una calificación “Bien” es mejor que una “Mala”, pero no se
puede saber qué tan distante una calificación de otra.

 Nivel de Intervalo: Aquí también las categorías de datos son mutuamente excluyentes y
exhaustivas, y se clasifican de acuerdo con la cantidad de la característica que poseen. Las
diferencias iguales en la característica son representadas por iguales diferencias en los
números asignados a las categorías.

Ejemplo: Las temperaturas en grados centígrados en el Distrito Federal, México, de los últimos
cuatro días son: 22; 24; 25; 27, las cuales se pueden medir fácilmente; además se puede determinar la
diferencia entre las mismas. Ello es posible gracias a que un grado centígrado representa una unidad
constante de medición.

En este nivel de medición el cero existe, es un número importante porque representa el origen de las
temperaturas sobre y bajo cero. Otros casos serían por ejemplo, la talla o medida de los zapatos como
el coeficiente intelectual, etc.

 Nivel de razón: Cuenta con todas las características del nivel de intervalo, incluyendo los
hechos de que el punto cero es importante al ser el origen y que la razón entre dos números
también es importante. Ejemplos: Los salarios, los impuestos, los niveles de producción, la
estatura, el peso de las personas, etc.

Aquí también las categorías son mutuamente excluyentes y exhaustivas y se clasifican de acuerdo
con la cantidad de la característica que poseen. El punto o valor cero representa una ausencia de la
característica. Ejemplo:

Tabla II.4
Ingresos anuales por familia
Nombre de la familia Ingresos anuales $ Ingresos anuales $
(apellido) (padre) (hijo)
Rosales 80,000.00 40,000.00
Blanco 90,000.00 30,000.00
Salinas 60,000.00 135,000.00
Tovar 75,000.00 115,000.00
Fuente: datos hipotéticos

30
En conclusión, es muy importante porque permite conocer los niveles de medición que existen y que
de acuerdo con ellos se pueden clasificar, cuantificar, analizar e interpretar los datos. El nivel de
medición de la información indica los cálculos que se pueden hacer para resumir y presentar los
datos (Lind et al, 2005), además de que determinan las pruebas estadísticas que se deben realizar. De
los cuatro niveles de medición el más bajo o simple es el nominal. El más alto es el nivel de razón
porque proporciona mayor cantidad de información acerca de la observación de interés para el
investigador.

Tabla II.5
Resumen de las principales características de los diversos niveles de medición
Nominal Ordinal De intervalo De razón
Diferencia
Los datos sólo se Los datos se Punto CERO significativo
significativa entre
clasifican ordenan y razón entre valores
los valores
Ejemplos: Ejemplos: Ejemplos: Ejemplos:
1. Las marcas de 1. El número de 1. La temperatura. 1. La distancia a la
los autos. lista de los 2. La medida de los escuela desde la casa.
2. La talla de las alumnos en clase. zapatos. 2. Número de pacientes
camisas. 2. Posición de los 3. El coeficiente atendidos por un médico.
3. Clasificación equipos de futbol intelectual de las 3. Número de horas de
de los alumnos en la temporada personas. estudio de un alumno a la
según la entidad actual. 4. El promedio de semana.
en que nacieron. 3. La clasificación las calificaciones 4. La edad de las
4. Acomodar las de los alumnos de cada estudiante. personas.
entidades según el semestre 5. Calificación de 5. Número de llamadas
federativas que cursan. los alumnos en su realizadas.
siguiendo primer examen de 6. El ingreso monetario
cualquier orden. estadística. de la gente.
7. La inversión de los
accionistas.
8. El consumo de las
personas.
Fuente: Investigación directa con enfoques de Mason et al (2000) y Lind et al (2005)

Estos datos complementan la tipificación de estos cuatro niveles de medición y sus ejemplos
esclarecen aún más sus características y usos ya expuestos anteriormente..

II.4. Análisis de datos


II.4.1 Distribución de frecuencias

Es del dominio general que en la práctica los datos de un fenómeno bajo estudio se encuentran
dispersos y es necesario organizarlos y agruparlos con el fin de poder analizarlos e interpretarlos, de
manera que el investigador esté en condiciones de destacar sus principales características para tomar
decisiones fundamentadas estadísticamente.

Cuando se hace esta operación de agrupamiento, se dice que se está elaborando una distribución de
frecuencias. Así, sea la antigüedad operando en años de 30 instituciones bancarias establecidas en el
país: 10, 7, 6, 5, 8, 9, 10, 11, 6, 7, 7, 12, 9, 6, 5, 9, 8, 13, 11, 12, 10, 9, 6, 7, 6, 6, 6, 6, 7, 8.

31
Cada número expresa la antigüedad en años de cada banco. Cuando los datos están presentados en
esta forma es difícil hacer observaciones porque no se pueden captar las características a simple
vista y se dice que estos datos están desordenados, para lo cual existen dos formas de ordenación
cuantitativa que son creciente o decreciente, para este caso se procederá a ordenarlos en forma
decreciente, con lo cual podemos observar fácilmente varias característica por ejemplo el valor
máximo y el valor mínimo que en este caso son : 13 años el máximo valor y 5 años el valor mínimo.
Esta información permite ubicar la magnitud de la variabilidad entre el agrupamiento de dichos datos
con una simple diferencia del valor máximo menos el valor mínimo que da como resultado 8 años de
variabilidad que se conoce estadísticamente como rango que representa la variabilidad total de los
datos. Este ordenamiento de los datos se conoce como serie de frecuencias, que a continuación se
explica en detalle. .

Ejemplo:

Serie simple:

Para analizarlos se puede proceder a ordenarlos en forma ascendente o descendente conforme a sus
respectivos valores con los que se obtiene la siguiente tabla:

Tabla II.6
Ordenación decreciente por columna en años de antigüedad
13 11 10 9 8 7 7 6 6 6
12 11 10 9 8 7 7 6 6 5
12 10 9 9 8 7 6 6 6 5
Fuente: datos hipotéticos

Una vez ordenados los datos en forma decreciente, se puede hacer análisis y conocer los límites
entre los cuales varía la antigüedad de los bancos, es entre 5 y 13 años, Su distribución es:

13, 12,12, 11,11,10,10,10,9,9,9,9, 8,8,8,7,7,7,7,7, 6,6,6,6,6,6,6,6, 5,5,

Serie de frecuencias:

Si los datos anteriores se agrupan conforme el número de veces que se repite cada uno de ellos, a su
agrupamiento se le llama serie de frecuencias, con el cual se genera la siguiente tabla:

Tabla II.7
Ordenación de los datos
Antigüedad en años 13 12 11 10 9 8 7 6 5 Suma
Número de bancos 1 2 2 3 4 3 5 8 2 30
Términos relativos (%) 3.33 6.67 6.67 10 13.33 10 16.67 26.67 6.67 100
Fuente: datos hipotéticos

En virtud de que la suma da treinta, ello significa que fueron concentrados en forma correcta las
edades o número de años operando de los bancos, ya que efectivamente son treinta los que, por

32
ejemplo tienen una antigüedad operando entre 5 y 13 años. Esta tabla permite analizar con mayor
claridad la información conforme a la antigüedad de los 30 bancos operando.

El renglón cuyo encabezado dice "número de bancos", suele llamarse "renglón de frecuencias", por
lo que las frecuencias se definen como el número de observaciones o veces que un término se repite
o existe en una serie; así se puede decir que los bancos cuya antigüedad es de siete años, tienen una
frecuencia de cinco, o lo que equivale a decir que hay cinco bancos cuya antigüedad es de siete años.
Esta forma de agrupar los datos se llama “Serie de frecuencias”.

Serie de intervalos de clases y frecuencias:

Una distribución de esta naturaleza es un agrupamiento cuantitativo que se realiza cuando existe una
amplia variabilidad entre los datos y estos son muchos, ya sean discretos o continuos; para ello se
requiere hacer un agrupamiento en un reducido número de intervalos de clases y frecuencias, que en
opinión de algunos estudiosos del tema debe ser de 4 a 15, otros, de 4 a 21. Al respecto, se piensa
que dicho número más bien debe depender del número de datos que se estén estudiando o, como se
verá enseguida, dependerá del número de intervalos de clase que el investigador decida usar en su
estudio.

Pasos a seguir:

Número de datos, que se recomienda para tamaño igual o mayor de 30 datos.

1. Se buscan el valor más pequeño (mínimo) y el más grande (máximo), que son
respectivamente 5 y 13 años.
2. Se procede a calcular el rango (R) que se determina por la diferencia entre el valor máximo
y el mínimo.

(R) = 𝑣𝑎𝑙𝑜𝑟 𝑚á𝑥𝑖𝑚𝑜 − 𝑣𝑎𝑙𝑜𝑟 𝑚í𝑛𝑖𝑚𝑜


Sustituyendo 𝑅 = 13 − 5 = 8

3. Se calcula la amplitud de la clase o grupo, para la cual se requiere determinar el número de


clases o intervalos (subjetiva u objetivamente). En el caso de la primera el experto (forma
subjetiva) es quien determina el número de intervalos o clases en base a su experiencia o
conocimiento del fenómeno en estudio.

(𝑅) 8
𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 = = =2
𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒𝑠 𝑞𝑢𝑒 𝑠𝑒 𝑑𝑒𝑠𝑒𝑎𝑛 4

El número cuatro indica que se agruparon los datos en cuatro clases o grupos, y el número dos
expresa que cada clase tendrá una amplitud de dos unidades.

Con estos resultados se procede a elaborar la siguiente tabla:

33
Tabla II.8
Clasificación de los datos en clases y frecuencias
Grupos de edades o
𝐹 = Frecuencia
antigüedad de los bancos
De 5 a 7 15
De más de 7 a 9 7
De más de 9 a 11 5
De más de 11 a 13 3
Total 30
Fuente: Investigación directa con datos hipotéticos

Esta forma de agrupar los datos es usada por muchos expertos y se le llama “Serie de intervalos de
clases y frecuencias, en donde cada intervalo de clase tiene su límite inferior y superior. En general
de hecho se dice (Kazmier, 1967) en términos de las propiedades estructurales de los intervalos de
las clases, que cada una de ellas: a) tiene un límite inferior y otro superior; b) una frontera inferior y
otra superior; c) un intervalo y d) un punto medio o su valor representativo, también llamado marca
de clase.

Por otra parte, conviene decir que con este agrupamiento de datos se puede saber de inmediato por la
frecuencia asociada cuáles son los datos que predominan o se repiten más dentro de la distribución
de datos en intervalos. Sin embargo, se tiene que pagar un precio por ello: no es posible saber con
exactitud el valor de cada uno de los datos incluidos en cada intervalo de la clase, sólo se sabe por la
frecuencia cuántos son, y que sus valores están entre sus valores extremos, llamados límite inferior y
límite superior, sólo eso.

Así, en el caso de estos datos, los límites de cada intervalo de clase son los números que típicamente
sirven para identificar los intervalos de las clases en una lista de distribución de frecuencias. Luego
en el intervalo de la clase cuya frecuencia es 15 de la tabla de arriba, el límite inferior es 5 y el límite
superior es 7. En la clase cuya frecuencia es 3, su límite inferior es 11 y el límite superior es 13.

Igualmente, se debe decir que cuando se establecen los límites de clase “ inclusive”, ello indican que
existirán datos cuyo valor sea exactamente el valor del límite inferior o del límite superior de la
clase.

Por otra parte conviene decir que “las fronteras” de clase son los puntos precisos que separan una
clase de otra (Kazmier, 1967: 20). Una frontera de clase se localiza a medio camino entre el límite
superior de una clase y el límite inferior de la siguiente clase. Así, en la siguiente tabla la frontera
precisa que separa la clase 63 a 65 de la clase 66 a 68 está a la mitad del camino entre 65 y 66, es el
punto 65.5. Así derivado de lo anterior, si por ejemplo se tiene dudas sobre en qué intervalo de clase
deber ir el número 66, ¿ En la primera o en la segunda clase? Este autor señala que se use el
procedimiento de redondeo con el cual se obtiene 66 y por consiguiente, el número 66 va en el
segundo el intervalo de clase (ídem, 1967:21), como lo ilustra en el siguiente ejemplo: con datos
continuos Tabla II.9.

34
Por el contrario, en este agrupamiento también se observa que no sucede lo mismo con los límites de
clase, es decir, se ve que el límite superior de la clase (ergo 62 de la primera clase) no es el valor del
límite inferior de la siguiente clase (ya que es 63).

Tabla II.9
Diferenciación de conceptos
Límites de Fronteras de Puntos medios
Frecuencias
clase clase o de clase
60 a 62 59.5 a 62.5 1 61
63 a 65 62.5 a 65.5 2 64
66 a 68 65.5 a 68.5 13 67
69 a 71 68.5 a 71.5 20 70
72 a 74 71.5 a 74.5 11 73
75 a 77 74.5 a 77.5 3 76
Total 50
Fuente:Datos de Kazmier (1967)

Por otra parte comenta Kazmier (1967: 20) que algunos estadígrafos usan los términos “límites
nominales” para referirse a los valores inclusive que identifican una clase y “límites exactos” para
referirse a los puntos precisos que separan una clase de otra clase, de manera que los “límites
nominales” son sinónimos de los límites de clase y los “límites exactos” son sinónimos de las
fronteras de clase.

En este contexto del agrupamiento de datos en una serie de intervalos de clases y frecuencias, este
autor indica (1967: 21) que ocasionalmente es algo difícil decidir si los valores que identifican las
clases son valores de límites de clase o fronteras de clase los valores particulares que identifican los
intervalos de las clases. Lo anterior lo ilustra con el siguiente:

Ejemplo 1

Considere las clases:

- Al menos 20 pero menor que 30


- Al menos 30 pero menor que 40

Suponiendo que la medición es a la unidad más cercana, los límites actuales “inclusive” para la
primera clase son 20 y 29 y la frontera inferior y la superior de esa primera clase son
respectivamente: 19.5 y 29.5

Finalmente en una clase abierta ya sea en su límite inferior o en el superior, se dice que no hay
ninguna frontera de clase asociada.

Particularidades de una distribución de datos continuos:

Como estos datos, a diferencia de los discretos o discontinuos, que son fraccionables o divisibles,
surge en el problema del redondeo que se resuelve calculando las fronteras de clase, mismas que se
35
definen como el punto preciso que separa una clase de otra. Una frontera de clase es un punto medio
entre el límite superior de una clase y el límite inferior de la que le sigue en la distribución de datos
(Kazmier, idem). Así en el siguiente ejemplo correspondiente a becas que reciben 50 estudiantes
semanalmente expresadas en pesos, se tiene:

Tabla II.10
Comparación numérica de conceptos
Límites de clase en Punto medio de
Fronteras de Frecuencia Amplitud
$: inferior( li )- y la clase
clase en $ (𝐹𝑖 ) de la clase
límite superior Ls) (𝑃𝑀𝑖 )
160 - 162 159.5 - 162.5 1 161 3
163 - 165 162.5 - 165.5 2 164 3
166 - 168 165.5 -168.5 13 167 3
169 -171 168.5 -171.5 20 170 3
172 -174 171.5 -174.5 11 173 3
175 -177 174.5 -177.5 3 176 3
Total 50
Fuente: Datos de Kazmier ( 1967)

Se observa que a) a diferencia de una frontera de clase, el límite superior de una clase no es el límite
inferior de la siguiente clase; b) la frecuencia o agrupamiento de datos se hace con base en los límites
y no de las fronteras de clase. Así, el valor 165.5, que es el valor de una frontera de clase, por el
criterio de redondeo, se registra en 166, límite inferior de la siguiente clase; c) la amplitud del
intervalo de una clase se determina sustrayendo el valor de la frontera inferior del superior. En la
clase 166-168, su amplitud = 168.5 − 165.5 = 3. También se puede obtener sustrayendo el valor
de su frontera inferior de la frontera inferior de la clase siguiente; o el límite superior de la clase del
límite superior de la clase siguiente.

Al respecto, se considera que para agrupar los datos los criterios aquí descritos para hacerlo son un
tanto convencionales ( Huntsberger, 1983:16) y que por consiguiente, se pueden usar cualquiera de
los procedimientos que se presentan aquí. Lo importante es la sistematización en su aplicación, la
descripción de sus características y decir porqué se aplica, ya que será conforme a los objetivos de la
investigación, al número de datos, a su naturaleza si son continuos o discretos, etc. lo que
determinará su agrupamiento adecuado para su análisis e interpretación correspondiente. En este
contexto es que en este libro se usan para ilustrar los agrupamientos en intervalos de clases algunos
de los criterios como los anteriores del Profesor Kazmier (“Al menos 20 pero menor que 30”) o de
otros similares como los que usa el Profesor Andrés García Pérez (“De más de”).

Agrupamiento de los datos con criterios objetivos

Para el agrupamiento de forma objetiva se pueden utilizar diversas reglas que determinan dicho
número, dentro de las cuales destacan la de Sturges, Kaiser, Heller y la regla G. En este contexto es
que a continuación el Dr. Alfonso Gómez Navarro expone esta metodología.

36
La construcción de tablas de distribuciones de frecuencia.

Para la construcción de una tabla en intervalos de frecuencias es necesario conocer como se


estructura en su forma más simple: es una tabla estadística integrada por dos columnas: la primera
que representa los intervalos de clase de la variable bajo estudio y la segunda columna donde se
presentan las frecuencias de las observaciones que se ubican en cada clase.

El problema teórico-práctico radica en la estructura de la primera columna de la tabla donde se tiene


que definir el número de intervalos de la distribución y la amplitud de los mismos lo que representa
un problema cuantitativo y cualitativo en relación a la muestra o población de la variable que se trata
de representar en este tipo de tablas de análisis de la Estadística.

Tabla II.11
Modelo de una tabla estadística de una distribución en intervalos de frecuencias

X f

Li1 - Ls1 fc1

Li2 - Ls2 fc2

Li3 - Ls3 fc3


. .
. .
. .
Lin - Lsn fcn
∑f

Sin duda los aspectos que es indispensable considerar para la determinación de de los intervalos son:

1. La naturaleza de la variable bajo estudio.


2. El rango de la población o muestra que nos permitirá tener una idea del grado de
variabilidad de los datos.
3. El tamaño de la población o muestra.

Conforme al análisis de estos tres aspectos la relación matemática que se establece para definir
cuantitativamente la amplitud de cada intervalo, que se da por la relación del rango y el número de
𝑅
intervalos. C= 𝐾
, donde C representa la amplitud del intervalo, R el rango de la variable y K el
número de intervalos.

37
En las distribuciones los intervalos, estos representan estratos de magnitud, ordenados que se
pueden presentar en forma creciente o decreciente, en términos absolutos conforme a los
requerimientos del problema.

Si en el planteamiento del problema de la variable a investigar se define, que el objetivo primordial


es la magnitud de la amplitud del intervalo, el problema se resuelve simplemente ajustando el rango
de la variable, por ejemplo si se desean intervalos de amplitud de 10 unidades y el rango de la
variable es 120 el número de intervalos se define en 12. Este resultado se determina independiente
del tamaño de la población o muestra que se esté utilizando.

Cuando hay que considerar el tamaño de la población o muestra, la estratificación en intervalos para
la construcción de distribuciones de frecuencias en intervalos de clases es importante el análisis
estadístico tanto para la Estadística Descriptiva como para la Inferencia Estadística. Hay que analizar
las muestras conforme los requerimientos del problema ya sea este de naturaleza discreta o continua.
El detalle y la configuración de la distribución son de gran importancia y el número de intervalos
juega un papel muy importante en dicho trabajo. Una distribución con un mayor número de
intervalos permite conocer con mayor detalle la distribución, siempre y cuando no se extralimite el
número de partes y se pierda significado en el análisis requerido. Por el contrario un número
reducido de intervalos puede ocultar información relevante para el análisis. Respecto a la
configuración esta también se ve afectada ya que puede presentar gráficamente una distribución
alejada de su verdadera forma.

Conforme la práctica y experiencia existe la forma subjetiva para la determinación del número de
intervalos y los autores de textos dan diversas recomendaciones: Taro Yamane recomienda de “7 a
15 intervalos” (Yamane, 1979:8), Frederick E.Croxton y Dudley J. Cowden señalan:”Podría
decirse, en general, que raras veces deberán usarse menos de 6 u 8 clases, y más de 16 clases serán
útiles solamente para trabajar con datos muy abundantes.” (Croxton y Cowden, 1965:189); otra
opinión de afamados autores es la de Paul G. Hoel y Raymund J. Jessen que dicen:”Por la teoría y la
experiencia se sabe que para la mayoría de los tipos de datos es conveniente usar de 10 a 20 clases,
con menor número de clases para menor cantidad de datos. Con menos de 10 clases se pierden
muchos detalles de la muestra, mientras que con más de 20 clases, el cálculo se hace tedioso.” (Hoel
y Jessen, 1983:30), sin duda para expertos el problema no es muy complejo, el problema es que
pueden hacer los no expertos y particularmente el estudiante de la estadística que aún no es experto,
se recomiendo apoyarse en algún experto y uno de ellos que nos proporciona una regla que está

38
fundamentada en la teoría estadística y que la práctica la confirma es sin duda la regla elaborada por
Herbert A. Sturges, el cual publica su regla en el Journal of American Statistical Association1

K = 1+3.322 log(N)

Donde N representa el número de datos de la muestra o población y K el número de intervalos de


clase de la distribución. Sturges basa su formula en los números que son potencia de 2 conforme los
coeficientes de la distribución binomial. Es así como para 16 datos las frecuencias se distribuyen en
5 clases con frecuencias simétricamente distribuidas: 1, 4, 6, 4, 1, que representan los valores de los
coeficientes binomiales que suman 16 y que aplicando la regla de Sturges obtenemos las 5 clases.

Otra de las fórmulas utilizadas utilizada y recomendada por algunos autores de la bibliografía de la
Estadística es la atribuida a Kelley2:

N=2k

Donde N= tamaño de muestra y K= al número de intervalos

La fórmula que se define literalmente como la relación del número dos elevado a una potencia que
lo determina el número de intervalos dando como resultado un número de elementos a considerar
como muestra.

Un ejemplo de aplicación lo muestra el popular libro de Lind, Marchal y Wathen que dice lo
siguiente: “Una receta útil para determinar la cantidad de clases (K) es la regla de 2 a la K. Esta guía
sugiere que se elija el menor número de (K) para el número de clases, de tal manera que 2 k (en
palabras, dos elevado a la k-ésima potencia) sea mayor que el número de observaciones (n).”
(Lind/marchal/Waten ,2013:30).

Un ejemplo numérico para una muestra de 100 elementos tendría que buscar la potencia que al
aplicar la formula el resultado sea igual o menor al tamaño de la muestra:

26=64 no cubre el tamaño de la muestra por lo cual hay que calcular 27=128 resultado que abarca al
número. Conforme a esto se infiere que se deben utilizar 7 intervalos para muestras de 65 elementos
hasta 128. Conforme a esto se puede elaborar una tabla:

1
Journal of the American Statistical Association, Vol. 21, No. 153 (Mar., 1926), pp. 65-66

2
Esta fórmula es atribuida a Truman L. Kelley (1884-1991) más no cuento con la fuente correspondiente para hacer la afirmación
correspondiente. Sus trabajos uno de 1924, donde publica el libro Método estadístico de la editora Mac Millan, EE.UU. y su otro libro del
año de 1947 de Fundamentos de la estadística de la Universidad de Harvard no se tuvo acceso a los mismos por lo cual desconozco si en
dichas obras se localiza dicha fórmula.

39
Tabla II.12
Rangos de diferentes tamaños de muestras y su correspondiente número de intervalos de clase.
K 3 4 5 6 7 8
N 5-8 9-16 17-32 33-64 65-128 129-256

El intervalo N indica el número de elementos de la muestra para el número K de intervalos a utilizar.

Esta fórmula se fundamenta en el número 2 como base y como potencia k, al igual que la formula de
Sturges, con la diferencia de que Sturges toma como base el binomio en función a sus coeficientes
en el desarrollo los cuales son n+1. Y la relación a la potencia a la cual esta elevado el binomio, que
es donde resulta el 1 que se le suma al producto de coeficiente del logaritmo base 10 en su formula.

Por otra parte, para darle funcionalidad a la formula desarrollé el algoritmo que le da funcionalidad
quedando de la siguiente forma:
log(𝑁)
Kelley; G.Navarro 𝐾 = 0.30103

Esta fórmula nos indica directamente el número de clases para un determinado tamaño de N.
Ej. Para N= 100 aplicando el algoritmo da como resultado K=6.6439, redondeando al número entero
más próximo tenemos que k=7 intervalos a utilizar sin necesidad de utilizar una tabla ni realizar
tanteos para determinar en qué potencia se cubre el tamaños de la muestra deseado.
La tercera fórmula o regla de H.F.Kaiser3 que se aplica para la determinación del número de
intervalos es:
𝐾 = √𝑁

Esta fórmula al igual que la anterior se encontró solo una referencia en la bibliografía revisada en el
que se le da crédito como criterio Kaiser más no hay referencia fidedigna de que H.F. Kaiser sea el
autor de dicha regla y en las referencias bibliográficas señaladas no trata el tema de dicha regla. Esta
fórmula se puede considerar como la más simple ya que determina el número de intervalos con una
simple raíz cuadrada del tamaño de la muestra, es decir reduce el tamaño de la muestra a una base
que es el número de intervalos.

N=100 su raíz es 10 que multiplicada por si misma da igual a N.

3
La referencia es la que realiza Francisco Álvarez González, en Métodos estadísticos aplicados a las Ciencias Sociales.
Facultad de Ciencias del Trabajo. Universidad de Cádiz.2005 Kaiser, H.F. (1960).
The application of electronic computers to factor analysis. Educational and Psychological Measurement, 20, 141-51.
Kaiser, H.F. (1970). A second generation little jiffy. Psychometrika, 35, 401-415.
Kaiser, H.F. (1974). An index of factorial simplicity. Psychometrika, 39, 31-36.

40
William Stevenson al respecto dice: “Una regla empírica es calcular la raíz cuadrada de n, y ajustarla
para adaptarla a (si es necesario) los limites 5 a 15. Por ejemplo, para 400 observaciones, √400 = 20,
resultado que se debe ajustar a 15.”(Stevenson, 2006:40).

Una cuarta fórmula es la llamada Regla G4

Su fórmula expresada en logaritmos naturales:

K = 2 + ln (N)

en logaritmos base 10:

K= 2+ 2.3026 log N

Por lo que respecta a la Regla “G”, es una regla empírica que al igual que la regla de Sturges
permite determinar el número de intervalos o clases en que se puede dividir una distribución de
frecuencias en el análisis estadístico. La base de su desarrollo se basa en el número 2,
considerado como el número mínimo en que se puede dividir una distribución de frecuencias y
los logaritmos naturales cuya base es el número “e” el cual representa una constante en el
desarrollo de la formula de la distribución normal, así como encontrar una expresión fácil de
memorizar y manejo. Por otro lado el complementar a la regla de Sturges como una alternativa
para la mejor configuración de las distribuciones hacia un modelo de distribución normal y poder
utilizar la fórmula para muestras o poblaciones grandes donde la Regla de Sturges rebasa los
parámetros de elasticidad establecidos entre 5 y 20 intervalos.

Un análisis comparativo entre la Regla de Sturges y la Regla G en relación a sus formulas y a la


tendencia de sus funciones logarítmicas se presenta en la gráfica 1 que nos indica que las
funciones se igualan en el punto 9.57102, para separarse alejándose ambas alcanzando una
diferencia de un 35% con valores para N= 100 millones de observaciones, matemáticamente su
tendencia hacia infinito se transforman en dos lineas paralelas con una separación aproximada de
un 40%.

4
Memoria XIX Coloquio Mexicano de Economía Matemática y Econometría (2009) IPN La Regla de Sturges vs la Regla G. Alfonso
Gómez Navarro.

41
Gráfico II.1

Regla G y de Sturges
9.00
8.00
7.00
Numero de clases

6.00
5.00
4.00
3.00
2.00
1.00 k= 1 + 3.322 log (N)
K= 2 + ln (N)
0.00
0 20 40 60 80 100 120
Tamaño de Muestra

Fuente: Elaboración Gómez Navarro

Para una mejor funcionalidad en el análisis estadístico se recomienda para la regla “G” el utilizar un
número impar de intervalos, lo mismo que para la regla de Sturges, redondeando al entero impar
más cercano al resultado de respectivas formulas.

Ejemplo: para N=45 la regla “G” da como resultado 5.8 el número impar más cercano es 5 clases.

Para la regla de Sturges el resultado es 6.5 el non más cercano es 7 clases.

Análisis comparativo de las formulas

Para efectuar un contraste de funcionalidad y de consistencia conforme la recomendación teórica


practicas de los especialistas que sugieren una cobertura de 5 a 20 intervalos, se elaboro una tabla
que contiene trece muestras alternativas de muestras con tamaños que fluctúan de una muestra
pequeña a una muestra que se puede considerar como muy grande.

Al analizar los resultados que indica la Tabla II.13, encontramos que la fórmula:

𝑘 = √𝑁

Para muestras mayores a 500 datos, se sale de los límites marcados por los especialistas y para
tamaños de poblaciones o muestras de 10,000 elementos el número de intervalos es extremadamente
grande (100 intervalos).

42
Tabla II.13
Tabla de sensibilidad para las cuatro fórmulas

K=1+3.322 log
K= 2 +ln (N)
(N)
N K K K K
25 5 6 5 5
50 7 7 6 6
75 9 7 6 6
100 10 8 7 7
150 12 8 7 7
200 14 9 7 8
300 17 9 8 9
400 20 10 8 9
500 22 10 8 10
1,000 32 11 9 10
10,000 100 14 11 14
100,000 316 18 14 17
1,000,000 1,000 21 16 20
10,000,000 3,162 24 18 23

Para el caso de la regla de Sturges se encuentra una gran estabilidad y consistencia con las
diferentes muestras manteniéndose en el rango hasta con muestras un millón de dato.
La regla de 2 al exponente k para delimitar el número de elementos de la muestra, también presenta
una alta consistencia a las diferentes alternativas presenta un paralelismo con la regla de Sturges,
siendo menos sensible a muestras grandes en relación a Sturges.
Por lo que respecta a la regla “G” se denota que es la menos afectada a los efectos de muestras
grandes y la más recomendada para tamaños de N referentes a poblaciones.
Hay que considerar que el análisis económico si bien predominan los análisis con el muestreo
estadístico, el análisis poblaciones en diversos casos es necesario. Casos en los cuales se requieren
presentaciones de poblaciones donde se utilizan 6 o más dígitos es de recomendar utilizar la regla
“G”.

43
Tabla II.14
La Regla “G” y de “Sturges” en el análisis para el modelaje de las muestras en las distribuciones de
intervalos de frecuencias.
Diferentes alternativas utilizando la regla Diferentes alternativas utilizando la Regla
Regla G: de Sturges:
Observaciones Intervalos Observaciones Intervalos

7 3 7 3
8 a 54 5 8 a 31 5
55 a 403 7 32 a 127 7
404 a 2980 9 128 a 511 9
2981 a 22026 11 512 a 2047 11
22027 a 162754 13 2048 a 8190 13
162755 a 1202604 15 8191 a 32760 15
1202605 a 8886110 17 32761 a 131038 17
8886111 a 65659969 19 131039 a 524138 19
65659970 a 485165171 21 524139 a 2096491 21
Fuente: Elaboración Gómez Navarro

Como podemos observar en las dos alternativas, Sturges para 15 intervalos considera un máximo de
32,760 observaciones, mientras que la regla G, se extiende a un millón 202,604 observaciones que
representan muestras 35 veces mayores.

Si consideramos muestras o poblaciones de varios millones de datos se pueden extender hasta 21


intervalos de clases y frecuencias la distribución, teniendo como máximo la Regla de Sturges
poblaciones o muestras de un tamaño de 2, 096, 491 datos, mientras con la Regla “G” podemos
utilizar 485, 165,171 de datos como máximo para las 21 clases o intervalos.

Para el análisis del modelaje se presentan dos alternativas utilizando dos muestras una 40 unidades y
la otra de 50 unidades.
En cada una de ellas se utilizan tanto la regla de Sturges como la regla “G” y la alternativa de un
número de intervalos de clase par.

Cada muestra modelo presenta tres alternativas se contrastan gráficamente utilizando la


representación gráfica del histograma y el polígono de frecuencias absolutas. Se observa cual es la
que mejor se ajusta a la distribución normal y se comprueba numéricamente realizando los cálculos
de la media aritmética, su desviación estándar, el tercer momento respecto la media aritmética en
términos relativos para determinar el grado de asimetría si existe y por último se calcula el cuarto
momento en términos relativos para determinar si existe algún grado de Kurtosis en dichas
distribuciones.

44
Modelo de ejemplo I

Este modelo de ejemplo presenta las tres alternativas que permiten el contraste de las fórmulas de
Sturges y “G” , la primera con 5 intervalos que proporciona la regla “G” al redondear al número
entero impar más cercano, la segunda con la regla de Sturges que nos indica siete intervalos y la
tercera al redondear al entero más próximo que es seis intervalos.

Tabla II.15
Gastos fijos promedio diario de 40 empresas de la zona industrial Z en el año “X1” (Pesos
mexicanos)
10125 38456 50654 60567 12970 38600 53656 66987
15900 41234 54889 71323 23456 43784 55444 72432
24500 45634 56389 73211 25500 46789 56321 73956
28293 47654 57465 75643 29465 48965 57596 81564
32736 48999 57876 84878 35321 49676 58765 85830
Datos hipotéticos

Amplitud de clase:
Alternativa 1 Regla “G”
C= R/KG R= Xmax-Xmin= 86-10 =76
Formula: KG= 2+ln (N) ; KG=2+ln (40) =
C= 76/5 =15.2 (unidades de millar)
5.8918
C= 16 (redondeando a la unidad inmediata
KG= 5 intervalos
superior)

Tabla II.16
Distribución en intervalos de frecuencias de amplitud 16 unidades de millar de los gastos fijos
diarios de 40 empresas tomadas como muestra de la zona industrial “Z” en el año X1.
-x- Ls f M M*f (M-X)2*f (M-X)3*f (M-X)4*f
10-25 25 5 17.5 87.5 5120 -163840 5242880
26-41 41 8 33.5 268 2048 -32768 524288
42-57 57 14 49.5 693 0 0 0
58-73 73 8 65.5 524 2048 32768 524288
74-89 89 5 81.5 407.5 5120 163840 5242880
40 1980 14336 0 11534336
Fuente: Elaboración Gómez Navarro

45
Gráfico II.2

Muestra de 40 empresas: Gastos fijos promedio mensual En el


año "x" (Miles de pesos)
16
14
14

12

10
8 8
8

6 5 5

2
0 0
0
1.5 17.5 33.5 49.5 65.5 81.5 97.5
Histograma Poligono

Fuente: Elaboración Gómez Navarro

Media Aritmética = 49.5 Desviación estándar = 18. 905


M3 = 0 M3 = 295752.21
A3 = 0 A4 = 2.32

Alternativa 2

Tanto la regla “G” como la de Sturges el numero entero más próximo es 6 intervalos con una
amplitud de 13 unidades monetarias.

Distribución en intervalos de frecuencias de amplitud 13 unidades de millar de los gastos fijos


diarios de 40 empresas tomadas como muestra de la zona industrial “Z” en el año X1.

Tabla II.17
Distribución de intervalos de frecuencias
X f M M*f (M-X)2*f (M-X)3*f (M-X)4*f
10 - 22 3 16 48 3361.7269 -112533.8071 3767069.1940
23 - 35 7 29 203 2934.5794 -60085.5127 1230250.8726
36 - 48 7 42 294 391.1294 -2923.6921 21854.5983
49 - 61 14 55 770 427.3588 2361.1571 13045.3929
62 - 74 5 68 340 1715.8781 31786.6423 588847.5480
75 - 87 4 81 324 3975.3025 125321.4113 3950757.4916
40 1979 12805.9751 -16073.8012 9571825.0974
Fuente: Elaboración Gómez Navarro

46
Gráfico II.3

Muestra de 40 empresas: Gastos fijos promedio mensual


en el año "x" (Miles de pesos)
16 14
14
12
10
8 7 7
6 5
4
4 3
2 0 0
0
3 16 29 42 55 68 81 94

Histograma Poligono

Fuente: Elaboración Gómez Navarro

Estadísticos estimados
Media aritmética = 49.475 Desviación estándar = 17.865
M3 =-412.149 M4 = 245431.413
A3= -0.0723 A4= 2.4096
Alternativa 3

Modelo Regla de Sturges Amplitud de clase:


Formula: C= R/K
K = 1+3.322 log.(N) R= Xmax. - X Min.
K= 1+3.322 log (40) X Max.= 85830
K= 6.3220 X Min.= 10125
Simplificando redondeando a unidades de
Redondeando al número impar más cercano millar:
K= 7 intervalos o clases C= R/K= (86-10)/7= 10.857
Aproximando a la unidad inmediata superior:
C= 11

47
Tabla II.18
Distribución en intervalos de frecuencias de amplitud 11 unidades de millar de los gastos fijos
diarios de 40 empresas tomadas como muestra de la zona industrial “Z” en el año X1.

X f M M*f (M-X)2*f (M-X)3*f (M-X)4*f


10 - 20 3 15 45 3717.12 -130842.624 4605660.365
21 - 31 5 26 130 2928.2 -70862.44 1714871.048
32 - 42 5 37 185 871.2 -11499.84 151797.888
43 - 53 8 48 384 38.72 -85.184 187.4048
54 - 64 10 59 590 774.4 6814.72 59969.536
65 - 75 5 70 350 1960.2 38811.96 768476.808
76 - 86 4 81 324 3794.56 116872.448 3599671.398
40 2008 14084.4 -50790.96 10900634.45
Fuente: Elaboración Gómez Navarro

Media aritmética = 50.5 Desviación estándar = 18.74


M3 =-1302.33 M4 = 272514.86
A3 = -01980 A4= 2.2106

Gráfico II.4

Muestra de 40 empresas: Gastos fijos promedio


mensual en el año "x" (Miles de pesos)
12
10
10

8
8

6 5 5 5
4
4 3

0 0
0
4 15 26 37 48 59 70 81 92
Histograma Poligono

Fuente: Elaboración Gómez Navarro

Este primer modelo con sus tres alternativas con la misma muestra pero diferentes números de
intervalos determinados con la regla “G” y la de “Sturges, nos presentan 3 configuraciones gráficas
48
que indican que la alternativa 1 es la que más se ajusta al modelo normal si ese es el objetivo,
confirmado por los indicadores de asimetría y Kurtosis.

Modelo de ejemplo II

Tabla II.19
Muestra de las ventas promedio diario de 50 empresas en la zona industrial z en el año x 2.(pesos
mexicanos).
109954 175568 195874 209125 234100
130498 178965 201456 209358 234432
134956 179546 203574 209489 237980
140235 181365 204852 213125 242876
147890 182456 206985 219345 247890
153478 183487 207120 221145 255643
157342 184123 207958 223786 258323
159123 184995 208456 228321 258900
163456 185498 208789 230987 261234
165897 187658 209021 233978 283123

Alternativa 1 Regla “G” Amplitud de clase:


Formula: KG= 2+ln (N) ; KG=2+ln (50) = C= R/KG R= Xmax-Xmin= 283-110 = 173
5.9120 C= 173/5 = 34.6 (unidades de millar)
KG= 5 intervalos C= 35 (redondeando a la unidad inmediata
superior)

Tabla II.20
Distribución en intervalos de frecuencias de amplitud 35 unidades de millar de las ventas diarias de
50 empresas tomadas como muestra de la zona industrial “Z” en el año X2.
X f M M*f (M-X)2*f (M-X)3*f (M-X)4*f
110 - 144 4 127 508 21609.00 -1588261.50 116737220.25
145 - 179 8 162 1296 11858.00 -456533.00 17576520.50
180 - 214 22 197 4334 269.50 -943.25 3301.38
215 - 249 11 232 2552 10914.75 343814.63 10830160.69
250 - 284 5 267 1335 22111.25 1470398.13 97781475.31
50 10025 66762.50 -231525.00 242928678.13
Fuente: Elaboración Gómez Navarro

49
Gráfico II.5

Muestra de 50 empresas ventas promedio diario en el año


"x2" (miles de pesos)
25
22
20

15
11
10 8
5
5 4

0 0 0
92 127 162 197 232 267 302
Histograma Poligono

Fuente: Elaboración Gómez Navarro

Media aritmética = 200.5 Desviación estándar = 36.91


M3=-4725 M4 = 4957728
A3 = -0.09 A4 = 2.67

50
Diseños Gráficos más usados para graficar los datos. Su utilidad está en que se ve más fácilmente
el comportamiento, evolución, tendencia, etc. del fenómeno en estudio.

Con estas referencias y regresando al ejemplo de la antigüedad de los bancos operando (tabla II.8), si
se quiere ver gráficamente cómo están distribuidas las edades de los bancos; basta hacer uso de los
ejes cartesianos, usando el primer cuadrante y poniendo en el eje de las "𝑌" las frecuencias, en el de
las " 𝑋 " los grupos de edades: así independientemente de que los datos sean discretos o continuos y
usando los límites de las clases, se tendrá:

Gráfica II.6
Histograma de la antiguedad de los bancos en años
16 15
14
12
Frecuencia

10
8 7
6 5
4 3
2
0
De 5 a 7 De más de 7 De más de 9 De más de
a9 a 11 11 a 13
Grupos de antigüedad de los bancos
Fuente: Investigación directa con datos hipotéticos

A esta representación gráfica suele llamársele "histograma". Ahora si se calculan los puntos medios,
𝑥𝑖 , de los intervalos de clase, se obtiene una nueva tabla, con cuyos valores llamados “Marcas de
clase o puntos medios” se construye la gráfica del “polígono de frecuencias”.

Tabla II.21
Cálculo de los puntos medios o marcas de clase
Intervalos de clases 𝐹 Número de 𝑋𝑖 Marca de clase o
(antigüedad en años) bancos punto medio
De 5 a 7 15 6
De más de 7 a 9 7 8
De más de 9 a 11 5 10
De más de 11 a 13 3 12
Total 30
Fuente: Investigación directa con datos hipotéticos

𝑖 = 1, 2, 3. . . 𝑛;


Obsérvese que un punto medio es la suma de los límites inferior y superior de cada clase, la cual se divide
entre dos. También se le llama “punto medio de la clase o marca de clase”, que en esencia es el valor
representativo de cada clase.

51
Gráficamente se tendrá:
Gráfica II.7
Representación gráfica de la antigüedad de los bancos

20 Histograma y polígono de frecuencias


15 Histograma
15
Frecuencia

Polígono de frecuencias
10
7
5
5 3
0
0
Menos de 5 De 5 a 7 De más de 7 a 9 De más de 9 a De más de 11 a
11 13
Intervalos de clase y Xi

Fuente: Investigación directa con datos hipotéticos

¿Cerrar o no el polígono de frecuencias?

Al respecto, es interesante decir que autores como el Dr. Raúl Rojas Soriano (2001), Croxton &
Cowden (1964), entre otros, no cierran el Polígono de Frecuencias. Sin embargo, Yu Lun Chou
(1987) comenta que: “Aunque el histograma es una presentación gráfica eficaz y vívida de
distribuciones de frecuencias, el polígono no representa muy bien los datos básicos. La diferencia
más notable del polígono es que las áreas situadas debajo de él generalmente no son proporcionales a
las frecuencias. Una solución es cerrar el polígono en la base prolongando ambos extremos de la
curva hasta los puntos medios de dos clases hipotéticas situadas en los extremos de las distribuciones
que tienen cero frecuencias.” En apoyo de la opinión de cerrar el polígono de frecuencias se puede
mencionar a Richmond et (1964) y citar a Kazmier (1967) quien simplemente dice que es un gráfico
cerrado (1967: 28), a Blalock (1966) y Taro Yamane (1974) quienes sugieren que se cierre para que
comprenda toda el área bajo la curva. Esta última opinión sirve de referencia para después
adentrarse en la teoría de la probabilidad y en la inferencia estadística en su capítulo de la estimación
de punto y en la prueba de hipótesis, entre otras aplicaciones que tiene el concepto de “área bajo la
curva”, mismo que emana del cierre de la curva del polígono de frecuencias.

Resumiendo una vez más, se puede decir, en función de la forma en que están ordenados los datos,
que hay tres tipos de series:

1. Serie simple
2. Serie simple de frecuencia
3. Serie de intervalos o clases y frecuencias

52
Por lo que respecta a la representación gráfica serie simples existe una que resume los datos, es la
de intervalos de clase mediante la cual mediante éstos se pueden representar gráficamente, son el
histograma y el polígono de frecuencias, tanto en términos absolutos como relativos. Otra
representación la constituyen las ojivas que representan la información acumulada en forma creciente
o decreciente.

Con objeto de reafirmar la forma como se constituye una serie de intervalos de las clases y
frecuencias, a continuación se presentan los siguientes ejemplos adicionales:

Ejemplo 2: Cálculo de una serie de intervalos de clases y frecuencias

Con los datos de la siguiente Tabla II.2 agrupe los datos con el método subjetivo

PASOS A SEGUIR

1. Se identifican el valor más grande y el más pequeño, que son: 96,500 - 11,169
2. Se calcula la amplitud o rango:

𝑅𝑎𝑛𝑔𝑜 = 𝑣𝑎𝑙𝑜𝑟 𝑚á𝑥𝑖𝑚𝑜 − 𝑣𝑎𝑙𝑜𝑟 𝑚í𝑛𝑖𝑚𝑜


Sean los datos hipotéticos:
Tabla II.22
Datos hipotéticos
96,500.00 18,819.00 14,500.00 14,004.00 13,681.00
93,590.00 93,268.00 92,807.00 90,196.00 82,579.00
88,500.00 87,500.00 85,453.00 84,925.00 74,635.00
80,813.00 79,947.00 79,504.00 77,867.00 66,260.00
69,800.00 69,145.00 66,500.00 66,317.00 53,500.00
60,310.00 59,500.00 57,486.00 55,861.00 42,000.00
51,580.00 46,963.00 45,509.00 44,148.00 39,000.00
41,558.00 40,648.00 39,729.00 39,499.00 31,635.00
38,498.00 37,719.00 34,333.00 33,055.00 20,500.00
80,852.00 89,690.00 28,710.00 24,948.00 11,169.00
Fuente: Investigación directa con datos de Shao (1975).
Sustituyendo
𝑅𝑎𝑛𝑔𝑜 = 96,500 − 11,169 = 85, 331

3. Se calculan la amplitud de la clase o grupo.

𝑅𝑎𝑛𝑔𝑜 85,331
𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 = = = 17,066
𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒𝑠 𝑞𝑢𝑒 𝑠𝑒 𝑑𝑒𝑠𝑒𝑎𝑛 5

53
Tabla II.23
Agrupamiento de los datos en intervalos de clase
Intervalos de clase F Puntos Medios (𝑃𝑀)
De 11,169 a 28,235 12 19.702
De más de 28,235 a 45,301 15 36.768
De más de 45,301 a 62,367 8 53.834
De más de 62,367 a 79,433 8 70.9
De más de 79,433 a 96,500 7 87.966
Total 50
Fuente: Investigación directa con datos hipotéticos

En la práctica el procedimiento anterior de agrupar los datos, es llamado empírico, subjetivo o


convencional porque el investigador determina el número de clases que usará (en este caso 5),el cual
resulta ser el más usual; de hecho es el más conveniente porque parte del conocimiento del fenómeno
y de los objetivos que se persiguen con la investigación. Con ello se evita (Croxton & Cowden,
1965) el manejo de tablas extensas que hacen más complejo el análisis del fenómeno en estudio, o
por el contrario tablas con unas cuantas clases que ocultan las características o detalles relevantes de
la distribución.

Opciones: Agrupamiento objetivo: Sturges

Sin embargo, con el propósito de partir de una base matemática y no empírica en la construcción de
las tablas de frecuencias, H.A.Sturges sugirió un procedimiento basado en la siguiente fórmula.

𝑂𝑠𝑐𝑖𝑙𝑎𝑐𝑖ó𝑛
𝑖=
1 + 3.32 log(𝑛)

Donde:

Oscilación: Es la diferencia absoluta que existe entre el dato de menor valor y el de valor más
elevado

𝑖 ∶ 𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒
𝑛: 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑡é𝑟𝑚𝑖𝑛𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛

Esto supone que una vez conocida la amplitud de la clase o intervalo de clase denotado por (𝑖), la
tabla de clases y frecuencias puede calcularse de inmediato. Como podrá intuirse una vez conocido
su valor se determina automáticamente el número de grupos o clases de la distribución.

Aplicación del Método de Sturges al ejemplo 3 anterior, redondeando cifras:

𝑂𝑠𝑐𝑖𝑙𝑎𝑐𝑖ó𝑛
𝑖=
1 + 3.32 log(𝑛)
85,331
Sustituyendo 𝑖=
1+3.32 log(𝑛)
Oscilación = 96,500 - 11,169 = 85,331

54
85,331 85,331
𝑖 = 1+3.32 log(𝑛) = 6.6
= 12,929 ≈ 13 Redondeando a miles

Tabla II.24
Ordenamiento de los datos usando el método de Sturges
Intervalos de clase (𝐹𝑖 ) Puntos Medios (𝑃𝑀𝑖 )
De más de 11 a 24 6 17.5
De más de 24 a 37 7 30.5
De más de 37 a 50 11 43.5
De más de 50 a 63 6 56.5
De más de 63 a 76 6 69.5
De más de 76 a 89 8 82.5
De más de 89 a 102 6 95.5
Total 50
Fuente: Investigación directa con datos Ibíd.

LA OJIVA: representación gráfica usada mucho en economía.

Tabla II.25
Acumulación de frecuencias
Frecuencia
𝑋𝑖
Acumulada (𝑓𝑎)
Menos de… 24 6
Menos de… 37 13
Menos de… 50 24
Menos de… 63 30
Menos de… 76 36
Menos de… 89 44
Menos de… 102 50
Fuente: Investigación directa con datos Ibíd.

Tomando las 𝑋𝑖 como abscisas y (𝑓𝑎) como ordenadas, se obtiene:

Gráfica II.8
Acumulación de frecuencias u ojiva
60
Frecuencia acumulada

50 50
44
40
36
30 30
24
20
13
10
6
0 0
0 8 16 24 32 40 48 56 64 72 80 88 96 104 Xi
Fuente: Investigación directa con datos hipotéticos

55
Utilidad de la representación gráfica de los datos en histogramas, polígonos de frecuencia y ojivas.

Al graficar esta serie de datos se observa a través del histograma o del polígono de frecuencias la
distribución que tienen los datos; algunas veces hay más de ellos a la izquierda, otras veces a la
derecha de una referencia dada que suele ser la media aritmética.

Derivado de lo anterior puede decirse que gráficamente la forma de las curvas o representaciones
de una distribución de frecuencias, puede describirse de dos maneras: en términos de asimetría que
se conoce como dispersión (dirección) y en términos de su picudez (forma) que se conoce como
Kurtosis.

En capítulos posteriores se ilustrará la metodología usada para medir tanto la asimetría como la
Kurtosis de las curvas de frecuencias.

Excepciones al agrupamiento de los datos en una serie de clases y frecuencias

Estadística económica aplicada:


Hasta el momento se han estudiado y usado clases cerradas y con la misma amplitud para constituir
series de clases y frecuencias; sin embargo esto no siempre se respeta ( como señala Huntsberger, es
convencional), ya que el investigador puede decidir trabajar con clases abiertas en función de la
naturaleza del problema que investiga puede decidir trabajar con intervalos de diferente amplitud o
clases abiertas, es decir que alguna clase no tenga un límite inferior o el superior, así como que la
amplitud de las clases no sea constante; ejemplo:

Serie de clases abiertas y amplitud Variable


La Secretaría de Hacienda y Crédito Público para calcular el impuesto del año 2001, elaboró y dio a
conocer a los contribuyentes la siguiente tabla:

Tabla II.26
Serie de clases abiertas
Tarifa actualizada del impuesto correspondiente al ejercicio de 2001
% Para aplicarse
Límite Límite
Cuota fija $ sobre el excedente del
inferior $ superior $
límite inferior
0.01 5,153.22 0 3%
5,153.23 43,739.22 154.56 10%
43,739.23 76,867.80 4,013.10 17%
76,867.81 106,982.82 12,767.04 32%
106,982.83 215,769.06 18,407.70 33%
215,769.07 629,030.10 54,307.20 34%
629,030.11 1,887, 090.18 194,815.74 35%
1,887,090.19 2,516,120.46 635, 136.96 37.50%
2,516,120.47 en adelante 871,023.24 40%
Fuente: Investigación directa con datos de Secretaría de Hacienda y Crédito Público, (SHCP, 2001).

56
Recientemente se detectó que INEGI también decidió olvidarse del enfoque ortodoxo (Regla de
Sturges) para clasificar la información y usar en su lugar, un enfoque enteramente pragmático,
también de intervalos de clases abiertas y con amplitud variable de los mismos como el siguiente del
año 2012

Tabla II.27
Antigüedad de los micronegocios en México
Antigüedad de estos negocios Número de empresas %
Menos de 1 año 970,888 10.6
De 1 a 2 años 1,379,778 15
De 3 a 5 años 1,624,911 17.7
De 6 a 10 años 1,728,076 18.8
De 11 a 15 años 1,054,939 11.4
De 16 a 20 años 846,871 9.2
De más de 20 años 1,544,966 16.8
No especificado 42,061 0.5
Total 9,192,490 100
Fuente: Investigación directa con datos del Instituto Nacional de Estadística y Geografía, (INEGI, 2012)

El siguiente ejemplo también expresa la “heterodoxia” en el agrupamiento de datos:

Tabla II.28
Serie de clases abiertas
Crédito al salario - artículo 115°
Con ingreso desde Hasta (ingreso) Crédito al salario
$0.01 $1,768.96 $407.02
$1,768.97 $2,653.38 $406.83
$2,653.39 $3,472.84 $406.62
$3,472.85 $3,537.87 $392.77
$3,537.88 $4,446.15 $382.46
$4,446.16 $4,717.18 $354.23
$4,717.19 $5,335.42 $324.87
$5,335.43 $6,224.67 $294.63
$6,224.68 $7,113.90 $253.54
$7,113.91 $7,382.33 $217.61
$7,382.34 ... y más $0.00
Fuente: Investigación directa con datos del Cuadro 4.1 y 4.2 de indicadores estratégicos de ENAMIN 2012,
INEGI, 2013.

En general, se ha observado que en la práctica se acostumbra ordenar o agrupar los datos en las
formas anteriores, apoyándose en las recomendaciones de Huntsberger ( 1983).

Ejemplos adicionales de distribuciones o series estadísticas de datos

Caso 1. Un caso demográfico útil en economía porque ayuda a hacer estimaciones y determinar
mercados de consumo, es el siguiente:.

El Instituto Nacional de Geografía y Estadística (INEGI) generó un intervalo de clases abiertas con
una amplitud variable para las edades de la población censada en México en el año 2010. INEGI no
57
menciona ningún criterio para determinar dichos intervalos de edades. Sin embargo, es posible
observar que dicho intervalo es de clases abiertas y amplitud variable. Posiblemente se elaboró de
esta forma porque es más fácil el manejo de datos. Con este ejemplo se continúa verificando que los
datos suelen agruparse de manera práctica: según los objetivos del investigador.

Tabla II.29
Grupos de población por edades y sexo
Total Hombres Mujeres
Total 84,927,468 40,947,872 43,979,596
De 12 a 14 Años 6,504,132 3,291,591 3,212,541
De 15 a 19 Años 11,026,112 5,520,121 5,505,991
De 20 a 24 Años 9,892,271 4,813,204 5,079,067
De 25 a 29 Años 8,788,177 4,205,975 4,582,202
De 30 a 34 Años 8,470,798 4,026,031 4,444,767
De 35 a 39 Años 8,292,987 3,964,738 4,328,249
De 40 a 44 Años 7,009,226 3,350,322 3,658,904
De 45 a 49 Años 5,928,730 2,824,364 3,104,366
De 50 a 54 Años 5,064,291 2,402,451 2,661,840
De 55 a 59 Años 3,895,365 1,869,537 2,025,828
De 60 a 64 Años 3,116,466 1,476,667 1,639,799
De 65 a 69 Años 2,317,265 1,095,273 1,221,992
De 70 a 74 Años 1,873,934 873,893 1,000,041
De 75 a 79 Años 1,245,483 579,689 665,794
De 80 a 84 Años 798,936 355,277 443,659
85 y Más Años 703,295 298,739 404,556
Fuente: Censo de población y vivienda 2010. INEGI.

Caso 2. La tabla II.20 muestra la retención del impuesto sobre la renta, hecha por CONTAMEX.
Como se puede ver, los intervalos de clases abiertas y amplitud variable no especifican el método
para obtener estos intervalos de clases pero se infiere que los datos fueron clasificados de manera
práctica.

Tabla II. 30
Ley del Impuesto Sobre la Renta (L.I.S.R) Válidas para periodo: mensual-febrero de 2014
Impuesto sobre el valor agregado (ISR) (artículo 113°)
% Excedente del límite
Límite inferior Límite superior Cuota
inferior
$0.01 $496.07 $0.00 1.92%
$496.08 $4,210.41 $9.52 6.40%
$4,210.42 $7,399.42 $247.24 10.88%
$7,399.43 $8,601.50 $594.21 16.00%
$8,601.51 $10,298.35 $786.54 17.92%
$10,298.36 $20,770.29 $1,090.61 21.36%
$20,770.30 $32,736.83 $3,327.42 23.52%
$32,736.84 $62,500.00 $6,141.95 30.00%
$62,500.01 $83,333.33 $15,070.90 32.00%
$83,333.34 $250,000.00 $21,737.57 34.00%
$250,000.01 ... y más $78,404.23 35.00%
Fuente: CONTAMEX http://www.contamex.com/info_oficial/tablas_isr.php, 2014

58
Caso 3. En este ejemplo se presenta todo el proceso para agrupar los datos, mismo que ilustra el uso
de los conceptos utilizados para ordenar los datos de un fenómeno en estudio. Así, sean los datos
dispersos siguientes:

Tabla II.31
Datos dispersos 𝑋𝑖
3 13 8 5 14 10 5 6 14 18
1 10 13 14 2 10 11 6 19 9
10 9 2 9 6 14 10 10 6 5
17 6 17 13 8 18 19 9 8 17
11 9 11 13 9 8 6 3 11 5
Fuente: Investigación directa con datos hipotéticos

Estos datos como aparecen en desorden no pueden analizarse ni interpretarse, para ello es
recomendable ordenarlos en forma creciente, dando origen a una serie simple. Ahora bien si se
agrupan conforme se repiten los términos, ello da lugar a una serie de frecuencias.

Tabla II.32
Serie de frecuencias
(𝑋𝑖 ) 1 2 3 5 6 8 9 10 11 13 14 17 18 19 ∑ 𝑓(𝑋𝑖 )
𝑓(𝑋𝑖 ) 1 2 2 4 6 4 6 6 4 4 4 3 2 2 50
Fuente: Investigación directa con datos hipotéticos

Esta serie de frecuencias de la tabla II.22 puede convertirse en una serie de intervalos clases y
frecuencias considerando 5 clases, como se ilustra a continuación aplicando los pasos antes
descritos:

Serie de Intervalos de Clases y Frecuencias

Para ello se determina el Rango: 𝐿𝑠 − 𝐿𝑖 = 19 − 1 = 18


18
Amplitud de la clase 5
= 3.6

Con ello se puede construir la serie siguiente de clases y frecuencias: absolutas y relativas:

Tabla II.33
Serie de clases y frecuencias absolutas y relativas
Clases 𝐹𝑖 𝐹𝑖 Relativa (%) 𝑃𝑀𝑖
De 1 a 4.6 5 5/50*100 = 10 2.8
De más de 4.6 a 8.2 14 14/50*100 = 28 6.4
De más de 8.2 a 11.8 16 16/50*100 = 32 10
De más de 11.8 a 15.4 8 8/50*100 = 16 13.6
De más de 15.4 a 19 7 7/50*100 = 14 17.2
Total 50 50/50*100 = 100
Fuente: Investigación directa con datos hipotéticos

Las frecuencias relativas son muy importantes en economía por que permiten conocer la
ponderación o importancia de los datos comprendidos en cada clase, además de que constituye la
59
base o introducción de la probabilidad en el análisis económico, cuando el polígono de frecuencias
se cierra (Yamane, 1974).

Gráfica II.9
fa

Polígono de frecuencias relativas cuya área bajo la curva es 100%


35
30
25
20
15
10
5 0 2.8 6.4 10 13.6 17.2 0
0
-0.8 De 1 a 4.6 De más de De más de De más de De más de 20.8
4.6 a 8.2 8.2 a 11.8 11.8 a 15.4 15.4 a 19
Clases y P.M
Fuente: Investigación directa con datos hipotéticos

Observación: La curva tiende a ser simétrica o normal aún con pocos datos. La identificación de esta
característica es muy importante, ya que permite calcular medidas estadísticas para ampliar al
análisis de un fenómeno económico, como se verá posteriormente, haciendo o corroborando que la
estadística es un apoyo significativo para estudiar el comportamiento y caracterización estadística de
los fenómenos económico.

II.5 Análisis estadístico de las distribuciones de frecuencias

El ordenamiento o clasificación de las antigüedad de los bancos operando, descrito en el primer


ejemplo, en una tabla de frecuencias así como su correspondiente representación gráfica, permitió
deducir ciertas características estadísticas de la distribución, dentro de las cuales destacaron las
siguientes: Los términos (en este caso las antigüedades) difieren, esto es, son diferentes y su grado
de dispersión o variación quedó de manifiesto cuando se calculó la amplitud de la distribución. Por
otra parte, al elaborar la serie de clases y frecuencias se conoció la clase con mayor número de
frecuencias, es decir la que comprende la mayor antigüedad de los bancos.

Estas características son comunes a todas las distribuciones, no importa el área de investigación de
donde provengan, siempre habrá una concentración máxima de términos, y éstos habrán de mostrar
variaciones, algunas veces pequeñas y otras veces variaciones significativas entre sí.

Para la cuantificación de estas características y distinguir unas distribuciones de otras, existen


ciertas medidas estadísticas que permiten analizar con una base científica el comportamiento de los
términos en la distribución.

Las principales medidas usadas para tal propósito son: Las de tendencia central para medir la
acumulación o concentración alrededor de cierto valor, y las medidas de dispersión que sirven para
medir la variación de los términos con respecto a una medida de la tenencia central.

60
II.5.1 Medidas de tendencia central

Sabiendo que un cuadro estadístico indica cómo están clasificados en forma ordenada los
elementos de una población o muestra y que su representación gráfica pueda ser con el histograma
o polígono de frecuencias, con ellos se comprueba que hay valores que se presentan más seguido y
otros que ocurren con menos frecuencia, entonces los valores más característicos o de máxima
frecuencia están por lo general en la parte central de las distribuciones. Esta concentración se mide
con las medidas de tendencia central, (Croxfon Cowden: 1964).

Alcance de estas medidas: con base en las diferentes definiciones de estadística, en esta sección es
conveniente para el análisis de datos trabajar con la definición de estadística descriptiva, en su
acepción parámetrica en virtud de que con su metodología se pueden identificar, obtener, clasificar,
computar, analizar e interpretar los datos de un fenómeno bajo estudio, lo cual es precisamente el
objetivo del análisis de datos, ya que con este procedimiento se logra caracterizarlo, es decir,
destacar sus aspectos relevantes para actuar tomando decisiones correctas y oportunas sobre el
fenómeno en estudio.

Entre las medidas de tendencia central se indica que las más usadas son la media aritmética, la media
armónica, la media geométrica, la mediana, el centro recorrido y la moda.

Al respecto, su representación simbólica para poblaciones se utilizará letras del alfabeto griego y
para muestras, las del alfabeto latino.

II.5.1.1 La Media Aritmética

Conforme a lo anterior la media aritmética muestral es representada con el símbolo 𝑥̅ y en una


población el símbolo es con la letra μ. La media aritmética se define como un punto de equilibrio (
Lind et al, 2005: 59) por ello es el valor representativo o centro de gravedad de un conjunto de
datos cuantitativos. Para obtenerla se parte de la afirmación de que si a cada término se le da ese
valor, resulta una suma igual a la de los valores de los términos de la sucesión dada. Para corroborar
lo anterior a continuación se pone el siguiente

Ejemplo 7: Sean los términos 1, 5, 2, 9, 7, 8, 5, 3; que, como puede observarse, son datos no
agrupados. Así, con base en su definición, si su valor resulta ser 5 con el que se comprueba lo antes
dicho:

1 + 5 + 2 + 9 + 7 + 8 + 5 + 3 = 40, se obtiene la

40
𝑥̅ = =5
8

Si se sustituye el valor de cada término por 𝑥̅ , se observa que

5 + 5 + 5 + 5 + 5 + 5 + 5 + 5 = 40

61
Esta verificación sirve de referencia para obtenerla. Así, generalizando a través del algebra, se dice
que la media aritmética se calcula de la siguiente manera: se suman todos y cada uno de los valores
de los datos; esta suma se divide por el número total de datos sumados. Ejemplo; en una muestra,
sea la sucesión cuyos términos son las siguientes (𝑥𝑖) :

𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑛 donde i= 1,2,3,……n

Designando con 𝑋̅ a la media aritmética se obtiene la siguiente igualdad:

𝑥̅ + 𝑥̅ + 𝑥̅ + 𝑥̅ + 𝑥̅ … + 𝑥̅ = 𝑥1 + 𝑥2 + 𝑥3 … + 𝑥𝑛

Al respecto, lo anterior se expresa así para una serie simple:

𝑛𝑥̅ = 𝑥1 + 𝑥2 + 𝑥3 + ⋯ + 𝑥𝑛

∑𝑛
𝑖=1 𝑥𝑖
Despejando la igualdad anterior se obtiene la media aritmética: 𝑥̅ = 𝑛
, en otras palabras,

𝑥1 + 𝑥2 + 𝑥3 + ⋯ + 𝑥𝑛
𝑥̅ =
𝑛
Con base a esta demostración también se puede obtener la media aritmética de una sucesión de
frecuencias clasificadas.

Para una sucesión de frecuencias en una muestra la media aritmética está dada por:
∑𝑛𝑖=1 𝑥𝑖 𝐹𝑖
𝑥̅ =
𝑛
∑𝑁
𝑖=1 𝑥𝑖 𝐹𝑖
Para una población: μ= 𝑁

Donde Fi indica la frecuencia con que aparece cada término, donde i = 1,2,…, n para la muestra. Para
la población i toma valores hasta N.

Igualmente, para una serie de intervalos de clases y frecuencias, en una muestra:


∑𝑛𝑖=1(𝑃𝑀𝑖)𝐹𝑖
𝑥̅ =
𝑛

En una población, la fórmula sufre una transformación al sustituir el valor de Xi por la marca de clase
correspondiente de cada intervalo, que se constituye en una constante que es afectada por su
∑𝑁
𝑖=1(𝑃𝑀𝑖) 𝐹𝑖
correspondiente frecuencia, que es la que la pondera: μ= 𝑁

Donde PM indica el punto medio del intervalo de la clase.

62
Propiedades de la Media Aritmética

1. La suma algebraica de las desviaciones de un conjunto de términos con respecto a su media


aritmética es igual a cero.

Demostración algebraica

∑(𝑥𝑖 − 𝑥̅ ) = ∑ 𝑥𝑖 − ∑ 𝑥̅ = ∑ 𝑥𝑖 − 𝑛𝑥̅ = 𝑛𝑥̅ − 𝑛𝑥̅ = 0

Ejemplo: Si se tienen los siguientes datos 8, 3, 5, 10, 12.

∑ 𝑥𝑖 38
Se calcula su media 𝑥̅ = = = 7.6
𝑛 5

Así: Desviaciones = (8 − 7.6) + (3 − 7.6) + (5 − 7.6) + (10 − 7.6) + (12 − 7.6) = 0

= 0.4 − 4.6 − 2.6 + 2.4 + 4.4 = 0

2. La suma de los cuadrados de las desviaciones de un conjunto de términos xi de cualquier número


A, no es cero pero es un mínimo si y sólo si

𝐴 = 𝑥̅
Demostración.
∑(𝑥𝑖 − 𝐴)2 = 𝑄(𝑥1 , 𝑥2 , … 𝑋𝑛 ; 𝐴)

Tomando la derivada parcial de Q respecto a A se tiene:


𝑑𝑄
= −2 ∑[(𝑥𝑖 − 𝐴)] = − 2 [∑ 𝑥𝑖 − 𝐴]
𝑑𝐴
1
∑ 𝑥𝑖 − 𝑛𝐴 = 0 → 𝐴 = ∑ 𝑥𝑖 = 𝑥̅
𝑛

Esta expresión indica que la suma tiene un mínimo ↔ 𝐴 = 𝑥̅

Ejemplo: sean los términos 3, 4, 6, 8, 7.

28
𝑥̅ = ∴ 𝑥̅ = 5.6
5

 Así, cuando 𝐴 < 𝑥̅ ; 𝐴=5

Se tiene
= (3 − 5)2 + (4 − 5)2 + (6 − 5)2 + (8 − 5)2 + (7 − 5)2
= 4 + 1 + 1 + 9 + 4 = 19

 Cuando 𝐴 > 𝑥̅ ; 𝐴 = 6
63
Se tiene
= (3 − 6)2 + (4 − 6)2 + (6 − 6)2 + (8 − 6)2 + (7 − 6)2
= 9 + 4 + 0 + 4 + 1 = 18

 Cuando A x ; A = 5.6

= (3 − 5.6)2 + (4 − 5.6)2 + (6 − 5.6)2 + (8 − 5.6)2 + (7 − 5.6)2


= (−2.6)2 + (−1.6)2 + (0.4)2 + (2.4)2 + (1.4)2
= 6.76 + 2.56 + 0.16 + 5.76 + 1.96 = 17.20

Conforme a lo anterior se confirma que el valor mínimo (17.20) sólo se obtiene para el valor de A=
5.6, ya que las otras sumas son mayores: 18 19, respectivamente.

3. El promedio aritmético por el número de términos es igual a la suma de los valores de los
términos.

Demostración.
1
Como 𝑥̅ = 𝑛 ∑ 𝑥𝑖 → 𝑛𝑥̅ = ∑ 𝑥𝑖
𝑛𝑥̅ = 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛
𝑛𝑥̅ = ∑𝑛𝑖=1 𝑥𝑖

Ejemplo, si los términos de la serie son: 3, 5, 6, 4, 2.

20
𝑥̅ = =4 𝑛=5
5

Se tiene: 4(5) = 3 + 5 + 6 + 4 + 2
20 = 20

Ventajas de la media aritmética

1. Su cálculo es sencillo.
2. Con su valor y el número de términos se puede calcular la suma de todos los valores de los
términos.
3. Puede calcularse conociendo solamente la suma y el número de todos los términos de la
serie.
Desventajas de la media aritmética

1. El valor de la media aritmética es afectada por los valores extremos de la serie.


2. Para su cálculo se requiere conocer los valores de todos los términos que integran la serie de
datos del fenómeno. Por lo que se dificulta su cálculo en distribuciones de clases abiertas.

64
Mediana (Md)

Se define como el valor central que divide una distribución de datos en dos partes iguales, siempre
y cuando los datos estén ordenados en forma creciente o decreciente.

Así, para localizar la mediana con datos discretos se utiliza la fórmula siguiente en el caso de una
serie simple, si los datos son:

1, 2, 3, 4, 5, entonces con base en la definición se tiene que el término 3 contiene a la mediana, que
en este caso su valor coincide con el 3.

𝑀𝑑 = 𝑛 + 1/2 = 5+1/2=3

En el caso de una serie de frecuencias

Tabla II.34
Cálculo de Md en una serie de frecuencias
𝒙𝒊 𝑭𝒊 𝑭𝒊 Acumulada
2 5 5
3 6 11
4 3 14
5 3 17
Total 17
Fuente: Elaboración propia con datos hipotéticos

Pasos:
∑ 𝐹𝑖 +1
1. No. de orden o términos = 2

17 + 1 18
𝑁𝑜 = = =9
2 2
2. Indicando que el término noveno es el que contiene a la mediana. Para conocer el valor de
la mediana se acumularán las frecuencias hasta encontrar el número 9 que corresponde al
término 3, por consiguiente la 𝑀𝑑 = 3.

Lo anterior se puede comprobar abriendo la serie de frecuencias en una serie simple, esto es: 2, 2,
2, 2, 2, 3, 3, 3, 3, 3, 3, 4, 4, 4, 5, 5, 5; así, si 𝑁𝑜 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑜𝑟𝑑𝑒𝑛 𝑑𝑒 𝑙𝑎 𝑀𝑒𝑑𝑖𝑎𝑛𝑎 = 𝑛 +
18
1/2 = 17 + 1/2 = 2
= 9, entonces la Md = 3, que es el término que divide a la serie en dos partes
iguales..

Ejemplo del cálculo de Md en una serie de intervalos de clases y frecuencias:

Para obtener la Md a partir de una serie de intervalos de clases y frecuencias se usa la fórmula:
𝑛
−𝐶
𝑀𝑑 = 𝐿𝑖 + 2 (𝑖)
𝐹𝑖
Donde:
65
𝑀𝑑 = 𝑀𝑒𝑑𝑖𝑎𝑛𝑎
𝐿𝑖 = 𝐿í𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑞𝑢𝑒 𝑐𝑜𝑛𝑡𝑖𝑒𝑛𝑒 𝑎 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎𝑛𝑎;
n = Número de términos o s𝑢𝑚𝑎 𝑑𝑒 𝑙𝑎𝑠 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎𝑠;
𝐶 = 𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑐𝑢𝑚𝑢𝑙𝑎𝑑𝑎 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟 𝑎 𝑙𝑎 𝑞𝑢𝑒 𝑐𝑜𝑛𝑡𝑖𝑒𝑛𝑒 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎𝑛𝑎.
𝐹𝑖 = 𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑞𝑢𝑒 𝑡𝑖𝑒𝑛𝑒 𝑎 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎𝑛𝑎.
𝑖 = 𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑞𝑢𝑒 𝑐𝑜𝑛𝑡𝑖𝑒𝑛𝑒 𝑙𝑎 𝑀𝑑.

Así, sean los datos:

Tabla II.35
Tabulaciones para obtener Md en una serie de clases y frecuencias
Clases 𝑃𝑀𝑖 𝐹𝑖 𝑃𝑀𝑖 *𝐹𝑖 𝐹𝑖 − 𝑚𝑒𝑑𝑖𝑎 𝐹𝑖 𝐴𝐶
1 y menos de 3 2 5 10 0.07 5
3 y menos de 5 4 2 8 -3.93 7
5 y menos de 7 6 4 24 -1.93 11
7 y menos de 9 8 4 32 -1.93 15
Total 15 74
Fuente: Investigación directa con datos hipotéticos

Pasos:
∑ 𝐹𝑖 +1 15+1
1. Se obtiene el número de orden que contiene a Md 𝑁𝑜 = 2
= 2
=8

8 es el término que contiene a Md, ¿Cuál es su valor?

Respuesta: se interpola con la siguiente fórmula:

2. Acumulando 𝐹𝑖 se observa que el valor de Md está en la tercera clase: 5 y menos de 7.

15
−7 7.5 − 7
𝑀𝑑 = 5 + 2 (2) = 5 + (2) = 5 + 0.125 (2) = 5 + 0.25 = 5.25
4 4

Obtención de la mediana por el método gráfico: ojiva

Se obtiene a partir de la ojiva, ordenando los datos con base a "menor de" "mayor de" o "más de".
Si se ordenan los datos con base a "menor de" se obtiene lo siguiente:

Tabla II.36
Tabulaciones para obtener Md para una serie de clases y frecuencia
Clase 𝐹𝑖 Acumulada
Menos de 1 0
Menos de 3 5
Menos de 5 7
Menos de 7 11
Menos de 9 15
Fuente: Investigación directa con datos hipotéticos

66
Gráfica II.10
Ojiva de la distribución Tabla II.26
Curva de frecuencias acumuladas
20 15

Frecuencia acumula
15 11
10 7
5
5 0
0
Menos de 1 Menos de 3 Menos de 5 Menos de 7 Menos de 9
Clase

Fuente: Investigación directa con datos hipotéticos.

Md = 5.255

Se obtuvo haciendo los siguientes pasos:

1. Se calcula el número de orden, el cual es 8 que es el término que contiene a la mediana,


mismo que se localiza en el eje de las “y”, correspondiente a las “frecuencias acumuladas”,
en torno al cual se traza una línea que al cruzar el eje de las abscisas se baja hasta cruzar
dicho eje; al hacerlo se observa que la Md está en el punto 5.25, luego la Md = 5.25.

II.5.1.2 Moda (Mo)

La moda se define como el valor de máxima frecuencia o dicho en otras palabras, la moda es el
término que más aparece o se repite en una distribución de datos de un fenómeno en estudio. Se
utilizará para representarla al símbolo Mo.

Ejemplo 9:

En una serie Simple:

Datos: 1, 2, 2, 2, 3, 4.
Mo = 2 porque es el término que más se repite.

Ejemplo para una serie de frecuencias:

5
En la gráfica II.6 se muestra el punto Md, con un valor de 5, esto se debe a que Excel redondea la cifra, no
permite ajustar el gráfico.

67
Tabla II.37
Tabulaciones para obtener Mo
𝒙𝒊 10 11 12 13
𝑭𝒊 6 40 2 1
Fuente: Investigación directa con datos hipotéticos.

Aquí Mo = 11 porque es el término que más aparece, en este caso 40 veces.

En el caso de una serie de intervalos de clases y frecuencias, como la siguiente se debe de calcular
las marcas de clase y la moda se puede obtener calculando la marca de clase de máxima frecuencia.
A este método se le denomina “corto”. También se puede usar la fórmula de interpolación que se
describe a continuación:

Tabla II.38
Tabulaciones para obtener Mo
Clases 𝐹𝑖
1 y menos de 3 5
3 y menos de 5 2
5 y menos de 7 4
7 y menos de 9 4
Total 15
Fuente: Investigación directa con datos hipotéticos.

Partiendo de la definición de Mo, se observa que Mo está contenida en la clase "1 y menos de 3".
Su valor exacto se determina con la fórmula de interpolación siguiente:

𝑑1
𝑀𝑜 = 𝐿𝑖 + (𝑖)
𝑑1 + 𝑑2
Donde:

Mo= Moda

𝐿𝑖 = 𝐿í𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑞𝑢𝑒 𝑐𝑜𝑛𝑡𝑖𝑒𝑛𝑒 𝑎 𝑀𝑜


𝑑1 = 𝑓𝑚 − 𝑓1
𝑑2 = 𝑓𝑚 − 𝑓2
𝑓𝑚 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑞𝑢𝑒 𝑐𝑜𝑛𝑡𝑖𝑒𝑛𝑒 𝑎 𝑀𝑜
𝑓1 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟 𝑞𝑢𝑒 𝑐𝑜𝑛𝑡𝑖𝑒𝑛𝑒 𝑎 𝑙𝑎 𝑀𝑜
𝑓2 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 𝑞𝑢𝑒 𝑐𝑜𝑛𝑡𝑖𝑒𝑛𝑒 𝑎 𝑙𝑎 𝑀𝑜
𝑖 = 𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜

Luego:
5
𝑀𝑜 = 1 + 5+3 (2) 𝑑1 = 5 − 0 = 5
10
𝑀𝑜 = 1 + 8
= 2.25 𝑑1 = 5 − 2 = 3
𝑀𝑜 = 2.25
Multimodas:

68
Hay ocasiones en que en un conjunto de datos o en una distribución de datos de intervalos de clases
y frecuencias aparecen dos valores de máxima repetición a las que se conoce como bimodal; cuando
aparecen más de dos, se considerará como una distribución multimodal. Esto en la práctica se
presenta en el análisis empresarial y particularmente en casos en mercadotecnia. En estos casos la
moda no debe ser considerada como medida de tendencia central aun cuando despierte interés en el
investigado con fines económicos más que estadísticos. Esta medida es considerada por excelencia
para el estudio de poblaciones o muestras de naturaleza discreta.

Uno de los procedimientos alternos o métodos para identificar las modas es ver que la frecuencia
que le antecede sea menor y la que le siga también. Este procedimiento se aplica cuando el
investigador desea identificar los valores más representativos de un arreglo numérico. Así, sean los
datos:

Tabla II.39
Obtención de Mo usando frecuencias
𝒙𝒊 2 3 4 5 6 7 8 9
𝑭𝒊 1 10 3 4 7 2 3 1
Fuente: Investigación directa con datos hipotéticos.

Aplicando el criterio antes descrito, se obtiene:

𝑀𝑜 = 3 𝑀𝑜 = 6 𝑀𝑜 = 8

En este caso se obtiene una situación multimodal, que, se reitera, en algunas situaciones es útil
conocerla.

Centro recorrido

Esta medida es uno de los promedios generalmente omitidos u olvidados por los estudiosos de la
estadística por la simplicidad de su cálculo pero desdeñando la utilidad que dicho promedio tiene.
Para representarlo se utilizan las letras CR y se define como el promedio aritmético de los valores
extremos de un conjunto de datos. Su fórmula es:

CR= X mínima +X máxima/ 2

Este valor es igual a la media aritmética, a la moda y a la mediana para distribuciones normales o
simétricas.

Ejemplo: sean los términos 1,2,3, 4, y 5.

X mínima = 1; X máxima = 5: 1+5=6 /2= 3. Dicho valor es igual a la media aritmética y a la


mediana.

69
II.5.1.2.1 Relación entre la media aritmética, la moda y la mediana. Planteamiento inicial

Esta relación se establece con el fin de conocer su calidad o robustez como estimadores de los
datos, observaciones o mediciones de una distribución determinada (Kazmier: 1967), la cual se
gesta y expresa de acuerdo con los criterios matemático y empírico que se utilizarán. Así, primero
se describirá el criterio matemático y la forma en que es satisfecho por cada una de estas tres
medidas de tendencia central y, posteriormente, se verá cómo sus valores difieren sistemáticamente
entre sí debido a diversas distribuciones que adoptan los datos. En este contexto se dice que el
criterio matemático para determinar un “buen promedio” que satisface la media se expresa como
Ne= mínimo, el que puede interpretarse así: cuando se usa la media como el mejor estimador del
valor de cada medición en una distribución de mediciones, el número (N) de errores (e) es un
mínimo. En otras palabras, se dice que la media es la mejor medida de tendencia central porque
produce el menor número de errores, cuando se usa como el mejor estimador de cada medición en
un grupo o distribución de mediciones u observaciones.

Por otra parte, si ahora se toma como criterio la magnitud de cada error dentro del criterio
matemático, se dice que si se denomina a “𝑒” como la suma de los errores sin considerar su
dirección o signo algebraico, y si se desea minimizar la suma de errores en que se incurre al estimar
el valor de cada medición u observación, el criterio matemático se expresa como 𝛴𝑒 = 𝑚í𝑛𝑖𝑚𝑜,
que sólo la media lo satisface. Lo anterior significa que si se usa otra medida de tendencia central
para calcular cada estimación, la suma de los valores absolutos de los errores sería mayor que la
suma de los errores obtenidos cuando se usa la mediana como estimador.

Ahora bien el tercer criterio que deben satisfacer los “mejores” estimadores, es aquel en que la
suma de errores al cuadrado sea un mínimo, que por cierto, como ya se vio en páginas anteriores,
sólo lo satisface la media aritmética; se representa por 𝛴𝑒 2 = 𝑚í𝑛𝑖𝑚𝑜, que es muy importante en
el análisis estadístico, en especial en el análisis de regresión (relación de asociación o de
causalidad), campo en el que se le conoce como el criterio de “mínimos cuadrados”.

Al utilizar el criterio empírico, se observa que la media aritmética es la más afectada por la adición
de datos en cualquier extremo de la distribución, que ya fue descrita como una desventaja en
páginas anteriores.

Derivado de lo anterior puede decirse que según sea la distribución de los datos es que habrá
distribuciones simétricas de datos, de sesgo positivo y de sesgo negativo, mismas que se estudiará
más adelante con las medidas de asimetría y kúrtosis. Por el momento se dirá que en una
distribución simétrica se obtiene 𝑀𝑜 = 𝑀𝑑 = 𝑥̅ = 𝑐𝑒𝑛𝑡𝑟𝑜 𝑟𝑒𝑐𝑜𝑟𝑟𝑖𝑑𝑜.

Ejemplo: sea la siguiente distribución de datos, mismos que utilizan al número A como referente
para ver la dirección y forma que adopta dicha distribución de los datos de un fenómeno en estudio
y, por consiguiente para demostrar que 𝑀𝑜 = 𝑀𝑑 = 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎 𝑎𝑟𝑖𝑡𝑚é𝑡𝑖𝑐𝑎:

70
Tabla II.40
Ejemplo de las igualdades anteriores.
Clases 𝐹𝑖 𝑃𝑀𝑖 𝑃𝑀𝑖 − 𝐴 𝐹𝑖 (𝑃𝑀𝑖 − 𝐴)
2 y menos de 4 2 3 -4 -8
4 y menos de 6 3 5 -2 -6
6 y menos de 8 5 7 0 0
8 y menos de 10 3 9 2 6
10 y menos de 12 2 11 4 8
Total 15 0 0
Fuente: Investigación directa con datos hipotéticos.

Se establece que si 𝐴 = 7
∑ 𝐹𝑖 ∗ (𝑃𝑀𝑖 − 𝐴) 0
𝑥̅ = 𝐴 + =𝐴+ =7
∑ 𝐹𝑖 15

𝑁 15
2 −𝐶 −5
𝑀𝑑 = 𝐿𝑖 + (𝑖) == 6 + 2 (2) = 7
𝐹𝑖 5

𝑑1 2
𝑀𝑜 = 𝐿𝑖 + (𝑖) = 6 + (2) = 7
𝑑1 + 𝑑2 2+2

𝑀𝑜 = 𝑀𝑑 = 𝑥̅ = 7

Gráfica II.11
Ilustración de un Histograma y Polígono de frecuencias de una
distribución simétrica donde 𝑀𝑜=𝑀𝑑=𝑥 ̅
6
5
Frecuencia

4
3
2
1
1 3 5 7 9 11 13
0
2 y menos de 4 y menos de 6 y menos de 8 y menos de 10 y menos de
4 6 8 10 12
Clase y P.M

Fuente: Investigación directa con datos hipotéticos

Puede concluirse diciendo que la relación entre estas tres medidas de tendencia central es indicativa
de la dirección y extensión del alejamiento de los datos de la distribución, de la simetría.

Con base en lo anterior puede preguntarse, entonces ¿Cuál de las tres representa el mejor “valor
medio”? La respuesta dependerá de si, o no, la distribución está sesgada, así como del uso que se
pretenda dar a ese valor.

71
A continuación se presentan otras dos medidas de tendencia central:

II.5.1.3 Media Geométrica ( Mg )

Su definición (Blalock, 1966:76) la da la fórmula que se obtiene del siguiente planteamiento. “Es
un valor tal, que multiplicado ese valor tantas veces como el número de términos, resulta un
producto igual al producto de los valores de los términos de la serie dada”. En el caso de datos de
una serie simple:

𝑀𝑔, 𝑀𝑔, 𝑀𝑔, 𝑀𝑔, … , 𝑀𝑔 = 𝑥1 , 𝑥2 , … , 𝑥𝑛

Luego 𝑀𝑔𝑛 = 𝑥1 , 𝑥2 , … , 𝑥𝑛

Despejando 𝑀𝑔 = 𝑛√𝑥1 ∗ 𝑥2 ∗ 𝑥3 ∗ … ∗ 𝑥𝑛

Igualdad que dice: el promedio geométrico de una serie simple es igual a la raíz que tiene como
índice el número de términos, del producto de los valores de los términos de la serie.

Sea el ejemplo: 3 ∗ 6 ∗ 12 ∗ 24 ∗ 48 = 248,832

Como 𝑀𝑔 = 5√248,832 = 12

Luego entonces por definición: 12 ∗ 12 ∗ 12 ∗ 12 ∗ 12 = 248,832

También 3 ∗ 6 ∗ 12 ∗ 24 ∗ 48 = 248.832 = 125 = Mg n

Ahora bien, si se sabe que:

𝑀𝑔 = 𝑛√𝑥1 ∗ 𝑥2 ∗ 𝑥3 ∗ … ∗ 𝑥𝑛

Elevando a la potencia " 𝑛 " ambos miembros

𝑀𝑔𝑛 = 𝑥1 ∗ 𝑥2∗ … ∗ 𝑥𝑛
Conviene decir que se usan logaritmos para simplificar la magnitud de las cifras cuando dichos
cálculos se realizan manualmente con el auxilio de una calculadora simple. No obstante desde el
punto de vista pedagógico, es conveniente que los alumnos tengan este conocimiento, que les
permite poder desarrollar estos cálculos en ausencia de las nuevas tecnologías.
Tomando logaritmo
𝑛 ∗ log(𝑀𝑔) = log 𝑥1 + log 𝑥2 + ⋯ log 𝑥𝑛
Luego entonces:
∑ log 𝑥𝑖
log(𝑀𝑔) =
𝑛
∑ log 𝑥𝑖
Así, la Mg= Antilogaritmo de 𝑛

Fórmula usual para el cálculo del promedio geométrico.


72
Ejemplo de su cálculo en una serie simple

∑ log 𝑥𝑖
log(𝑀𝑔) =
𝑛

Tabla II.41
Tabulaciones
𝑥𝑖 Log 𝑥𝑖
1 0
20 1.30103
7 0.8451
30 1.47712
18 1.25527
Total 4.87852
Fuente: Investigación directa con datos hipotéticos.

Sustituyendo
4.87852
𝐿𝑜𝑔 𝑀𝑔 = = 0.975704
5

Antilog de 0.975704 = 9.0303

Luego Mg. = 9.0303

En virtud de que muchos estudiantes olvidan el cálculo del antilogaritmo, es prudente mostrar
enseguida la manera como se obtiene:

Cálculo del antilogaritmo:

Si se sabe que el logaritmo de un número (𝑥) es el exponente (𝑛) al cual debe elevarse la base (𝑏)
para obtener dicho número (𝑥), entonces, por ejemplo si se tiene que LOG10 1000=3 porque 1000=
103; luego entonces el antilogaritmo10 de 3 = 103.

Con literales: 𝐿𝑂𝐺𝑎 𝑋 = 𝑌 sí y sólo sí 𝑎𝑌 = 𝑋 donde 𝑎 ≥ 0 y 𝑎 ≠ 1, luego el 𝑎𝑛𝑡𝑖𝑙𝑜𝑔𝑎𝑟𝑖𝑡𝑚𝑜𝑎 de


𝑌 = 𝑋 sí y sólo si 𝑎𝑌 = 𝑋.

Con números, ejemplo: si 𝐿𝑂𝐺2 8 = 3 ; el 𝑎𝑛𝑡𝑖𝑙𝑜𝑔𝑎𝑟𝑖𝑡𝑚𝑜𝑎 de 3 = 23 = 8.

Generalizando puede decirse que su cálculo es el siguiente:

Para una serie de frecuencias.


∑ 𝐹𝑖 ∗ log 𝑥𝑖
log(𝑀𝑔) =
∑ 𝐹𝑖
Para una serie de clases y frecuencias:
∑ 𝐹𝑖 ∗ log 𝑃𝑀
log(𝑀𝑔) =
∑ 𝐹𝑖

73
Para fines prácticos es preferible calcular el logaritmo de la media geométrica y luego el
antilogaritmo de ésta.

Cálculo de Mg

Tabla II.42
Tabulaciones en una serie de frecuencias
𝑥𝑖 𝐹𝑖 Log 𝑥𝑖 𝐹𝑖 Log 𝑥𝑖
12 3 1.0792 3.2375
10 6 1 6
15 9 1.1761 10.5848
20 12 1.301 15.6124
22 7 1.3424 9.397
Total 37 44.8317
Fuente: Investigación directa con datos hipotéticos.

∑ 𝐹𝑖 ∗ log 𝑥𝑖
log(𝑀𝑔) =
∑ 𝐹𝑖
44.8313
log(𝑀𝑔) = = 1.2116567
37

Antilog de 1.2116567 = 16.281


𝑀𝑔 = 16.28
Para datos agrupados en intervalos de clases y frecuencias, la fórmula se transforma utilizando en
lugar de xi la marca de clase o punto medio como se indica en la siguiente fórmula.

Cuadro II.43
Tabulaciones en una serie de clases y frecuencias
Clases 𝐹𝑖 𝑃𝑀𝑖 Log 𝑃𝑀𝑖 𝐹𝑖 Log 𝑃𝑀𝑖
De 10 a menos de 20 5 15 1.1761 5.8805
De 20 a menos de 30 6 25 1.3979 8.3876
De 30 a menos de 40 7 35 1.5441 10.8085
Fuente: Investigación directa con datos hipotéticos.

∑ 𝐹𝑖 ∗ log 𝑃𝑀𝑖 38.3022


log(𝑀𝑔) = = = 1.4731615
∑ 𝐹𝑖 26

Antilogaritmo de 1.4731615 = 29.72


Mg = 29.72

74
II.5.1.4 Media Armónica (Ma)

Esta es otra medida de tendencia central que se determina dividiendo el número total de valores por
la suma total de los recíprocos de Xi. También la Media Armónica es igual al número de sus
términos divididos entre la sumas de los recíprocos de ellos.
𝑛
𝑀𝑎 =
1

𝑥𝑖
Donde:
𝑛 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠
𝑥𝑖 = 𝑂𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠 𝑖 − é𝑠𝑖𝑚𝑎

Por consiguiente su cálculo en una serie simple de datos se efectúa de la siguiente manera:

Ejemplo: Para una serie simple de datos sean los cinco términos de la serie: 1, 2, 3, 4, 5

𝑛 5
𝑀𝑎 = = = 2.192
1 2.28

𝑥𝑖

Tabla II.44
Tabulaciones para obtener Ma
𝒙𝒊 1/𝒙𝒊
1 1
2 0.5
3 0.3
4 0.3
5 0.2
15 2.28
Fuente: Investigación directa con datos hipotéticos.

Cálculo de Ma en una serie simple de frecuencias:

Pasos:

1. Se calculan los recíprocos de los términos;


2. Dichos valores se multiplican por su correspondiente frecuencia;
3. La suma de dicho producto dividen a la suma total de frecuencias.

Tabla II.45
Tabulaciones para obtener 𝑀𝑎
𝑥𝑖 𝐹𝑖 1/𝑥𝑖 𝐹𝑖 ∗ (1/𝑥𝑖 )
3 1 0.33 0.33
4 2 0.25 0.5
2 3 0.5 1.5
5 4 0.2 0.8
Total 10 3.13
Fuente: Investigación directa con datos hipotéticos.
75
𝑛 ∑ 𝐹𝑖 10
𝑀𝑎 = = 𝑀𝑎 = = 3.194
1 𝐹 3.13
∑ 𝑓 ∑ 𝑖
𝑥𝑖 𝑥𝑖
Ahora, en una serie de intervalos de clases y frecuencias:

En este caso los pasos son:

1. Se calculan las marcas de clase o puntos medios;


2. Se determinan los recíprocos de dichas marcas de clase para cada intervalo;
3. Se multiplican los recíprocos de cada marca de clase por su frecuencia correspondiente;
4. La suma total de dichos productos del punto anterior dividen a la suma total de frecuencias.

Tabla II.46
Tabulaciones para obtener Ma
Clases 𝐹𝑖 𝑃𝑀𝑖 𝐹𝑖 /𝑃𝑀𝑖
De 1 a 2 2 1.5 1.33
De más de 2 a 4 3 3 1
De más de 4 a 6 4 5 0.8
De más de 6 a 8 1 7 0.14
Total 10 3.27
Fuente: Investigación directa con datos hipotéticos.

∑ 𝐹𝑖 ∑ 𝐹𝑖 10
𝑀𝑎 = = 𝑀𝑎 = = 3.05
𝐹𝑖 1 3.27
∑ ∑
𝑃𝑀𝑖 𝑃𝑀𝑖 𝐹𝑖

Sugerencias: es conveniente aplicarla en el cálculo de tasas de crecimiento o cuando se manejan


fenómenos como la velocidad, es decir, con un crecimiento gradual.

II.5.1.5 Relación entre las medidas de tendencia central. Planteamientos complementarios

Estas medidas también llamadas de posición guardan una estrecha relación entre ellas sobre todo
cuando se trata de utilizar modelos estadísticos como la distribución normal donde la moda, la
mediana y el centro recorrido son iguales a su media aritmética, con lo cual se determina la
existencia de simetría. Así mismo, cuando dichas medidas difieren, nos indican la existencia de
modelos asimétricos, ya sean de sesgo positivo o negativo. Igualmente, son la base para la
determinación de las fórmulas de asimetría creadas por Karl Pearson, quien utiliza la relación del
promedio aritmético con la moda para su primer coeficiente y con la mediana para su segundo
coeficiente de asimetría.

Por lo que respecta a la media geométrica y la armónica se presenta una relación interesante al ser la
media aritmética mayor que la media geométrica y esta as u vez, mayor que la media armónica,
relación que tiene su excepción sólo cuando todos los valores sobre las cuales se calculan sean
iguales.

76
Al respecto, es importante recordar que una vez que se han clasificado los datos, el analista detecta
algunos aspectos fundamentales de las series estadísticas; sin embargo enseguida es aconsejable
calcularles varias medidas de tendencia central con el fin que caractericen estadísticamente mejor
las distribuciones de datos que se están estudiando. Así por ejemplo, una vez obtenidas la media
aritmética, la mediana y la moda de la distribución de los datos de un fenómeno en estudio, éstas se
grafican e identifican las relaciones siguientes entre ellas. Dentro de las relaciones conviene
enfatizar:

a) Cuando X = Mo = Md, se dice que la distribución de los datos es simétrica, en cuyo caso las
tres toman el mismo valor y esta relación entre ellas indica que igual número de datos (50%) se
distribuye a la izquierda como a la derecha del valor central (en que X = Mo = Md) de la serie
estadística. Dicha relación gráficamente se ve así:

Gráfica II.12
Distribución Simétrica

Fuente: Investigación directa con datos hipotéticos.

b) Cuando sus valores son distintos ello indica que los datos no se distribuyen simétricamente en
torno al centro de la curva e indica que la mayoría de ellos se distribuye o sesga ya sea hacia la
izquierda o a la derecha del valor central de la serie. Cuando 𝑀𝑜 < 𝑀𝑑 < 𝑥̅ se habla de una curva
con sesgo positivo, lo cual indica que la mayoría de los datos se localizan a la derecha de la moda,
que el valor de la mediana es mayor y que la media aritmética toma el mayor valor porque es
afectada por los valores de los términos extremos de la serie, en este caso los del lado derecho que
ostentan los valores más altos de la serie, tal que su dirección gráficamente es la siguiente:

Gráfica II.13
Sesgo positivo

𝑴𝒐 < 𝑴𝒅 < 𝒙
̅

77
c) Cuando se detecta la siguiente relación 𝑥̅ < 𝑀𝑑 < 𝑀𝑜 se dice que los datos tienen un sesgo
negativo lo cual revela que la mayoría de los datos de la serie se localizan en el lado izquierdo de la
curva y que por esa razón la mediana ahora tiene un valor menor que el de la moda y, la media
aritmética, es la que menos vale dado que al ser afectada por los valores de los términos extremos,
estos, aquí los de la izquierda, tienen los valores más pequeños. Gráficamente:

Gráfica II.14

Sesgo negativo

̅ < 𝑴𝒅 < 𝑴𝒐
𝒙

Resumen de estas relaciones: La importancia de estas relaciones radica en que revelan que los
valores que toman en los diferentes puntos de la curva, gráficamente constatan la definición y valor
de cada una de ellas. Por ejemplo, la Moda en una distribución de datos con sesgo negativo toma el
valor más alto porque ella ha sido definida como el valor de máxima frecuencia; en este caso el de
la mediana es menor pero sigue siendo de acuerdo con su definición, el valor central de la serie y, la
media aritmética, todavía es aún menor que las dos anteriores, debido a que su valor es
influenciado significativamente por los de los términos de la izquierda de la serie estadística, de
manera que de acuerdo con su definición: el valor representativo de todos los datos es la media
aritmética, efectivamente ello se constata gráficamente.

d) Otras relaciones importantes que existen entre medidas de tendencia central.

También es conveniente detectar la relación que se establece entre la media aritmética, la


geométrica y la armónica, porque, además de corroborar gráficamente la definición de cada una de
ellas, cuando se obtienen sus valores estos constatan que sus cálculos respectivos han sido
correctos si 𝑋̅ > 𝑀𝑔 > 𝑀𝑎.

Cabe resaltar que la media aritmética, la media geométrica y la armónica se calculan con fórmulas
algebraicas, lo que facilita su manejo conforme las propiedades del algebra, a diferencia de la moda
y la mediana que son calculadas con fórmulas de interpolación cuando los datos están clasificados
en intervalos de clases y frecuencias.

78
Grafica II.15
Relación X > Mg > Ma.

̅
𝑴𝒂 < 𝑴𝒈 < 𝑿

II.5.1.5.1 Prácticas I,II y III

Práctica I

Nombre:__________________________________________Grupo:_________

Problema 1. Construya usted una serie simple con los siguientes datos, que
representan la estatura de 20 estudiantes de la Facultad de Economía.

1.67, 1.72, 1.54, 1.57, 1.61, 1.61, 1.67, 1.54, 1.57, 1.72

1.85, 1.81, 1.54, 1.61, 1.81, 1.67, 1.81, 1.67, 1.61, 1.67

Problema 2. Con los datos siguientes que representan el número de hijos de 60


familias campesinas, construya una serie de frecuencias.

4 5 8 7 6 7 8 9 14 15
7 9 10 8 6 11 0 10 1 3
12 16 12 1 15 15 4 13 0 6
2 3 4 5 16 5 11 6 9 12
9 13 6 10 18 4 14 8 9 13
11 6 8 12 4 20 17 10 7 6

a) A partir de los datos anteriores, señale cuál es el número de hijos que se presentan con
mayor frecuencia en las familias campesinas y emita su opinión al respecto.

b) Considerando que uno de los objetivos del pasado régimen era el control de la natalidad,
y se pensaba que como resultado de esa campaña, el promedio de hijos entre las familias
sería menos de 5, considere la información y señale qué porcentaje de ellas no cumplieron
con el objetivo. Realice un análisis al respecto.

79
Práctica II

Problema 1 Los accidentes de trabajo ocurridos en 60 fábricas de la zona industrial de


Tlalnepantla en 2008, están dados en el siguiente cuadro.

No. de Accidentes No. Fabricas


0 a 4 3
5 a 9 6
10 a 14 15
15 a 19 12
20 a 24 10
25 a 29 9
30 a 34 5
60
a) Calcule usted la media aritmética, la media geométrica y la media armónica e
interprete cada uno de estos resultados, asimismo explique la relación que existe entre ellas.

b) Si en la zona industrial de Tlalnepantla existen 1350 fábricas cuantos accidentes


ocurrieron allí durante 1998.

c) Si tomamos esta distribución como un fiel reflejo de la situación que impera en el país
en la actualidad, en la gran mayoría de las industrias, ¿cual debería de ser la política del
Estado en este renglón y porqué?

Problema 2. Para poder garantizar la duración de una determinada marca de llantas, se


realizó una investigación en 100 llantas, con los kilómetros recorridos y se obtuvieron
los siguientes datos.

Miles de kilómetros No. de llantas


de + 25 a 30 18
de + 30 a 35 12
de + 35 a 40 35
de + 40 a 45 20
de + 45 a 50 15
100

a) Determine gráficamente la mediana, por medio de método gráfico de la ojiva

b) Calcule el valor de la mediana y la moda y explique sus resultados.

c) Si el lema de la marca llantera era garantizarlas por mas de 40,000 km, que porcentaje
de la producción no cumple ese requisito.

80
Práctica III.

Problema 1. Las estaturas de un grupo de 40 estudiantes de una escuela secundaria fueron


las siguientes.

1.38 1.64 1.50 1.32 1.44 1.25 1.49 1.57

1.46 1.58 1.40 1.47 1.36 1.48 1.52 1.44

1.68 1.26 1.38 1.76 1.63 1.19 1.54 1.65

1.46 1.73 1.42 1.47 1.35 1.53 1.40 1.35

1.61 1.45 1.35 1.42 1.50 1.56 1.45 1.28

Resuelva:

a) Ordene los datos anteriores en una serie de clases y frecuencias, de acuerdo al método
de Sturges.

b) Construya usted el histograma y el polígono de frecuencias correspondientes.

c) Calcule la media aritmética, la mediana y la moda, explicando la relación que existe


entre estos valores.

Problema 2. De un estudio realizado por la Secretaría de la Reforma Agraria, se


obtuvieron los siguientes datos, relacionados con el número de hectáreas que concentra
cada agricultor en una zona del país.

Hectáreas No. de Agricultores


'0-2 6
3-5 10
6-8 14
9-11 6
12-14 4
15-17 2
18-20 8
50

81
Preguntas.

a) En base a estos datos, explique y compruebe la primera y la segunda propiedad de la


media aritmética.

b) Determine gráficamente y numéricamente si esta es una distribución simétrica; si es


asimétrica ( diga si tiene sesgo positivo o negativo) calculando su media aritmética,
trazando el polígono de frecuencias usando las “fronteras de clase”.

c) ¿Qué significa el hecho de que la serie sea simétrica o asimétrica?

d) Determine el valor de la media geométrica y de la media armónica y verifique que su


relación con la media aritmética es qué ésta es mayor que la geomértica, la cual a su vez es
mayor que la armónica.

e) ¿Cuándo usar una u otra de los cinco medidas de tendencia central? Explique.

82
II.5.1.6 Trabajando con Excel: medidas de tendencia central

Datos no agrupados

Para ejemplificar el tema se utilizarán las siguientes calificaciones de Estadística, tomadas de una
muestra de 30 alumnos, las cuales son:

Tabla II.47
Calificaciones
8 7 10 10 8
9 6 8 10 9
10 10 9 9 10
10 9 5 7 10
6 5 7 9 7
8 9 7 10 8
Fuente: Investigación directa con datos hipotéticos.

MEDIA ARITMÉTICA

Pasos

1. Colocar en la hoja de cálculo los datos anteriores, en esta ocasión desde la celda A1 hasta la
celda E6, tal como se muestra en el siguiente cuadro.

Cuadro II.20
Calificaciones de 30 alumnos en una hoja de cálculo de Excel

Fuente: Investigación directa con datos hipotéticos.

2. Se calcula la media haciendo clic en celda G1 y colocando el cursor en 𝑓𝑥/clic. Luego


aparecerá un cuadro de diálogo: Insertar una función, en el cual se buscará O seleccionar
una categoría/clic. Enseguida selecciona Estadísticas/Clic/. En el cuadro de diálogo de
abajo se busca la función PROMEDIO/clic y se le da Aceptar/clic.

3. En el nuevo cuadro de diálogo: Argumento de función se coloca el cursor en Número1/clic


y con ayuda del mismo cursor se seleccionan todas las celdas que contienen las
calificaciones de los alumnos. Automáticamente en la parte inferior de este nuevo diálogo
aparecerá el resultado, el cual en este caso es de 8.33333333333. No obstante, para finalizar
pon el cursor en Aceptar/clic.
83
Cuadro II.21
Selección de datos para la fórmula PROMEDIO

Fuente: Investigación directa con datos hipotéticos.

4. Como se muestra en el siguiente cuadro, el resultado aparecerá en la celda G1. De modo tal
que el promedio de la calificación de los 30 alumnos de la materia de estadística es de 8.3.

Cuadro II.22
Resultado de la fórmula PROMEDIO

Fuente: Investigación directa con datos hipotéticos.

MEDIANA

Pasos

1. Ahora, para calcular la mediana se posiciona el cursor celda G2/clic y se coloca en 𝑓𝑥/clic.
En el nuevo cuadro de diálogo Insertar una función, en el cual se buscará O seleccionar
una categoría/clic, se selecciona Estadísticas/Clic/. En el cuadro de diálogo de abajo se
busca la función MEDIANA/clic y se le da Aceptar/clic.

2. En el nuevo cuadro de diálogo: Argumentos de función, se coloca el cursor en Número1/clic


y con ayuda del mismo cursor se seleccionan todas las celdas que contienen las

84
calificaciones de los alumnos al igual que se hizo con la función MEDIANA para obtener la
mediana. Para finalizar se busca Aceptar/clic.

Cuadro II.23
Selección de datos para la fórmula MEDIANA

Fuente: Investigación directa con datos hipotéticos.

3. En la celda G3, aparecerá como resultado una mediana de 9 para el caso de las
calificaciones de los 30 alumnos.

MODA
Pasos

1. Se posiciona el cursor celda G3/clic y se coloca en 𝑓𝑥/clic. En el nuevo cuadro de diálogo


Insertar una función, en el cual se buscará O seleccionar una categoría/clic, se selecciona
Estadísticas/Clic/. En el cuadro de diálogo de abajo se busca la función MODA.UNO/clic y
se le da Aceptar/clic.

2. En el nuevo cuadro de diálogo: Argumentos de función, se coloca el cursor en Número1/clic


y con ayuda del mismo cursor se seleccionan todas las celdas que contienen las
calificaciones de los alumnos. Para finalizar se busca Aceptar/clic.

Cuadro II.24
Selección de datos para la fórmula MODA.UNO

Fuente: Investigación directa con datos hipotéticos.

85
3. En la celda G3, aparecerá como resultado que el valor más repetido dentro de las
calificaciones es el de 10.

MEDIA GEOMÉTRICA
Pasos

1. Se posiciona el cursor celda G4/clic y se coloca en 𝑓𝑥/clic. En el nuevo cuadro de diálogo


Insertar una función, en el cual se buscará O seleccionar una categoría/clic, se selecciona
Estadísticas/Clic/. En el cuadro de diálogo de abajo se busca la función MEDIA.GEO/clic y
se le da Aceptar/clic.

2. En el nuevo cuadro de diálogo: Argumentos de función, se coloca el cursor en Número1/clic


y con ayuda del mismo cursor se seleccionan todas las celdas que contienen las
calificaciones de los alumnos. Para finalizar se busca Aceptar/clic.

Cuadro II.25
Selección de datos para la fórmula MEDIA.GEOM

Fuente: Investigación directa con datos hipotéticos.

4. En la celda G4, aparecerá como resultado una media geométerica de 8.1751 de las
calificaciones de los 30 alumnos. Empleando Excel se calcula la Media Armónica,
insertando la función =MEDIA.ARMO, la media armonica que se obtuvo es 7.99.

II.5.2 Medidas de dispersión

Como se recordará, las medidas de tendencia central proporcionan información importante, esta no
es suficiente al no indicar el grado de dispersión o variabilidad que tiene los datos, por lo cual para
el análisis estadístico y sobre todo para su uso en economia es indispensable conoicer qué tanto se
alejan las observaciones respecto a su promedio.Esta información se obtiene con las medidas de
dispersión.

86
II.5.2.1 Rango (𝑹)

La medida de dispersión más sencilla que permite visualizar la variación total del conjunto de datos
es el Rango. Su valor se determina por la diferencia existente entre el mayor y el mínimo de los
valores observados. El símbolo que se utiliza para representarlo es R.

R=Xmáxmo - Xmínimo

Ejemplo para su cálculo, en el caso de una muestra sean los siguientes datos: 2, 3, 4, 5, 6, 7, 8, 9

𝑅𝑎𝑛𝑔𝑜 = 𝑉𝑎𝑙𝑜𝑟 𝑚á𝑥𝑖𝑚𝑜 − 𝑣𝑎𝑙𝑜𝑟 𝑚í𝑛𝑖𝑚𝑜 𝑑𝑒 𝑙𝑎 𝑠𝑒𝑟𝑖𝑒


𝑅𝑎𝑛𝑔𝑜 = 9 − 2 = 7
El Rango también se puede encontrar en los libros de texto con el nombre de Recorrido u otro
nombre, según el autor.

El Rango o Recorrido no refleja en modo alguno la forma de la distribución. y por eso se usa
poco como medida de dispersión. Desviación Media (𝑫𝑴)

Recorrido medio ( RM)

El recorrido medio se considera como la medida de dispersión más simple que se determina por el
promedio de la diferencia del valor máximo menos el valor mínimo ( Rango). Se calcula como X
máximo menos X mínimo entre 2. Esta fórmula con sólo dos datos proporciona un promedio de
variabilidad o dispersión de una distribución de datos.

Para los mismos datos del ejemplo anterior, el recorrido medio sería:

RM= 9-2/2= 3.5

II.5.2.2 Desviación Media /DM)

Importancia: no es la mejor referencia para explicar la dispersión de los datos con respecto a la
media aritmética, ya que no considera las variaciones reales de los datos. Así, cuando la diferencia
entre el dato y la media aritmética es positiva, ello indica que el valor del primero es mayor que el
de la segunda; cuando es negativa, indica que su valor es menor y, cuando es igual a cero significa
que ambos tienen el mismo valor, es decir, hay cero variaciones.

Definición: Se define como la suma de las desviaciones en términos absolutos de los datos que
integran la serie, respecto a la media aritmética, entre el número de términos de la serie.

Observación: Esto se debe a que la suma de las desviaciones respecto de la media aritmética
siempre es cero, para evitarlo se utilizan valores absolutos.

Sea DM la desviación media, su fórmulas es, en el caso de muestras:


∑|𝑥𝑖 −𝑥̅ |
Serie simple 𝐷𝑀 = 𝑛

87
∑ 𝐹𝑖 |𝑥𝑖 −𝑥̅ |
Serie simple de frecuencias 𝐷𝑀 = ∑ 𝐹𝑖

∑ 𝐹𝑖 |𝑃𝑀𝑖 −𝑥̅ |
Serie de intervalos de clases y frecuencias 𝐷𝑀 = ∑ 𝐹𝑖

Ejemplo de su cálculo en una serie simple:

Los salarios mensuales en miles de pesos de siete trabajadores son:

Tabla II.48
Salarios de 7 trabajadores
𝑥𝑖 |𝑥𝑖 − 𝑥̅ |
22 2
23 1
23 1
24 0
25 1
26 2
27 3
170 10
Fuente: Investigación directa con datos hipotéticos.

Donde:

𝑖 = 22, 23, . . . , 27
170
𝑥̅ = 7
= 24 mil pesos al mes

∑|𝑥𝑖 − 𝑥̅ |
𝐷𝑀 =
𝑛
10
𝐷𝑀 = = 1.42
7
Interpretación: Conforme a los valores extremos la variación se halla entre 22 mil y 27 mil pesos;
con base en la desviación media, el salario promedio de 24 mil pesos y tiene una variación media
de 1.42 miles de pesos.

Serie de frecuencias:

88
Tabla II.49
Serie de frecuencias
𝑥𝑖 |𝑥𝑖 − 𝑥̅ | 𝐹𝑖 𝑥𝑖 𝐹𝑖 𝐹𝑖 |𝑥𝑖 − 𝑥̅ |
22 2 5 110 10
23 1 4 92 4
23 1 2 46 2
24 0 7 168 0
25 1 8 200 8
26 2 2 52 4
27 3 2 54 6
10 30 722
Fuente: Investigación directa con datos hipotéticos.

∑ 𝑥𝑖 𝐹𝑖 722
𝑥̅ = = = 24.07
∑ 𝐹𝑖 30

Serie de intervalos de clases y frecuencias

Cuando los datos aparecen ya ordenados o agrupados en una serie de clases y frecuencias, la
fórmula que debe aplicarse es:

∑ 𝑃𝑀𝑖 ∗ 𝐹𝑖
𝑥̅ =
∑ 𝐹𝑖

Donde PMi es el punto medio o marca de clase.

∑ 𝐹𝑖 |𝑃𝑀𝑖 − 𝑥̅ |
Luego 𝐷𝑀 =
∑ 𝐹𝑖

Tabla II.50
Temperatura en el mes de mayo
Temperatura en intervalos 𝐹𝑖 𝑃𝑀𝑖 𝐹𝑖 𝑃𝑀𝑖 |𝑃𝑀𝑖 − 𝑥̅ | 𝐹𝑖 |𝑃𝑀𝑖 − 𝑥̅ |
22 y menos de 24 5 23 115 3 15
24 y menos de 26 9 25 225 1 9
26 y menos de 28 10 27 270 1 10
28 y menos de 30 6 29 174 3 18
Total 30 784 52
Fuente: Investigación directa con datos hipotéticos.

Sustituyendo

784 52
𝑥̅ = = 26° 𝐷. 𝑀. = = 1.73°
30 30

89
Interpretación: independientemente de que la información aparezca ordenada en una serie simple,
de frecuencias o de clases y frecuencias, la desviación media permite verificar que la temperatura
no varió mucho en el mes de mayo, ya que en promedio fue de 26 grados, cuando los datos
provenían de una serie de clases y frecuencias y sin embargo, durante los 30 días del mes, en
promedio se observó una variación o dispersión de 1.73 grados con respecto a los 26 grados
centígrados.

Es muy importante recordar que la serie de clases y frecuencias da resultados de menor exactitud
que la simple y la de frecuencias, ya que maneja los puntos medios como valores sustitutos de los
valores originales de la serie.

II.5.2.3 Desviación estándar (s)

Importancia: Es la medida de dispersión más utilizada debido a que considera las desviaciones de
todos y cada uno de los valores de los términos con respecto a la media aritmética. Es la medida de
dispersión que expresa en valores originales la variabilidad de cada uno de los términos de la
distribución de frecuencias con respecto a la media aritmética. Así, con ella se demuestran las dos
primeras propiedades de 𝑥̅ .

Definición: Es la raíz cuadrada positiva de la suma de las desviaciones al cuadrado de los valores
observados, respecto a la media aritmética; indica el grado de desviación media que tienen los
términos de la serie con respecto a su media aritmética. Su fórmula en el caso de una muestra es:

∑ 𝑑2 𝑓𝑖
𝑠=√
∑ 𝑓𝑖

Donde: 𝑑 = 𝑋𝑖 − 𝑋̅

Ejemplo para una serie simple, se calcula así:

Tabla II.51
Calculo de s en una serie simple
𝑋𝑖 𝑑 = 𝑋𝑖 − 𝑋̅ (𝑋𝑖 − 𝑋̅ )2
1 -9 81
2 -8 64
5 -5 25
9 -1 1
11 1 1
13 3 9
14 4 16
25 15 225
80 0 422
Fuente: Investigación directa con datos hipotéticos.

∑ 𝑋𝑖 80
𝑥̅ = = = 10
𝑛 8

90
En una serie de frecuencias:

Si se establece que d: desviación con respecto a 𝑥̅ , elevándola al cuadrado se tiene:

Tabla II.52
Método para calcular s en una 𝑠𝑒𝑟𝑖𝑒 𝑑𝑒 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎𝑠
𝑥𝑖 𝐹𝑖 𝑥𝑖 𝐹𝑖 d 𝑑𝑎2 𝑑2 𝐹𝑖
1 9 9 -1.87 3.5 31.5
2 15 30 -0.87 0.76 11.4
3 29 87 0.13 0.02 0.58
4 10 40 1.13 1.28 12.8
5 7 35 2.13 4.54 31.78
Total 70 201 88.06
Fuente: Investigación directa con datos hipotéticos.

∑ 𝑥𝑖 𝑓𝑖 201
𝑋̅ = = = 2.87
∑ 𝑓𝑖 70

∑ 𝑑2 𝑓𝑖 88.06
𝑠=√ =√ = 1.28
∑ 𝑓𝑖 − 1 69

una serie de clases y frecuencias se calcula así:

Tabla II.53
Tabulaciones para obtener s
Intervalos de clase 𝐹𝑖 𝑃𝑀𝑖 𝑃𝑀𝑖 𝐹𝑖 𝑃𝑀𝑖 − 𝑥̅ (𝑃𝑀𝑖 − 𝑥̅ )2 (𝑃𝑀𝑖 − 𝑥̅ )2 𝐹𝑖
De 1.0 a 1.5 inclusive 2 1.25 2.5 -1.69 2.86 5.71
De más de 1.5 a 2.0 5 1.75 8.75 -1.19 1.42 7.08
De más de 2.0 a 2.5 12 2.25 27 -0.69 0.48 5.71
De más de 2.5 a 3.0 28 2.75 77 -0.19 0.04 1.01
De más de 3.0 a 3.5 20 3.25 65 0.31 0.1 1.92
De más de 3.5 a 4.0 14 3.75 52.5 0.81 0.66 9.19
De más de 4.0 a 4.5 3 4.25 12.75 1.31 1.72 5.15
De más de 4.5 a 5.0 1 4.75 4.75 1.81 3.28 3.28
Total 85 250.25 39.05
Fuente: Investigación directa con datos hipotéticos.

Teniendo los datos agrupados en clases y frecuencias, se procede a obtener la media aritmética de
ellos.

Como se recordará, la fórmula de la media aritmética viene dada por

∑ 𝑃𝑀𝑖 𝐹𝑖
𝑥̅ =
∑ 𝐹𝑖

91
250.25
𝑥̅ =
85

𝑥̅ = 2.94

Con su valor enseguida se procede a desviar el punto medio con respecto a la media: (𝑃𝑀𝑖 − 𝑥̅ ).

Se eleva al cuadrado y se multiplica por su frecuencia respectiva, llegando a la fórmula de la


desviación estándar:

∑(𝑃𝑀𝑖 − 𝑥̅ )2 𝑓𝑖 39.38
𝑠=√ =√
∑ 𝐹𝑖 − 1 84

II.5.2.4 Varianza (𝒔𝟐 )

Se define como el cuadrado de la desviación estándar. Así:

Para una serie simple

∑(𝑥𝑖 − 𝑥̅ )2
𝑠2 =
𝑛−1
Para una serie de frecuencias

∑ 𝐹𝑖 (𝑥𝑖 − 𝑥̅ )2
𝑠2 =
𝐹𝑖 − 1

Para una serie de clases y frecuencias

∑ 𝐹𝑖 (𝑃𝑀𝑖 − 𝑥̅ )2
𝑠2 =
∑ 𝐹𝑖 − 1

II.5.2.5 Coeficiente de variación (CV)

Cuando sólo se analiza la variabilidad de los datos con respecto a la media aritmética de la variable,
el coeficiente de variación resulta muy útil para indicar la representatividad de la media con
respecto a otras medidas de dispersión (por ejemplo la mediana, la moda, la media armónica, etc.).
Así, generalmente si el coeficiente de variación es mayor a 10% se sugiere cambiar a otra medida
de tendencia central para medir la variabilidad de los datos de una variable; si es menor, entonces se
dice que su media aritmética es representativa de la concentración de los datos en el centro de la
distribución analizada.

Se define como la razón porcentual entre la desviación estándar y la media aritmética, es decir.
𝑠
𝐶𝑉 = ∗ 100
𝑥̅

92
La razón es conveniente multiplicarla por 100 para expresarla en términos porcentuales.

II.5.3 Ejercicios que relacionan las medidas de tendencia central con las de dispersión, con sus
respuestas correspondientes.

Con los siguientes datos hipotéticos de una muestra determinada:

Tabla II.54
Distribución de los datos de un fenómeno en estudio
15 11 10 18 17 14 14 15 16 13
12 12 9 11 14 16 15 14 13 10
13 12 10 12 14 16 15 17 13 10
14 11 11 13 14 16 15 17 13 10
15 11 14 14 14 16 15 17 13 10
Fuente: Investigación directa con datos hipotéticos.

Obtenga:

1. Una serie de clases y frecuencias con el método de Sturges;


2. La relación de la media aritmética con la media geométrica y la moda;
3. Las dos propiedades de la media aritmética, es decir, “suma cero y mínimo”;
4. La varianza y desviación estándar;
5. El coeficiente de variación con su interpretación correspondiente.

Respuestas

Respuesta 1

1. Aplicación de la fórmula de Sturges en el ordenamiento de los datos. Obtener:

𝑂𝑠𝑐𝑖𝑙𝑎𝑐𝑖ó𝑛 = 18 − 9 = 9

2. Amplitud del Intervalo (i). donde 𝑛 = 50.

𝑂𝑠𝑐𝑖𝑙𝑎𝑐𝑖ó𝑛 18 − 9 9
𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 = = = = 1.36
1 + 3.322 log 𝑛 1 + 3.322(1.6990) 1 + 5.64
Redondeado a 1.4.
Tabla II.55
Serie de intervalos de clases y frecuencias
Clases 𝐹𝑖 𝑃𝑀𝑖 𝐹𝑖 𝑃𝑀𝑖 𝑙𝑜𝑔 𝑃𝑀𝑖 𝑙𝑜𝑔 𝑃𝑀𝑖 𝐹𝑖
De 9 a 10.4 7 9.7 67.9 0.9542 6.6794
De más de 10.4 a 11.8 5 11.1 55.5 1.0453 5.2265
De más de 11.8 a 13.2 11 12.5 137.5 1.0969 12.0659
De más de 13.2 a 14.6 10 13.9 139 1.143 11.43
De más de 14.6 a 16.0 12 15.3 183.6 1.1847 14.2164
De más de 16.0 a 17.4 4 16.7 66.8 1.2227 4.8908
De más de 17.4 a 18.8 1 18.1 18.1 1.2577 1.2577
Total 50 668.4 55.7667
93
Fuente: Investigación directa con datos hipotéticos

Respuesta 2
∑ 𝐹𝑖 (𝑃𝑀𝑖 ) 668.4
𝑋̅ = = = 13.368
∑ 𝐹𝑖 50
Redondeado a 13.36
𝐹𝑖 55.7667
log 𝑀𝑔 = = = 1.115334
∑ 𝐹𝑖 50
Su antilogaritmo = 13.04

Luego 𝑀𝑔 = 13.14
𝑑1 12 − 10
𝑀𝑜𝑑𝑎 = 𝐿𝑖 + [ ] (𝑖) = 14.6 + [ ] (1.4)
𝑑1 + 𝑑2 2 + (12 − 4)

2 2.8
= 14.6 + [ ] (1.4) == 14.6 + = 14.88
2+8 10

Luego entonces la relación que existe entre la media aritmética y la media geométrica se cumple al
ser un promedio mayor la primera que la segunda. Por lo que respecta a la media aritmética con la
moda, indica una relación de asimetría negativa al ser mayor la moda respecto que la media
aritmética.

Respuesta 3

3a.- Primera propiedad: ∑(𝑃𝑀𝑖 − 𝑥̅ )𝐹𝑖 = 0

Tabla II.56
Serie de clases y frecuencias
(𝑃𝑀𝑖 − 𝑥̅ ) (𝑃𝑀𝑖 − 𝑋̅)𝐹𝑖 (𝑃𝑀𝑖 − 𝑋̅)2 (𝑃𝑀𝑖 − 𝑋̅)2 𝐹𝑖
9.7 − 13.36 = −3.66 (−3.66)7 = −25.62 13.3956 93.7692
11.1 − 13.36 = −2.26 (−2.26)5 = −11.30 5.1076 25.538
12.5 − 13.36 = −0.86 (−0.86)11 = −9.46 0.7396 8.1323
13.9 − 13.36 = 0.54 (0.54)10 = 5.40 0.2916 2.916
15.3 − 13.36 = 1.94 (1.94)12 = 23.28 3.7636 45.1632
16.7 − 13.36 = 3.34 (3.34)4 = 13.36 11.1556 44.6224
18.1 − 13.36 = 4.74 (4.74)1 = 4.74 22.4676 22.4676
Total 0 242.6087
Fuente: Investigación directa con datos hipotéticos.

Comentarios: la suma no es cero por cuestiones de redondeo

3b. Segunda propiedad:


∑(𝑃𝑀𝑖 − 𝑥̅ )2 𝐹𝑖 = 𝑀Í𝑁𝐼𝑀𝑂 = 242.6087
Respuesta 4

La varianza y desviación estándar

94
∑(𝑃𝑀𝑖 − 𝑥̅ )2 𝐹𝑖 242.6087
𝑠2 = = = 4.917
∑ 𝐹𝑖 − 1 49

𝑠 = √4.917 = 2.21

Respuesta 5

Coeficiente de variación, CV.


𝑠 2.21
𝐶𝑉 = 100 = 100 = 16.5%
𝑥̅ 13.37
Interpretación: Hay una variación significativa que supera el 10% recomendable, entre los valores
de los términos Xi, que se expresa en la alta proporción de la desviación estándar con respecto a la
media aritmética; se recomienda cambiar de medida de tendencia central a otra, por ejemplo, la
mediana, la moda, etc.

II.5.4 Ejercicios con Excel


II.5.4.1 EJERCICIOS CON EXCEL: MEDIDAS DE DISPERSIÓN

Para estos ejercicios se utilizará el tipo de cambio interbancario a la venta desde el primer trimestre
del 2013 hasta el segundo trimestre de 2015 de acuerdo con el Banco de México (2015). Estos datos
se encuentran en la base de datos del libro.

Tabla II.57
Tipo de cambio interbancario.
Periodo Tipo de cambio interbancario (Pesos mexicanos por dólar)
2013/01 12.33
2013/02 12.98
2013/03 13.15
2013/04 13.08
2014/01 13.06
2014/02 12.99
2014/03 13.42
2014/04 14.75
2015/01 15.26
2015/02 15.70
Fuente: Investigación directa del Banco de México (2015).

Rango

Pasos:

1. Abrir el programa Excel6 y colocar en la hoja de cálculo desde la celda A1 hasta la celda
A10 los datos con los que se van a trabajar, en este caso es el tipo de cambio interbancario.

6
Para saber cómo iniciar el programa Excel, véase la pág. (26)

95
2. Se sitúa el cursor en la celda C1/clic y se escribe la siguiente fórmula: =A10-A1, es decir,
se digita el signo de igual a (=) y con ayuda del cursor se da clic primero en el valor más
grande, que en este caso es 15.70 (celda A10); se escribe el signo menos (-) y finalmente
con el cursor se le da clic a la celda A1 que contiene el valor más pequeño: 12.33, tal como
se muestra en el cuadro II.26.

Cuadro II.26
Selección de datos del tipo de cambio interbancario para obtener el rango.

Fuente: Investigación directa del Banco de México (2015).

3. Para finalizar se presiona la tecla Enter y el resultado es 3.36. Es decir que el rango del tipo
de cambio en los 10 trimestres es de $3.36.

Desviación media

Pasos

1. Se posiciona el cursor celda C2/clic y se coloca en 𝑓𝑥/clic. En el nuevo cuadro de diálogo


Insertar una función, en el cual se buscará O seleccionar una categoría/clic, se selecciona
Estadísticas/Clic/. En el cuadro de diálogo de abajo se busca la función DESVPROM/clic y
se le da Aceptar/clic.
2. En el nuevo cuadro de diálogo: Argumentos de función, se coloca el cursor en Número1/clic
y con ayuda del mismo cursor se seleccionan todas las celdas que contienen el tipo de
cambio interbancario de los diez trimestres. Para finalizar se busca Aceptar/clic.

96
Cuadro II.27
Selección de datos para la fórmula DESVPROM

Fuente: Investigación directa del Banco de México (2015).

3. Finalmente el resultado marca que la desviación promedio del tipo de cambio interbancario
es de $0.94.

Desviación estándar

Pasos

1. Para obtener la desviación estándar, se posiciona el cursor celda C3/clic y se coloca en


𝑓𝑥/clic. En el nuevo cuadro de diálogo Insertar una función, en el cual se buscará O
seleccionar una categoría/clic, se selecciona Estadísticas/Clic/. En el cuadro de diálogo de
abajo se busca la función DESVEST.P/clic y se le da Aceptar/clic.
2. En el nuevo cuadro de diálogo: Argumentos de función, se coloca el cursor en Número1/clic
y con ayuda del mismo cursor se seleccionan todas las celdas que contienen el tipo de
cambio interbancario de los diez trimestres. Para finalizar se busca Aceptar/clic.

Cuadro II.28
Selección de datos para la fórmula DEVEST.P

Fuente: Investigación directa del Banco de México (2015).

97
3. Se concluye la desviación estándar del tipo de cambio interbancario es de $1.08 con
respecto de la media durante los 10 trimestres del año estudiados.

Varianza

Pasos

1. Para obtener la varianza, se posiciona el cursor celda C4/clic y se coloca en 𝑓𝑥/clic. En el


nuevo cuadro de diálogo Insertar una función, en el cual se buscará O seleccionar una
categoría/clic, se selecciona Estadísticas/Clic/. En el cuadro de diálogo de abajo se busca la
función VAR.P/clic y se le da Aceptar/clic.
2. En el nuevo cuadro de diálogo: Argumentos de función, se coloca el cursor en Número1/clic
y con ayuda del mismo cursor se seleccionan todas las celdas que contienen el tipo de
cambio interbancario de los diez trimestres. Para finalizar se busca Aceptar/clic.

Cuadro II.29
Selección de datos para la fórmula VAR.P

Fuente: Investigación directa del Banco de México (2015).

3. La varianza resultante en la celda C4 del tipo de cambio interbancario es de $1.57 con


respecto de la media aritmética.

Coeficiente de variación

Pasos:

1. Debido a que Excel no posee una fórmula en específico para obtener esta medida de
dispersión, es necesario obtener la media y la desviación estándar para obtener el
coeficiente de variabilidad. Esto tal como se ve en el siguiente cuadro para el mismo
ejercicio que se ha venido siguiendo con el tipo de cambio interbancario en el que ya se
cuenta con la media y la desviación estándar para proceder.

98
Cuadro II.30
Rango, desviación promedio, desviación estándar, varianza y media del tipo de cambio
interbancario

Fuente: Investigación directa del Banco de México (2015).

2. Para obtener el coeficiente de variabilidad se escribe la siguiente fórmula en la celda C6:


=(C3/C5)*100. Es decir, se digita el signo de igual a (=) y se abre paréntesis para después
con ayuda del cursor seleccionar la celda C3 donde se encuentra la desviación estándar,
luego es necesario anotar una diagonal (/) para denotar la división entre la media que se
encuentra en la celda C5, la cual se seleccionará con el cursor para así cerrar el paréntesis;
ahora se escribe un asterisco (*), esto para denotar su multiplicación por 100 y con ello
expresar los resultados en porcentajes. Finalmente se puede observar en el siguiente cuadro
como debe quedar la expresión en Excel.

Cuadro II.31
Fórmula en Excel para la generación del coeficiente de variabilidad del tipo de cambio
interbancario

Fuente: Investigación directa del Banco de México (2015).

3. Para terminar se presiona enter y el resultado aparece en la celda C5. En este caso, el
coeficiente de variabilidad del tipo de cambio interbancario es de 7.87%.

99
II.5.5 Medidas de posición partitivas

Importancia: dividen en partes iguales a la serie estadística de una distribución de frecuencias. Las
más usuales son: a).- los cuartiles, la dividen en cuatro segmentos; b).- los deciles, la dividen en
diez partes y c).- los percentiles, que la dividen en cien partes iguales. También existen los térciles,
quintiles y la mediana. Como se indicó antes, estas medidas tienen la propiedad de dividir la serie
estadística en dos, tres, cuatro, cinco, diez y para generalizar, en cien partes, respectivamente.

De lo anterior se establece a la mediana y por consiguiente su fórmula, como base para determinar
dichos valores partitivos. Por ejemplo, el caso de los cuartiles que son necesarios para determinar la
desviación cuartílica y el coeficiente intercuartilar de asimetría de Pearson.

II.5.5.1 Cuartiles (Qi)

Los cuartiles son medidas estadísticas de posición que tienen la propiedad de dividir la serie
estadística en cuatro grupos de números iguales de términos.

De manera similar los deciles dividen a la serie en diez partes iguales y los percentiles dividen a los
términos de la serie en cien grupos iguales.

Así como la mediana divide la serie o distribución en dos partes iguales, existen tres cuartiles,
nueve deciles y noventa y nueve percentiles que dividen en cuatro, diez y cien partes iguales a la
distribución, respectivamente.

De estas tres últimas medidas de posición los cuartiles y deciles se usan con mucha frecuencia. Se
emplean generalmente en la determinación de estratos o grupos correspondientes a fenómenos
socio-económicos, monetarios o teóricos. (García, 1964).

Los tres cuartiles suelen designarse con los símbolos:

 Q1 = Primer cuartíl
 Q2 = Segundo cuartíl
 Q3 = Tercer cuartíl

Los deciles por D1, D2, D3,......, D9 y los percentiles con P1, P2, P3,.....,P99.

En cualquiera de los tres casos, la medida de posición seleccionada toma el valor de uno de los
términos cuando la serie es impar, o del punto medio entre dos términos, cuando la serie es par.

Para el cálculo de estas tres medidas de posición es necesario arreglar los términos en forma
creciente o decreciente. Así, en el caso de un ordenamiento simple, el siguiente paso es determinar
el "número de orden" de los cuartiles, deciles o percentiles, el cual indicará el lugar que ocupen en
la distribución.

100
En lo que se refiere a los cuartiles, el número de orden del primer cuartil es igual al número de
términos de la distribución más uno, sobre cuatro. Para el segundo cuartil el número de orden se
calculará sumando uno al total de términos y dividiéndolo entre dos.

Así mismo el número de orden del tercer cuartil ser igual a tres cuartos del número de términos de
la distribución más uno.

Serie Simple

a) Si se usan NoQ para denotar el número de orden, donde: No es el número de términos y Q


el cuartil a calcular, entonces en el ejemplo cuyos términos son las ventas diarias de siete
micro empresas, en miles de pesos: 3, 4, 5, 7, 8, 10, 11, que es número de términos impar,
el número de orden se calcula así:

𝑁+1 7+1
𝑁𝑜𝑄1 = 1 4
= 4
= 2 , el cual indica que el valor del segundo término (4) es el valor de Q1,
luego Q1 = 4.

𝑁+1 7+1
𝑁𝑜𝑄2 = 2 4
=2 2
= 4, el cual indica que el valor del cuarto término (7) es el valor de Q 2 , y
Q2 = 7
𝑁+1 7+1
𝑁𝑜𝑄3 = 3 =3 = 6, que indica que el valor del sexto término (10) es el valor de Q3 , y Q3 =
4 4
10.

Cuando el número de términos es par como la distribución constituida por las ventas promedio
diario de ocho tortillerías en miles de pesos: 3, 4, 5, 7, 9, 10, 11, 14.

𝑁+1 8+1
𝑁𝑜𝑄1 = 1 = = 2.25 ∴ 𝑄1 = 4.25
4 4
𝑁+1 8+1
𝑁𝑜𝑄2 = 2 =2 = 4.5 ∴ 𝑄2 = 8.0
4 2
3(𝑁 + 1) 27
𝑁𝑜𝑄3 = = = 6.75 ∴ 𝑄3 = 10.75
4 4
Cabe señalar que cuando no sea exacto el lugar o posición del valor partitivo porque se halla entre
dos lugares sucesivos, se toma la distancia entre los dos valores y se saca la proporción
correspondiente, que se le suma al valor del primer término, por ejemplo, en el cuartil 3 que se
localiza entre los lugares 6 y 7, al valor que se encuentra en el lugar 6, se le suma el 75% de la
distancia del número de lugar 6 al lugar 7, que en este caso es una unidad; se le suma al 10 el valor
0.75 que es el porcentaje de la diferencia entre el 10 y el 11.

Como puede observarse el procedimiento empleado en el cálculo del segundo cuartil es el mismo
que se utilizó para calcular la mediana en una serie o distribución simple, por lo que el valor del

101
segundo cuartil siempre es igual al de la mediana. Por otra parte, como lo hace notar el Ing. A.
García Pérez (1964), una vez obtenido el número de orden del primer cuartil, se puede calcular
inmediatamente los del segundo y tercer cuartil sin recurrir al procedimiento arriba sugerido,
multiplicándolo por dos y tres respectivamente.

b) Cuando los datos están agrupados en una serie simple de frecuencias como la siguiente:

Tabla II.58
Serie de frecuencias
Edades Número de Personas (𝐹𝑖 ) Frecuencia Acumulada
(Años) (Millones) (𝐹𝑖𝑎
1 6 6
4 15 21
8 14 35
14 4 39
TOTAL 39
Fuente: Investigación directa con datos hipotéticos.

(39 + 1)
𝑁𝑜𝑄1 = 1 = 10 ∴ 𝑄1 = 4
4
(39 + 1)
𝑁𝑜𝑄2 = 2 = 20 ∴ 𝑄2 = 4
4
(39 + 1)
𝑁𝑜𝑄3 = 3 = 30 ∴ 𝑄3 = 8
4
En este ejemplo se observa que el valor de Q1 y Q2 coinciden. Lo cual se debe a que ambas toman el
valor del término (edad) que les señalan sus respectivos números de orden, que es cuatro para los
términos número diez y veinte.

Por otra parte se verifica que los tres cuartiles dividen a la distribución en cuatro grupos iguales, en
virtud de que a la izquierda del primer cuartil existe el 25% de términos de la distribución; de la
misma forma a la izquierda del segundo cuartil existe el 50% de la distribución y el tercer cuartil
revela que a su izquierda se localiza el 75% de los términos.

c) Por último si los datos se agrupan en intervalos de clases y frecuencias los cuartiles se
obtienen a través del siguiente procedimiento:

Sea la distribución siguiente de datos de tiempo:

102
Tabla II.59
Serie de clases y frecuencias
Frecuencia Acumulada
Tiempos en minutos Frecuencia (𝐹𝑖 )
(𝐹𝑖𝑎 )
De más de 10 a 20 6 6
De más de 20 a 30 25 31
De más de 30 a 40 32 63
De más de 40 a 50 23 86
De más de 50 a 60 7 93
De más de 60 a 70 4 97
De más de 70 a 80 3 100
TOTAL 100
Fuente: Investigación directa con datos hipotéticos.

Gráficamente se tendrá:

Gráfica II.16
Histograma
35 32
30 25
23
Frecuencias

25
20
15
10 6 7
4 3
5
0
De más De más De más De más De más De más De más
de 10 a de 20 a de 30 a de 40 a de 50 a de 60 a de 70 a
20 30 40 50 60 70 80
Tiempo (minutos)

Fuente: Investigación directa con datos hipotéticos.

100
𝑁𝑜𝑄1 = 1 4
= 25, significa que el 25 % de las observaciones se hallan a la izquierda de Q1.

(30−20)
Luego 𝑄1 = 20 + 25
∗ 19 = 27.6 𝑚𝑖𝑛𝑢𝑡𝑜𝑠.

Donde 19 = 25 - 6 = número de observaciones en la segunda clase pero a la izquierda del primer


cuartil.

Similarmente:

100 (40 − 30)


𝑁𝑜𝑄2 = 2 = 50 ∴ 𝑄2 = 30 + ∗ 19 = 35.94 𝑚𝑖𝑛𝑢𝑡𝑜𝑠
4 32

103
Donde 19 = 50 - 31 = número de observaciones en la tercer clase pero a la izquierda del segundo
cuartil.

Igualmente:
3(100)
𝑁𝑜𝑄3 = = 75
4
Significa que el 75 % de las observaciones se hallan a la izquierda de Q3.

(50 − 40)
𝑄3 = 40 + ∗ 12 = 45.21 𝑚𝑖𝑛𝑢𝑡𝑜𝑠
23
Donde 12 = 75 - 63 = número de observaciones en la cuarta clase pero a la izquierda del tercer
cuartil.

II.5.5.2 Desviación Cuartilica (DC)

Conocidos los cuartiles se puede calcular la desviación cuartil, la cual mide la amplitud o rango
existente entre los 50 términos centrales de la distribución. Es una medida de variación o dispersión
como el rango referida al 50% de las observaciones contra las demás series, que se centra en el
50% de los términos centrales.

La desviación cuartilica es igual a la mitad del rango comprendido entre el 50% de los términos
centrales de la distribución. Numéricamente es la mitad de la distancia entre el primer y tercer
cuartil, que eso también se conoce como rango semi-cuartil.
𝑄3 − 𝑄1
𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑐𝑢𝑎𝑟𝑡í𝑙 =
2
Utilizando los datos del último ejemplo:
45.16 − 27.60 17.56
𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑐𝑢𝑎𝑟𝑡𝑖𝑙 = = = 8.78 𝑚𝑖𝑛𝑢𝑡𝑜𝑠
2 2

II.5.5.3 Deciles y Percentiles.


II.5.5.3.1 Deciles (Di)

En opinión del profesor Lind et al (2005) cuando los datos son numerosos y ordenados en
forma creciente, su fórmula es:
(𝑛)𝐷𝑖
𝑁𝐷𝑖 =
10

Por ejemplo para el número de datos es 80 (n) ordenados en una serie simple, para conocer el decil
3, se hace lo siguiente:

Paso 1

Puesto que su fórmula es:

104
(𝑛)𝐷𝑖
𝑁𝐷𝑖 =
10
Donde:
𝑁𝐷𝑖 = Número de orden del decil i-ésimo
𝑛 = Número de datos de la serie estadística
𝐷𝑖 = Decil-iésimo.

Sustituyendo:
(80)3
𝑁𝐷3 = = 80(0.3) = 24
10
Que es el término o lugar donde se localiza o contiene al decil 3.

II.5.5.3.2 Percentiles (Pi)

Partiendo del ejemplo anterior, si por ejemplo se desea calcular el percentil 23 se tiene que buscar el
término que contiene su valor de la siguiente manera:

(𝑛)𝑃𝑖
𝑁𝑃𝑖 =
100
Donde:

𝑖 =Número de orden del percentil iésimo


𝑃𝑖 = Percentil iésimo.
𝑛 = Número de términos o datos de la serie estadística.

Sustituyendo:
(80)23
𝑁𝑃23 = = 18.6
100
Que es el término o lugar en que se localiza o que contiene al percentil 23.

105
II.5.5.3.3 Práctica IV

Nombre: ______________________________________________Grupo: ______

Problema 1

1. La variación de los valores incluidos en una serie de datos es la llamada dispersión.


Los tipos más comunes de dispersión son:
______________________________________
2. La medida de dispersión que se utiliza para mostrar la variación de los valores
entre el 50% de los elementos centrales se denomina:
______________________________________________________________________
__

3. Y las que se usan para medir la variación de los valores alrededor de un


promedio se denominan:
___________________________________________________________________
__________________ y ____________________________________

4. Al describir una distribución estadística, comúnmente se emplea una medida de


tendencia central para
___________________________________________________________________
__y una medida de dispersión para
__________________________________________

Problema 2

Los siguiente valores son los rendimientos por hectárea de un determinado producto
agrícola (en toneladas) en 8 ejidos colectivos de diferentes regiones del país: 1, 2, 3, 4,
5, 11, 11, 30.

a) Calcule el recorrido o rango


b) Calcule la desviación cuartílica
c) Calcule la desviación media
d) Calcule la desviación estándar y la varianza
e) Calcule el coeficiente de variación
f) Interprete brevemente los resultados obtenidos.

Problema 3

Las calificaciones de 80 estudiantes de una clase de estadística, están dadas en la


siguiente tabla:

106
Calificaciones
Calificaciones No. de Estudiantes
20 – 29 3
30-39 6
40-49 5
50-59 7
60-69 10
70-79 29
80-89 12
90-99 8
TOTAL 80
Fuente: Investigación directa con datos hipotéticos.

a) Calcular la desviación cuartílica


b) Calcular la desviación media
c) Calcular la desviación estándar.

107
II.5.6 Ejercicios con Excel

Cuartiles, deciles y percentiles

CUARTILES
PASOS

1. Abrir el programa Excel7. Para estos ejercicios se utilizará el tipo de cambio interbancario a
la venta desde el primer trimestre del 2013 hasta el segundo trimestre de 2015 de acuerdo
con el Banco de México (2015). Estos datos se encuentran en la base de datos del libro.

Tabla II.60
Tipo de cambio interbancario.
Periodo Tipo de cambio interbancario (Pesos mexicanos por dólar)
2013/01 12.33
2013/02 12.98
2013/03 13.15
2013/04 13.08
2014/01 13.06
2014/02 12.99
2014/03 13.42
2014/04 14.75
2015/01 15.26
2015/02 15.70
Fuente: Investigación directa del Banco de México (2015).

1. Para obtener el primer cuartil, se posiciona el cursor celda D1/clic y se coloca en 𝑓𝑥/clic.
En el nuevo cuadro de diálogo Insertar una función, en el cual se buscará O seleccionar
una categoría/clic, se selecciona Estadísticas/Clic/. En el cuadro de diálogo de abajo se
busca la función CUARTIL.EXC/clic y se le da Aceptar/clic.

2. En el nuevo cuadro de diálogo: Argumentos de función, se coloca el cursor en Matriz/clic y


con ayuda del mismo cursor se seleccionan todas las celdas que contienen el tipo de cambio
interbancario de los diez trimestres; en el argumento Cuartil/clic se digita el número del
cuartil que se desea obtener, en este caso es 1, tal como se muestra en el siguiente cuadro.
Para finalizar se busca Aceptar/clic. El primer cuartil es de $12.98 pesos por dólar.

7
Para saber cómo iniciar el programa Excel, véase la pág. (26)

108
Cuadro II.32
Argumentos de función de CUARTIL.EXC.

Fuente: Investigación directa del Banco de México (2015).

3. Ahora bien, para obtener el segundo cuartil se realiza nuevamente el paso 2 y el paso 3,
solamente cambiando de celda para dar paso al resultado y el argumento Cuartil en el cual
se escribirá 2, refiriéndose al segundo cuartil. Igualmente en caso del tercer cuartil se
seguirán los pasos 2 y 3 cambiando de celda para dar paso al resultado y el argumento
Cuartil digitando el número 3 haciendo referencia al tercer cuartil. En el siguiente cuadro se
observan todos los resultados de los cuartiles del tipo de cambio interbancario.

Cuadro II.33
Resultados de la función CUARTIL.EXC con el tipo de cambio interbancario

Fuente: Investigación directa del Banco de México (2015).

Desviación cuartílica

Pasos:

Para elaborar este ejercicio es necesario obtener de manera previa los cuartiles de los datos a
estudiar. En este caso se hará uso de los cuartiles obtenidos del tipo de cambio interbancario en el
ejemplo anterior, tal como se muestran en el cuadro previo.

1. Por ejemplo, para obtener la desviación cuartílica, se coloca el cursor en la celda D5 y se


escribe la siguiente fórmula = (D4-D1)/2, en la cual se expresa la diferencia entre el tercer
cuartil que se encuentra en la celda D4 con el primer cuartil en la celda D1 dividido entre 2.

109
Igualmente se puede digitar el signo igual (=) y abriendo paréntesis y con ayuda del cursor
dar clic en las celdas del tercer y primer cuartil y finalmente digitar la división entre dos
(/2).

Cuadro II.34
Fórmula en Excel para generar la desviación cuartílica del tipo de cambio interbancario

Fuente: Investigación directa del Banco de México (2015).

2. Finalmente basta con dar un clic en la tecla Enter, para dar terminada la operación. El
resultado es este caso es $0.95 centavos.

Cuadro II.35
Resultado de la desviación cuartílica del tipo de cambio interbancario

Fuente: Investigación directa del Banco de México (2015).

Deciles
Pasos

1. Para ejemplificar el tema se utilizarán las siguientes calificaciones de Estadística, tomadas


de una muestra de 30 alumnos, Las calificaciones son:

Tabla II.61
Calificaciones de 30 alumnos de estadística
8 7 10 10 8
9 6 8 10 9
10 10 9 9 10
10 9 5 7 10
6 5 7 9 7
8 9 7 10 8
Fuente: Investigación directa con datos hipotéticos.

2. En una nueva hoja de Excel se escriben las calificaciones en una sola columna, en este caso
en la columna A. Antes que nada es necesario acomodar las calificaciones de menor a
mayor, lo cual fácilmente se puede hacer seleccionando todos los datos con el cursor para

110
después buscar en la barra de INICIO de Excel el botón Ordenar y Filtrar/clic, en el cual se
selecciona Ordenar de menor a mayor/clic.

Cuadro II.36
Función Ordenar y filtrar/ Ordenar de menor a mayor

Fuente: Investigación directa con datos hipotéticos.

3. Una vez ordenados los datos, para obtener el primer decil, se ubica el cursor en la celda D1
y de siguiendo la fórmula de los deciles, en esta celda se digita =(30*1)/10. El número 30
indica el tamaño de la muestra analizada, el cual es multiplicado por 1 el cual indica que es
el primer decil, lo cual será dividido por 10. Tal como se muestra en el siguiente cuadro.

Cuadro II.37
Fórmula en Excel para generar deciles de las calificaciones de estadística

Fuente: Investigación directa con datos hipotéticos.

4. Para finalizar se le da clic con la tecla Enter y el resultado que arroja es 3, indicando que en
el tercer dato de la serie acomodada de menor a mayor se encuentra el primer decil, el cual
para este ejercicio corresponde a la primer calificación con 6 la cual se ubica en la celda A3
y se observa en el siguiente cuadro.

Cuadro II.38
Resultados de la posición del 1° decil de las calificaciones de 30 alumnos

Fuente: Investigación directa con datos hipotéticos.

5. Para elaborar el resto de los cuartiles basta con realizar los pasos 4 y 5 sólo cambiando el
criterio del número de decil que se desea obtener el cual está denotado en el segundo valor
dentro del denominador de la fórmula y ubicando la posición del decil dentro de la serie de
111
datos. En el siguiente cuadro se muestran los todos deciles que de las calificaciones de los
alumnos de la materia de Estadística.

Cuadro II.39
Resultados de la posición de todos los deciles de las calificaciones de 30 alumnos

Fuente: Investigación directa con datos hipotéticos.

Percentiles

Pasos:

Para este ejercicio se hará uso de la serie de datos de las calificaciones de los 30 alumnos de la
materia de estadística ya acomodados de menor a mayor.

1. Para obtener el percentil 40°, es necesario ubicar el cursor en la celda D1/clic y se coloca en
𝑓𝑥/clic. En el nuevo cuadro de diálogo Insertar una función, en el cual se buscará O
seleccionar una categoría/clic, se selecciona Estadísticas/Clic/. En el cuadro de diálogo de
abajo se busca la función PERCENTIL.EXC/clic y se le da Aceptar/clic.
2. En el nuevo cuadro de diálogo: Argumentos de función, se coloca el cursor en Matriz/clic y
con ayuda del mismo cursor se seleccionan todas las celdas que contienen el tipo de cambio
interbancario de los diez trimestres; en el argumento K/clic se digita el número del decil que
se desea obtener, a lo cual se digita 0.4, lo anterior porque el K valor de los deciles va de 0 a
1. tal como se muestra en el siguiente cuadro. Para finalizar se busca Aceptar/clic.

112
Cuadro II.40
Argumentos de función de PERCENTIL.EXC

Fuente: Investigación directa con datos hipotéticos.

3. El resultado de que se obtiene es de 8, es decir, que en el octavo valor de los datos de la


serie, se encuentra el 40° percentil de la serie, el cual corresponde a una calificación de 7.
Para obtener cualquier otro decil basta con cambiar el argumento K por el valor del
percentil que se desee.
4. Para calcular los siguientes percentiles, basta con situarse en la esquina inferior derecha de
la celda E2, se presiona el botón izquierdo del mouse y sin soltar, se arrastra el cursor hacia
abajo hasta alcanzar la celda D101. Con esta acción, se ha arrastrado la fórmula, y se han
calculado todos los percentiles de la serie.

113
Tabla II.62
Percentiles de las exportaciones de bienes y servicios
Exportaciones
Exportaciones de bienes Exportaciones de
Percentil de bienes y Percentil Percentil
y servicios bienes y servicios
servicios
0.01 6,129.14 0.4 16,844.44 0.79 69,991.02
0.02 6,578.22 0.41 17,995.23 0.8 70,776.58
0.03 6,989.21 0.42 18,745.55 0.81 74,203.20
0.04 7,020.67 0.43 19,440.03 0.82 75,966.36
0.05 7,246.95 0.44 21,363.63 0.83 76,390.69
0.06 7,518.51 0.45 23,329.03 0.84 77,231.59
0.07 7,608.34 0.46 24,284.62 0.85 78,362.97
0.08 7,799.23 0.47 25,520.01 0.86 80,995.18
0.09 8,038.46 0.48 27,199.18 0.87 83,278.37
0.1 8,072.38 0.49 28,870.55 0.88 86,428.20
0.11 8,127.85 0.5 30,415.28 0.89 88,068.72
0.12 8,160.38 0.51 31,675.48 0.9 89,999.69
0.13 8,233.46 0.52 33,118.12 0.91 91,862.73
0.14 8,352.90 0.53 33,713.64 0.92 92,793.58
0.15 8,747.94 0.54 34,459.92 0.93 97,664.86
0.16 9,046.30 0.55 35,269.99 0.94 101,745.37
0.17 9,121.21 0.56 35,527.06 0.95 102,377.17
0.18 9,248.36 0.57 37,714.74 0.96 103,135.50
0.19 9,279.11 0.58 40,386.12 0.97 104,706.28
0.2 9,379.65 0.59 43,366.75 0.98 107,070.85
0.21 9,508.57 0.6 43,768.51 0.99 107,891.75
0.22 9,619.80 0.61 45,290.98 1 112,046.21
0.23 9,755.95 0.62 45,865.03
Fuente: Investigación directa con
0.24 10,339.81 0.63 46,830.56
datos del INEGI.
0.25 10,503.62 0.64 47,337.75
0.26 10,735.73 0.65 47,835.57
0.27 11,698.89 0.66 48,171.94
0.28 12,040.33 0.67 48,273.89
0.29 12,350.78 0.68 48,562.40
0.3 12,599.36 0.69 49,643.25
0.31 13,266.99 0.7 51,243.52
0.32 14,106.24 0.71 51,972.57
0.33 14,492.30 0.72 54,422.93
0.34 14,718.90 0.73 57,473.34
0.35 15,235.46 0.74 57,981.29
0.36 15,471.40 0.75 60,412.84
0.37 15,567.81 0.76 64,484.81
0.38 16,206.86 0.77 65,086.63
0.39 16,382.26 0.78 67,034.30

114
II.5.7 Medidas de asimetría y curtosis

Estas medidas se pueden considerar como medidas de deformación en relación al modelo de


distribución normal, donde la asimetría representa una deformación positiva si hay un alargamiento
hacia la derecha de la distribución normal, y negativa, si el alargamiento acurre hacia el extremo
izquierdo.

La curtósis representa una deformación de achatamiento o apicamiento respecto de la distribución


normal.

Se dice que la asimetría expresa la dirección que toma la distribución de los datos de una serie
estadística y que la curtosis indica la forma que toma la curva que expresa dicha distribución de
datos gráficamente.

La asimetría y la curtosis se pueden calcular de la siguiente forma:

1) Las basadas en la relación entre medidas de tendencia central y dispersión, como la media
aritmética con moda y la mediana, o también
2) Las basadas en el sistema de momentos (A3 y A4).

II.5.7.1 Asimetría con respecto a la moda y la mediana

Cuando en una distribución de datos la moda y la mediana no son iguales con la media aritmética,
ello indica que esta diferencia expresa una asimetría o sesgo respecto de la media aritmética. Con
datos nuestrales, en base a esto Karl Pearson define sus dos medidas de asimetría donde el primer
coeficiente de asimetría él lo estable ce en relación a la moda de la siguiente manera:

𝑋̅ − 𝑀0
𝐴𝑠𝑖𝑚𝑒𝑡𝑟í𝑎 =
𝑠
Cuando la distribución es bimodal o se desconoce la moda Pearson hace uso de la mediana al
observar él que existe una relación de diferencia en distribuciones ligeramente sesgadas de un tercio
de diferencia entre la media aritmética y la moda respecto de la mediana, cuya fórmula es la
siguiente:

3(𝑋̅ − 𝑀𝑑)
𝐴𝑠𝑖𝑚𝑒𝑡𝑟í𝑎 =
𝑠
En lo que se refiere a éstas, como se informó, estas medidas indican no sólo el grado de asimetría
de la curva sino también la dirección de la misma. Si su valor es negativo, la asimetría (sesgo de los
datos) es hacia la izquierda y si es positiva la asimetría (sesgo de los datos) será hacia la derecha.
De (1) se usará el Coeficiente de Pearson.

II.5.7.2 Cálculo de la asimetría por el método de momentos

La palabra momento en términos técnicos significa en mecánica la medida de una fuerza en


relación con su tendencia a producir rotación. En estadística se usa dicha expresión en sentido
análogo, considerando los grupos de frecuencias como las fuerzas en cuestión.

115
Los momentos pueden ser calculados con respecto a su origen o bien con respecto a la media
aritmética. De acuerdo con esta última y considerando datos agrupados se empiezan a determinar
los 4 momentos que se necesitan para calcular A3 y A4. Así se empieza con:

M1 primer momento
∑ 𝑓𝑥
𝐴𝑠𝑖𝑚𝑒𝑡𝑟í𝑎 = =0
∑𝑓
Dónde:
𝑥 = 𝑋𝑖 − 𝑋̅
Es decir x expresa la diferencia entre los términos de la serie y su media aritmética
correspondiente.

M2 segundo momento
∑ 𝑓𝑥 2
𝑀2 = = 𝑠2
∑𝑓
M3 tercer momento
∑ 𝑓𝑥 3
𝑀3 = = 𝑠3
∑𝑓
Cuando la distribución de datos es simétrica, en tanto que M3 es diferente de cero cuando no es
simétrica.

Mk, k ésimo momento


∑ 𝑓𝑥 𝑘
𝑀𝑘 =
∑𝑓

Para medir la asimetría se usa el tercer momento. En el caso de en una distribución simétrica con
datos muestrales, este es igual a cero.

EJEMPLO:

Tabla II.63
Distribuciones de datos de series estadísticas
Simétrica Asimétrica
Xi x1 x2 x3 Xi x1 x2 x3 x4
2 -3 9 -27 4 -1 1 -1 1
4 -1 1 -1 4 -1 1 -1 1
5 0 0 0 4 -1 1 -1 1
5 0 0 0 4 -1 1 -1 1
6 1 1 1 5 0 0 0 0
8 3 9 27 9 4 16 64 256
30 0 20 0 30 0 20 60 260
Fuente: Investigación directa con datos hipotéticos.

116
Dónde para ambas series:
30
𝑋̅ = =5
6
Sin embargo:

M3 en una distribución simétrica


∑ 𝑥𝑖3
𝑀3 = =0
𝑛
Y en una asimétrica
60
𝑀3 = = 10
6
Si se calcula S porque se va a necesitar, se tiene que:
Como

20
𝑠2 = = 3.33
6
Luego
𝑠 = √3.33 = 1.82

También: M3 en una distribución asimétrica


∑ 𝑥𝑖3 60
𝑀3 = = = 10
𝑛 6
Sustituyendo estos valores en A3 se halla que:
𝑀3 10
𝐴3 = 3 = = 1.6
𝑠 (1.82)3

Interpretación: la asimetría o dirección de la curva de la distribución es a la derecha, indicando que


la mayor parte de los datos están distribuidos a la derecha de x .

Gráfica II.17 Gráfica II.18

Asimetría sesgada a la derecha Asimetría sesgada a la izquierda

Mo Mo

117
II.5.7.3 Curtosis

La fórmula para determinar la curtosis o forma o altura de la curva, es la siguiente:


𝑀4
𝐴4 =
𝑠
Cuando una distribución es normal el cuarto momento en términos relativos da un valor muy
cercano a 3, valor que se emplea como dice Canavos (1988) “se emplea como una referencia
debido a que en la práctica la curtosis estandarizada de una distribución de probabilidad se compara
con la de una distribución ampliamente utilizada, conocida como distribución normal, cuyo valor es
tres”. Así, para calcular la curtósis, cuando A4 toma un valor mayor a 3 la curva es picuda o
alargada y si es menor a 3 la curva es aplanada o achatada con respecto al eje de las “x”. Luego
entonces cuando A4 es igual a 3, la forma de la curva es normal.

Tomando como referencia el ejemplo numérico anterior, se puede obtener:


260
𝑀4 = = 43.3; También como (𝑠 2 )2 = 𝑠 4 = 10.97. Así se obtiene:
6

𝑀4 43.33
𝐴4 = = = 3.94
𝑠 4 10.97
Así, derivado de lo anterior (Mills, 1963), también se pueden establecer las siguientes relaciones:

a) Una curva será normal o mesocúrtica cuando 𝐴4 − 3 = 0

Gráfica II.19
Curva normal o mesocúrtica

µ
Fuente: Investigación directa con datos hipotéticos.

Interpretación: Los datos de la variable están distribuidos normalmente con un grado de dispersión
normal.

118
b) Una curva es platicúrtica cuando A4 - 3 < 0

Gráfica II.20
Curva platicúrtica

µ
Fuente: Investigación directa con datos hipotéticos

Interpretación: Existe un mayor grado de dispersión alrededor de la media, no obstante que hay simetría.

c) Una curva es leptocúrtica cuando A4 - 3 > 0

Gráfica II.21
Curva leptocúrtica

µ
Fuente: Investigación directa con datos hipotéticos.

Interpretación: Los valores de datos están altamente concentrados alrededor del valor de la media
aritmética.

Por consiguiente en el ejemplo hipotético aquí manejado se tiene que A4 = 3.94 luego, 3.94 - 3 =
0.94, que es el grado de apicamiento.

Interpretación: Puesto que el resultado es mayor que cero se dice que la curva tiene una forma
alargada o espigada, es decir, leptocúrtica.

¿Lo anterior para qué sirve en economía? ¿Cómo se interpreta económicamente?


119
Para contestar la primera interrogante, se usa el siguiente ejemplo: la SHCP desea revisar las bases
y tasas impositivas actuales aplicadas al ingreso de las personas, para ello utiliza el padrón de cinco
contribuyentes, que constituyen su población fiscal, cuyos ingresos por hora son: $1, 2, 3, 4, 5,
respectivamente.

Aplicando el Coeficiente de Pearson, a datos de una muestra


3(𝜇 − 𝑀𝑑 )
=
𝑆
Los cálculos para obtenerlo son:
15
𝜇= =3
5
Media = 3; Mediana = Md = 3, luego se calcula

∑[(1 − 3)2 + (2 − 3)2 + (3 − 3)2 + (4 − 3)2 + (5 − 3)2 ]


𝑆=√
5

4+1+0+1+4 10
𝑆=√ = √ = √2 = 1.41
5 5

Se sustituye y se obtiene:
3(3 − 3)
𝐴𝑠𝑖𝑚𝑒𝑡𝑟í𝑎 = =0
1.41
Gráficamente:
Gráfica II.22
Curva simétrica

Fuente: Investigación directa con datos hipotéticos

¿Esto económicamente qué significa?

Significa que los ingresos se distribuyen normalmente, es decir, la mayor parte de los ingresos se
concentran alrededor de la media aritmética y que un número infinitamente pequeño tienen ingresos
muy altos y otro grupo infinitamente pequeño también tiene con ingresos muy bajos.

120
Luego se puede instrumentar una política fiscal diferenciada por niveles de ingreso de los
contribuyentes: tasas bajas para quienes están a la izquierda de 3 y altas para los que estén a su
derecha.

Si hubiera resultado sesgada de la serie a la izquierda o a la derecha, ello significaría, que habría
más contribuyentes, a la izquierda (con bajos ingresos) ó a la derecha (con altos ingresos),
respectivamente. Esta situación permite deducir que también se puede implementar una política
fiscal diferencial, pero con bases y tasas impositivas diferentes a las que aplicarían cuando la curva
es normal

II.5.7.4 Ejercicios con Excel

Ejemplo 10: Asimetría y Kurtosis

Para ejemplificar el tema, se utilizan los datos de la variable Salario Mínimo General de México; en
específico el salario real, ya que toma en cuenta la inflación y por consiguiente el verdadero poder
adquisitivo de la población. Dichos datos se obtuvieron de la Cámara de Diputados, el periodo en el
cual se realizará el estudio abarca de 1998.1 al 2013.4. Los datos se muestran a continuación.

Tabla II.64
Salario Real Mínimo General de México de 1998 al 2013
(Periodicidad: trimestral)
PERIODO Salarios PERIODO Salarios PERIODO Salarios PERIODO Salarios
1998.1 41.99 2002.1 40.4 2006.1 58.24 2010.1 57.39
1998.2 40.67 2002.2 39.93 2006.2 58.23 2010.2 57.44
1998.3 39.39 2002.3 39.48 2006.3 57.74 2010.3 57.24
1998.4 39.16 2002.4 38.84 2006.4 56.7 2010.4 56.25
1999.1 40.36 2003.1 58.06 2007.1 58.12 2011.1 57.75
1999.2 39.33 2003.2 57.77 2007.2 58.19 2011.2 57.89
1999.3 38.55 2003.3 57.49 2007.3 57.68 2011.3 57.65
1999.4 37.65 2003.4 56.6 2007.4 56.74 2011.4 56.58
2000.1 40.18 2004.1 58.02 2008.1 58.19 2012.1 57.93
2000.2 39.51 2004.2 57.75 2008.2 57.68 2012.2 58.08
2000.3 38.92 2004.3 57.2 2008.3 56.88 2012.3 57.44
2000.4 38.04 2004.4 56.02 2008.4 55.58 2012.4 56.7
2001.1 40 2005.1 58.07 2009.1 57.34 2013.1 58.29
2001.2 39.55 2005.2 57.74 2009.2 56.95 2013.2 58.01
2001.3 39.28 2005.3 57.48 2009.3 56.6 2013.3 57.93
2001.4 38.68 2005.4 56.78 2009.4 55.93 2013.4 57
Fuente: Investigación directa con datos de la Cámara de Diputados.

1. El primer paso es tener la base de datos en Excel de manera vertical, ya que de esta manera
es más sencillo trabajarlos, además, solo se utilizan los datos con el nombre Salarios, para
realizar el análisis estadístico, ya que la columna de nombre PERÍODO, solo sirve de
referencia al tiempo analizado.

121
Cuadro II.41
Salario Real Mínimo General de México de 1998 al 2013
(Periodicidad: trimestral)

Fuente: Investigación directa con datos de la Cámara de Diputados.

2. Una vez que los datos están bien organizados, el segundo paso es situar el cursor en la
barra de menú en DATOS/clic, y seleccionar Análisis de datos/clic.

Cuadro II.42
Menú Datos: Análisis de datos

Fuente: Investigación directa

3. Aparece una ventana como la siguiente, en donde se debe seleccionar la opción Estadística
Descriptiva/clic y Aceptar/clic.

Cuadro II.43
Análisis de datos

Fuente: Investigación directa


122
4. Enseguida aparece un recuadro de estadística descriptiva, en el panel Rango de entrada/clic
se selecciona el rango de la variable de estudio, en este caso es de la celda B1 a la celda
B65, y queda lo siguiente: $B$1:$B$65.
5. Seccionar la opción de Rótulos en la primera fila.
6. Colocar el cursor en la opción Rango de salida/clic.
7. Seleccionar la opción de Resumen de estadísticas/clic.

Cuadro II.44
Estadística descriptiva

Fuente: Investigación directa

8. Finalmente se coloca el cursor en Aceptar/clic para obtener la información solicitada, como


aparece a continuación:

Cuadro II.45
Estadística descriptiva del salario real en México

Fuente: Investigación directa con datos de la Cámara de Diputados

NOTA: Otra manera de obtener el Coeficiente de Asimetría es mediante la fórmula


=COEFICIENTE.ASIMETRIA (núm1, núm2.....) en donde los números son la base de datos. La
curtosis también se puede obtener mediante la fórmula =CURTOSIS (número 1, número 2...).
123
Se puede observar en el cuadro anterior los valores de asimetría y kurtosis de una manera más
sencilla, con los cuales se puede realizar el análisis de la variable.

II.6 Exámenes de reconocimiento básico sobre agrupamientos distintos de datos

Examen 1.

Referencias: Las calificaciones de los 45 alumnos del curso pasado de estadística fueron las
siguientes:

Tabla II.65
Calificaciones
4 6 8
4 6 8
4 6 8
4 7 8
5 7 8
5 7 8
5 7 9
5 7 9
5 7 9
6 7 9
6 7 9
6 7 9
6 7 10
6 8 10
6 8 10
Fuente: Investigación directa con datos hipotéticos.

Estas calificaciones servirán de base para elaborar nuevas estrategias didácticas en la materia de
estadística, motivo por el cual es necesario caracterizar estadísticamente su distribución. Con ese fin
obtenga:

1. Su agrupamiento en una serie de clases y frecuencias utilizando el método empírico, en el


cual el investigador desea analizarlas clasificadas en 4 intervalos o clases;
2. Frecuencias absolutas, relativas y los puntos medios correspondientes;
3. Grafique los datos en un histograma y en un polígono de frecuencias, interpretando el área
bajo la curva que se produce con las frecuencias relativas;
4. Con el método de momentos con respecto a la media aritmética obtenga la dirección y
forma de esta distribución de calificaciones e interprételas de forma resumida;
5. Demuestre la primera y segunda propiedad de la media aritmética.

Solución con Excel:

Respuesta 1 y 2:
𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑 = 10 − 4 = 6

124
6
𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 = = 1.5, luego
4

Tabla II.66
Calificaciones
Intervalos o Clases Frecuencia absoluta Frecuencia relativa PMi
De 4 a 5.5 9 20% 4.75
De más de 5.5 a 7.0 19 42% 6.25
De más de 7.0 a 8.5 8 18% 7.75
De más de 8.5 a 10 9 20% 9.25
TOTAL 45 100.00%
Fuente: Investigación directa con datos hipotéticos.

El histograma y polígono de frecuencias son los siguientes:

Gráfica II.23
Histograma
20 19 50%
18
42%
Frecuencia absoluta

Frecuencia relativa
16 40%
14
12 30%
10 9 9
8
8 20% 20% 20%
6 18%
4 6.25 10%
4.75 7.75 9.25
2
0 0 0 0%
[Menos de De 4 a 5.5 De más de De más de De más de [Más de
4] 5.5 a 7.0 7.0 a 8.5 8.5 a 10 10]
Frecuencia absoluta Frecuencia relativa

Fuente: Investigación directa con datos hipotéticos.

Respuesta 4:
𝑀3 −0.0772
𝐴3 = = = −0.0169
𝜎 3 (1.659)3
𝑀4 16.8425
𝐴4 = 4 = = 2.2213
𝜎 (1.659)4

Interpretación: La asimetría o dirección de la curva de la distribución es a la izquierda porque el


signo es negativo, es decir, la mayor parte de los datos están distribuidos a la izquierda de la media.
Por otra parte, la kurtosis indica que la curva es aplanada respecto al eje de las “x” porque A4 < 3.

Respuesta 5:

Propiedades de la media aritmética:

125
1) La suma algebraica de las desviaciones de un conjunto de términos con respecto a su
media aritmética es igual a cero. Primero se obtiene 𝑥̅ , luego se desvía cada uno de los
términos con respecto a su valor. Así, enseguida se trabajan con éstas últimas:

∑(𝑥𝑖 − 𝑥̅ ) = (−2.95) + (−2.95) + (−2.95) + (−2.95) + (−1.96) + (−1.96) + (−1.96) + (−1.96)


+ (−1.96) + (−0.96) + (−0.96) + (−0.96) + (−0.96) + (−0.96) + (−0.96)
+ (−0.96) + (−0.96) + (−0.96) + (0.04) + (0.04) + (0.04) + (0.04) + (0.04)
+ (0.04) + (0.04) + (0.04) + (0.04) + (0.04) + (1.04) + (1.04) + (1.04) + (1.04)
+ (1.04) + (1.04) + (1.04) + (1.04) + (2.04) + (2.04) + (2.04) + (2.04) + (2.04)
+ (2.04) + (3.04) + (3.04) + (3.04) = 0

2) La suma de los cuadrados de las desviaciones de un conjunto de términos xi con


respecto a un número A, es un mínimo si y sólo si
A = x̅
Sea A = 6.9556

∑(𝑥𝑖 − 𝑥̅ )2 = (8.73)2 + (8.73)2 + (8.73)2 + (8.73)2 + (3.82)2 + (3.82)2 + (3.82)2 + (3.82)2


+ (3.82)2 + (0.91)2 + (0.91)2 + (0.91)2 + (0.91)2 + (0.91)2 + (0.91)2 + (0.91)2
+ (0.91)2 + (0.91)2 + (0.002)2 + (0.002)2 + (0.002)2 + (0.002)2 + (0.002)2
+ (0.002)2 + (0.002)2 + (0.002)2 + (0.002)2 + (0.002)2 + (1.09)2 + (1.09)2
+ (1.09)2 + (1.09)2 + (1.09)2 + (1.09)2 + (1.09)2 + (1.09)2 + (4.18)2 + (4.18)2
+ (4.18)2 + (4.18)2 + (4.18)2 + (4.18)2 + (9.27)2 + (9.27)2 + (9.27)2 = 123.91

En este contexto se tiene que cuando el valor de A es mayor o menor que la media aritmética la
suma de las desviaciones elevadas al cuadrado es mayor que 123.91.

En otras palabras, cuando A tiene un valor de 5 la suma de las desviaciones es 296, en tanto, cuando
el valor de las misma es 8 la suma es 173.

126
Examen 2.

Referencias: Las calificaciones de los 45 alumnos del curso pasado de econometría fueron las
siguientes:
Tabla II.67
Calificaciones
6 7 8
6 8 9
6 8 9
6 8 9
7 8 9
7 8 9
7 8 9
7 8 9
7 8 9
7 8 9
7 8 9
7 8 9
7 8 10
7 8 10
7 8 10
Fuente: Investigación directa con datos hipotéticos.

Estas calificaciones servirán de base para elaborar nuevas estrategias didácticas en la materia de
econometría, motivo por el cual es necesario caracterizar estadísticamente su distribución. Con ese
fin obtenga:

1. Su agrupamiento en una serie de clases y frecuencias utilizando el método empírico, en el


cual el investigador desea analizarlas clasificadas en 4 intervalos o clases;
2. Frecuencias absolutas, relativas y los puntos medios correspondientes;
3. Grafique los datos en un histograma y en un polígono de frecuencias, interpretando el área
bajo la curva que se produce con las frecuencias relativas;
4. Con el método de momentos con respecto a la media aritmética obtenga la dirección y
forma de esta distribución de calificaciones e interprételas de forma resumida;
5. Demuestre la primera y segunda propiedad de la media aritmética.

II.6.1 Importante: Ejercicio adicional sobre agrupamientos distintos de datos

Éste pudiera parecer un ejercicio más sobre los métodos de agrupamiento de los datos, en este caso,
usando el método de clases (intervalos) y frecuencias, aplicando el método empírico en donde la
única restricción es que los datos se agrupen en cuatro clases o intervalos; sin embargo, resultó ser
interesante no sólo en términos de agrupamiento de los datos con base en el número de veces que se
repiten (frecuencias), sino también en términos de resultados dado que estos cambian si cambian los
límites de cada intervalo. Ejemplo: se calculó la amplitud o rango: 10 – 6 = 4, número que se
dividió entre las cuatro clases solicitadas dando 1, denominado amplitud de la clase, es decir, es la
diferencia entre el límite inferior y superior de cada intervalo de clase. Así,

127
Una forma de agrupar las calificaciones de los alumnos sería:

Tabla II.68
Serie de clases y frecuencias
Punto Medio o Marca de
Clases o Intervalos Frecuencia Absoluta
Clase
6 inclusive a 6.9 4 (6+6.9)/2= 6.45
7 inclusive a 7.9 12 (7+7.9)/2= 7.45
8 inclusive a 8.9 15 (8+8.9)/2= 8.45
9 inclusive a 10.0 14 (9+10)/2= 9.50
Fuente: Investigación directa con datos hipotéticos.
Comentarios:

1. La amplitud de 1 en la clase se logra en los tres primeros intervalos, no así en el cuarto en


donde ésta es de 1.1
2. Derivado de lo anterior se observa que no es constante la amplitud de la clase.
3. En consecuencia el último punto medio es mayor en cinco centésimas que los tres
anteriores.
4. En este caso la moda está entre 8 a 9; y la mediana también se ubica entre 8 y 8.9;
5. Por consiguiente la media aritmética debe ser menor a estos dos valores. La asimetría, A 3 =
0.02249 indica que la mayor parte de los datos están en el lado derecho de la curva, aunque
es un valor tan pequeño que bien podría hablarse de una curva cuasinormal o
cuasisimétrica;

Ahora bien, si se agrupan los ingresos mensuales en miles de pesos de las siguientes personas en
intervalos de clases y frecuencias se tiene:

Tabla II.69
Ingresos mensuales en miles de personas
Intervalos de Número de personas: Punto Medio o Frecuencia
clase Frecuencia Absoluta Marca de Clase Acumulada
6a7 16 6.5 16
De más de 7 a 8 15 7.5 31
De más de 8 a 9 11 8.5 42
De más de 9 a 10 3 9.5 45
TOTAL 45
Fuente: Investigación directa con datos hipotéticos.

Comentarios:

1. La amplitud de la primera clase es de 1.1; en tanto que la de las tres siguientes clases es de
1; en otras palabras, cambió radicalmente la distribución de frecuencias, dado que en el
caso anterior se concentraban en las últimas clases;
2. El valor de los puntos medios en este caso es una unidad cinco centésimas mayor en las tres
primeras clases que en el caso anterior, casi nada; sin embargo, se observa que todos
difieren en una unidad, es decir, en una diferencia constante, lo cual no sucedió en el caso
anterior (el punto medio de la última clase es de 9.50);
128
3. Derivado de lo anterior, ahora la moda se localiza entre 6 y 7; la mediana ahora está entre
más de 7 y 8; la media aritmética, por la relación numérica que existe entre estas tres
medidas de tendencia central, es menor a 8.
4. Como se observa la caracterización estadística expresada a través de los valores de la
media, la mediana y la moda, cambio drásticamente dado que ahora son otros sus valores;
no obstante, en lo que se refiere a la dirección de la curva, se mantiene la misma asimetría
pequeña (0.02249) a la derecha de la curva.

En definitiva, ¿Qué agrupamiento y por consiguiente qué medidas de tendencia central representan
mejor las calificaciones de los alumnos?

Al respecto, antes de contestar la pregunta debe señalarse que el número de observaciones (45) es
pequeño y que cualquier variación en ellos es notoria significativamente; derivado de lo anterior y
con base, por ejemplo en las definiciones de Arthur Bowley: “la estadística es la ciencia de los
grandes números” (1901) y de W. F. Willcox: “la estadística es el estudio numérico de grupos o
masas a través del estudio de las unidades que las componen” (1934), en este caso no se recomienda
agrupar los datos en clases y frecuencias sino en una serie simple o de frecuencias; agréguese a lo
anterior que agrupar los datos en clases y frecuencias tiene la limitante de que al usar los puntos
medios de las clases como representantes de los valores contenidos en las clases, el cálculo de las
medidas estadísticas es menos preciso que con la serie simple y la de frecuencias antes
mencionadas.

Recomendaciones:

1. Usar la serie de clases y frecuencias sólo cuando se maneje un gran número de datos y haya
gran variabilidad entre ellos;
2. Sí para el agrupamiento de datos en clases y frecuencias se utiliza el criterio subjetivo,
entonces no debe establecerse la restricción del número de clases (4) sino dejar al libre
albedrío del investigador;
3. En este sentido se recomienda que el investigador primero observe la distribución de datos,
su número y amplitud que existe entre los valores de la serie, con objeto de que
posteriormente decida realmente cuantas clases usar y sí tendrán amplitudes constantes o
diferentes. En otras palabras, el investigador debe ser libre de decidir cómo agrupar los
datos con base en los objetivos del estudio, la estadística sólo le proporciona el método para
que haya consistencia en el agrupamiento de los datos.
4. Cuando el número de datos sea pequeño y si se duda de la representatividad que tenga la
media como medida de su tendencia hacia el centro, se recomienda calcular el coeficiente
de variación y si el valor relativo de este último es mayor que 10%, entonces ello significa
que no es representativa y que se debe optar por usar otra medida de tendencia central como
representativa de los datos.

129
CÁPITULO III. NÚMEROS ÍNDICE

III.1 Conceptos básicos de los números índice

Un índice, representado con I, es un número relativo que se usa para medir la variación de los
valores de los datos de un fenómeno a través del tiempo (Wooldridge, 2009:884). En Economía se
usan mucho y en particular para medir las variaciones de los precios, Ip, de las cantidades, Iq, y del
valor, Iv, de los bienes y servicios que existen en el mercado de uno a otro periodo. Para ello se usa
una muestra constituida por un grupo heterogéneo de bienes y servicios: automóviles, frijoles,
camisas, televisores, corbatas, cepillos de dientes, etc., la cual es revisada periódicamente para
asegurar la vigencia de la representatividad del universo estadístico del cual proviene. Así, un
índice expresa la variación conjunta de los valores de los datos de un grupo de bienes y servicios
económicos.

Origen

En opinión de Mason et al (2001: 620), al italiano G.R. Carli se le atribuye la paternidad de estos
indicadores, ya que los elaboró e integró a un informe que hizo en el año de 1764 sobre las
oscilaciones de los precios de Europa de 1500 a 1750.

¿Por qué se acostumbra convertir los datos originales en índices? Porque sólo así se pueden manejar
y comparar los precios y cantidades de grupos de bienes y servicios de diversa índole (zapatos,
mantequilla, medicinas, automóviles, etc).

El índice es una medición hecha sobre variaciones en el tiempo de los precios, cantidades o valor de
uno o varios bienes y servicios existentes en el mercado. Por convención se toma una base para
medir esa variación tomando como referencia 100%; de tal manera que cuando el índice por
ejemplo es 83%, ello significa que hubo una disminución del 17%; de igual manera cuando es por
ejemplo, 325%, ello indica que hubo un aumento de 225%.

Los índices tienen una gran aplicación, en la actualidad constituyen la columna vertebral para la
toma de decisiones en el combate a la inflación, para medir la productividad de los factores de la
producción y para medir la rentabilidad de las inversiones, entre otras aplicaciones.

Los índices son de diferente naturaleza; su cálculo se basa en el muestreo estadístico debido a la
amplia gama de bienes y servicios existentes en el universo económico, por lo que se opta para
calcularlos utilizando un reducido número de ellos, es decir, una muestra proveniente del vasto
universo compuesto por los bienes y servicios existentes en el mercado en un momento dado.

130
III.2 Tipos de índices

Los hay relativos/simples y compuestos o ponderados. En este capítulo se calcularán unos y otros
para los precios, las cantidades y de valor.

III.2.1 Números índice simples.

Los números índice relativos son los porcentajes que expresan variaciones de precio o cantidad de
un producto X (en relación con su precio o cantidad de un año base).También estas variaciones se
pueden calcular para varios productos y/o servicios.

Para calcular números índices de precios se requiere: seleccionar los artículos, selección del período
base, los precios de los artículos y/o selección de la fórmula.

Puesto que una variación se mide en el tiempo, se llamara Po y Qo a los precios y cantidades, del
año, (día o mes) base o de referencia, y P1, Q1 a los precios y cantidades del año (día o mes) de
comparación. Así, una variación en términos relativos será:

𝑃1 𝑄1
𝐼𝑝 = ∗ 100; 𝐼𝑞 = ∗ 100
𝑃0 𝑄0

Ip y Iq indican el índice de precios y cantidades, respectivamente.

Un índice relativo se puede calcular para una mercancía ( Holguín, 1983) o servicio, como el caso
anterior o para varios, como sucede en la realidad.

Su fórmula es:

∑ 𝑃1 ∑ 𝑄1
𝐼𝑝 = ∗ 100; 𝐼𝑞 = ∗ 100
∑ 𝑃0 ∑ 𝑄0

Igualmente, los índices simples o relativos como promedios que pretenden ser representativos, de
las variaciones de los fenómenos suelen calcularse con las siguientes fórmulas, según la naturaleza
y características de los fenómenos.

Media aritmética:

𝑃1 𝑄1
∑ ∑
𝑃0 𝑄0
𝐼𝑝 = ∗ 100 ; 𝐼𝑞 = ∗ 100
𝑛 𝑛

Media geométrica log:

𝑃1
∑ log
𝑃0
𝐼𝑝 = + log 100 − log 𝑛
𝑛
131
Media geométrica log:

𝑄1
∑ log
𝑄0
𝐼𝑞 = + log 100 − log 𝑛
𝑛
Media armónica:
𝑛
𝐼𝑝 = ∗ 100
𝑃
∑ 0
𝑃1
𝑛
𝐼𝑞 = ∗ 100
𝑄
∑ 0
𝑄1

Estadísticamente estas fórmulas expresan promedios, en este caso de las variaciones. Por
consiguiente las limitaciones que tiene la media aritmética de que es afectada por los valores
extremos inciden en estos índices (relativos) que por consiguiente no miden objetivamente las
variaciones, por lo que su uso es limitado (cuando los datos son homogéneos). Para superar este
limitante se usan factores de ponderación en la forma que se demuestra a continuación.

III.2.2 Números índice compuestos o ponderados

En el índice de precios el factor de ponderación es la cantidad y en el índice de cantidades el factor


de ponderación es el precio.

∑ 𝑃1 𝑄 ∑ 𝑄1 𝑃
Luego: 𝐼𝑝 = ∑ ; 𝐼𝑞 = ∑
𝑃0 𝑄 𝑄0 𝑃

Al respecto, el factor de ponderación puede ser el del año base o el del año de comparación. Cuando
es el año base, la fórmula es:

∑ 𝑃1 𝑄0 ∑ 𝑄1 𝑃0
𝐼𝑝 = ∗ 100; 𝐼𝑞 = ∗ 100
∑ 𝑃0 𝑄0 ∑ 𝑄0 𝑃0

que elaboró Laspeyres. Cuando es el año de comparación se usan las fórmulas elaboradas por
Paasche:

∑ 𝑃1 𝑄1 ∑ 𝑄1 𝑃1
𝐼𝑝 = ∗ 100; 𝐼𝑞 = ∗ 100
∑ 𝑃0 𝑄1 ∑ 𝑄0 𝑃1

En este sentido Fisher formula una ponderación de las dos anteriores y la llamo: “Fórmula ideal de
Fisher”, la cual viene dada por:

∑ 𝑃1 𝑄0 ∑ 𝑃1 𝑄1
𝐼𝑝 = √ ∗ ∗ 100
∑ 𝑃0 𝑄0 ∑ 𝑃0 𝑄1

132
∑ 𝑄1 𝑃0 ∑ 𝑄1 𝑃1
𝐼𝑞 = √ ∗ ∗ 100
∑ 𝑄0 𝑃0 ∑ 𝑄0 𝑃1

Derivado de los desarrollos anteriores se puede decir que el índice del valor se calcula con la
siguiente formula:

∑ 𝑃1 𝑄1
𝐼𝑣 = ∗ 100
∑ 𝑃0 𝑄0

III.3 Pruebas matemáticas para escoger el índice más apropiado

Puesto que hay diferentes métodos para calcular índices (Marshall, Keynes, Ellsworth, etc.) Irving
Fisher ideó una serie de criterios matemáticos para que con base en ellos el investigador pudiera
seleccionar el más adecuado para medir las variaciones en el tiempo: de precios, cantidades o de
valor. Así, a continuación se muestran algunos criterios matemáticos utilizados para seleccionar el
índice más apropiado (Croxton y Crowden, 1964)

 Reversión cronológica
 Reversión de factores.

De tal suerte que el índice que pasa "esas pruebas matemáticas” es el que debe usarse en opinión de
Fisher. Como se verá más adelante con un ejemplo numérico, sólo el índice de Fisher pasa estas
pruebas, por eso lo llamó “ideal”.

III.4 Cambio de base

Es algo que fácilmente y de manera rutinaria el investigador suele hacer, en particular cuando la
serie es ya demasiado larga.

Ello significa que el cambio de base se hace por comodidad, ergo; por ello expresa las variaciones
en función de un año reciente, pero de ninguna manera mejora la serie o valores del fenómeno bajo
estudio.

Procedimiento para transformar los precios de mercado en precios reales de bienes y


servicios

III.5. Deflactación

La Deflactación es el proceso por el cual los precios corrientes o de mercado se transforman en


precios reales o constantes, respecto de un índice de base fija previamente determinada. La
deflactación sirve para expresar en términos reales los precios de mercado eliminado la inflación.
La medición de sus variaciones es objetiva y no se distorsiona por los precios corrientes de los
bienes y servicios en variables como el ingreso, salario, ventas, es decir, por medio del proceso de
deflactación se elimina el efecto distorsionador de los precios en el análisis de un fenómeno

133
económico (salario, ingreso, ventas) para que este quede expresado en forma real o constante y la
medición de sus variaciones sea objetiva y no distorsionada por los precios corrientes de los bienes
y servicios.

Para deflactar los datos de un fenómeno económico, lo que se hace primero es seleccionar el
deflactor o índice correspondiente a la naturaleza de ese fenómeno. Al respecto es conveniente
señalar que en México se calculan diversos índices de precios de los cuales destacan: el índice
Nacional de precios al Consumidor, al Productor, la Vivienda, PIB, Índice de precios al mayoreo,
etc.

Una vez seleccionado el índice correspondiente como deflactor, para transformar valores
nominales (o precios de mercado) en valores reales (a precios constantes de un año base
seleccionado previamente) se procede de la siguiente forma:

1. Se simplifica el índice correspondiente que generalmente está expresado en porcentajes al


tanto por uno;
2. Los valores obtenidos se utilizan para dividir el precio o valor de mercado de los bienes y
servicios que se desean deflactar por valor del tanto por uno correspondiente a cada año.

Así se hace para todos los datos del fenómeno bajo estudio durante un período de tiempo
determinado. El cociente resultante es el valor real, en cada año, del fenómeno de interés.

III.5.1. Inflactación

Por analogía, conservando el espíritu de eliminar el efecto de los precios de mercado o nominales,
estos también se pueden inflactar a precios reales los valores de los fenómenos de interés.

III.6 Construcción de índices


III.6.1 El profesor Alberto Reyes de la Rosa homogenizó la información al deflactar de
1968 al año 2002, como se expone a continuación.

134
IV.6.1 Tabla III.1 Deflactación

1 2 3 4 5 6 7
Inflación
Base Base Base
INPC INPC INPC Base
1968=100 1978=100 1994=100
2002=100
1968 100 30.2 30.20 0.08 0.08
1969 103.5 31.3 31.30 0.08 0.08 3.5
1970 108.7 32.9 32.30 0.09 0.09 3.2
1971 114.6 34.6 34.00 0.09 0.09 5.3
1972 120.3 36.4 35.70 0.10 0.10 5.0
1973 134.8 40.7 40.00 0.11 0.11 12.0
1974 166.8 50.4 49.50 0.13 0.13 23.8
1975 191.8 58.0 57.00 0.15 0.15 15.2
1976 222.1 67.1 66.00 0.18 0.18 15.8
1977 286.7 86.7 85.10 0.23 0.23 28.9
1978 330.8 100.0 100.00 0.27 0.27 17.5
1979 117.8 35.6 118.20 0.32 0.32 18.2
1980 149 45.0 149.30 0.40 0.40 26.3
1981 191.9 58.0 191.10 0.51 0.51 28.0
1982 302.4 91.4 303.60 0.81 0.81 58.9
1983 612.90 1.64 1.64 101.9
1984 1014.10 2.71 2.71 65.5
1985 1599.70 4.28 4.27 57.7
1986 2979.20 7.97 7.95 86.2
1987 6906.60 18.47 18.43 131.8
1988 14791.20 39.55 39.47 114.2
1989 17705.60 47.35 47.25 19.7
1990 22481.50 60.12 60.00 27.0
1991 27576.30 73.75 73.59 22.7
1992 31852.80 85.18 85.01 15.5
1993 34959.00 93.49 93.29 9.8
1994 37394.10 100.00 99.79 7.0
1995 50478.30 134.99 134.71 35.0
1996 67836.64 181.41 181.04 34.4
1997 81828.39 218.83 218.37 20.6
1998 94890.15 253.76 253.23 16.0
1999 110595.67 295.76 295.15 16.6
2000 121092.62 323.83 323.16 9.5
2001 128187.35 342.80 342.09 5.9
2002 100.21 100.21 5.7
Fuente: Investigación directa con datos de INEGI.

Se parte inicialmente de los datos que se obtienen de la fuente de información que es la columna
número 2, base 1968=100, para pasar de la base 1968 a 1978=100 es necesario realizar una
100
simple operación aritmética que es la división de 330.8 ∗ 100 = 30.2, el dato de 330.8 se usa por
103.5
ser el año al que se va a “arrastrar la información”, para el siguiente año la operación es 330.8

100 = 31.3 y así sucesivamente hasta donde se desea hacer el cambio de base.

135
En la columna 4 es solamente el INPC con base 1978, para cambiar la base a 1994 los resultados
30.2
aparecen en la columna 5; los cálculos son los siguientes para el año 1968 37,394.10
∗ 100 =
0.0807, para el año 1975.

III.6.1 Índices simples para las ventas de un artículo

Un vendedor de refrigeradores tiene las siguientes ventas:

Tabla III.2
Ventas
Precio Promedio No. De Unidades
Año Ingresos en Miles $
por unidad $ vendidas
(A) (B) (C) B*C
1996 3000 60 180
1997 3300 63 207.9
1998 3900 60 234
1999 4500 66 297
2000 4500 72 324
2001 4800 75 360
2002 4950 66 326.7
Fuente: Investigación directa con datos hipotéticos

Considerando 1996=100, es decir, año base, los índices se calculan así:

𝑃1 𝑄1
𝐼𝑝 = ∗ 100; 𝐼𝑞 = ∗ 100
𝑃0 𝑄0

Tabla III.3
Construcción de Índices
Año Precio (P) Cantidad (Q) Ingresos
$ Índice Unidades Índice $ Índice
1996 3,000 100 60 100 180 100
1997 3,300 110 63 105 207.9 116
1998 3,900 130 60 100 234 130
1999 4,500 150 66 110 297 165
2000 4,500 150 72 120 324 180
2001 4,800 160 75 125 360 200
2002 4,950 165 66 110 326 181.11
Fuente: Investigación directa con datos hipotéticos

Si ahora se cambia de base, ergo, al año 2000=100, haciendo los cálculos con dos procedimientos
para los precios se tendrá:

136
Tabla III.4
Cálculo de Índices base 2000
Año Índice base Cálculo con Números Índice base
Año 1996=100 Originales Año 2000=100
1996 100 100(3000 ÷ 4500) = 67 67
1997 110 100(3300 ÷ 4500) = 73 73
1998 130 100(3900 ÷ 4500) = 87 87
1999 150 100(4500 ÷ 4500) = 100 100
2000 150 100(4500 ÷ 4500) = 100 100
2001 160 100(4800 ÷ 4500) = 107 107
2002 165 100(4950 ÷ 4500) = 110 110
Fuente: Investigación directa con datos hipotético de la Tabla III.3

Lo mismo puede hacerse para las cantidades y los ingresos.

III.7 Aplicaciones para deflactar e inflactar

La deflactación se hace lo mismo para una serie cronológica como para el análisis comparativo en
dos años de un fenómeno en términos reales.

Así por ejemplo, si se desea conocer el ingreso real de una persona de 2010 a 2011, tomando en
cuenta que el primer año su ingreso nominal fue de $10 millones y en el segundo fue de $12.6
millones. El procedimiento es el siguiente.

Con 2010 = 100%

Tabla.III.5
Deflactación
Año Ingreso Nominal (millones) Ip Ingreso Real (millones)
2010 $10 100 Ingreso Nominal ÷ Ip = 10 ÷ 1.0 = 10.00
2011 $12.60 110 Ingreso Nominal ÷ Ip = 12.6 ÷ 1.1 = 11.45
Fuente: Investigación directa con datos hipotéticos.

En ocasiones es necesario inflactar los valores de un fenómeno económico, como las ventas anuales
de una empresa.

Por ejemplo, en 2011 se deseaba inflactar las ventas hechas por las empresas durante 2008, 2009,
2010 y 2011. Para ello se cuenta con el índice de precios al consumidor para esos años el cual,
hacer la inflactación correspondiente tomando como base 2011=100.

137
Tabla III.6
Aplicaciones para deflactar e inflactar
Nuevo Índice
Año Índice
Para Dividir Para Multiplicar
2011 153.63 153.63 ÷ 153.63 = 100 153.63 ÷ 153.63 = 100
2010 118.18 118.18 ÷ 153.63 = 0.77 153.63 ÷ 118.18 = 1.3
2009 99.95 99.95 ÷ 153.63 = 0.65 153.63 ÷ 99.95 = 1.54
2008 85.1 85.10 ÷ 153.63 = 0.55 153.63 ÷ 85.10 = 1.82
Fuente: Investigación directa con datos hipotéticos

Ejemplo: $100 millones de ventas de 2008, 2009 y 2010 equivalen a precios de 2011 a:
Tabla III.7
Aplicaciones para inflactar
Año Ventas (Millones de pesos de cada empresa)
2008 $100 ÷ 0.55 = $182 = $100 * 1.82
2009 $100 ÷ 0.65 = $154 = $100 * 1.54
2010 $100 ÷ 0.77 = $130 = $100 * 1.3
Fuente: Investigación directa con datos hipotéticos

Ahora bien para deflactar, si se fija 2008=100 como año base, es decir, se lleva el valor de las
ventas a precios de 2008, en este caso se hace lo contrario, es decir, se hace un cambio de base al
revés.
Tabla III.8
Aplicaciones para deflactar
Año Índice Anterior Nuevo Índice
Dividir Multiplicar Para Dividir Para Multiplicar
2008 0.55 1.82 0.55 ÷ 0.55 = 1.0 1.82 ÷ 1.82 = 1.00
2009 0.65 1.54 0.65 ÷ 0.55 = 1.18 1.54 ÷ 1.82 = 0.85
2010 0.77 1.30 0.77 ÷ 0.55 = 1.4 1.3 ÷ 1.82 = 0.71
2011 1.00 1.00 1.00 ÷ 0.55 = 1.81 1.0 ÷ 1.82 = 0.55
Fuente: Investigación directa con datos hipotéticos

Así $100 millones de 2008, 2009, 2010, y 2011 equivalen a precios de 2008 a:

Tabla III.9
Aplicaciones para deflactar
Año Millones de $ en ventas de cada empresa
2008 $100 ÷ 1.00 = 100 = 100 * 1.00
2009 $100 ÷ 1.18 = 85 = 100 * 0.85
2010 $100 ÷ 1.4 = 71 = 100 * 0.71
2011 $100 ÷ 1.81 = 55 = 100 * 0.55
Fuente: Investigación directa con datos hipotéticos

De los cálculos anteriores se puede deducir un indicador muy útil y por consiguiente muy usado en
economía, el cual es el siguiente:
Poder adquisitivo =1 ÷ Ip

138
III.8 Caso real: Cálculo de la inflación mensual acumulada en México

A continuación, se muestran los cálculos que hacia el Banco de México para determinar el índice
inflacionario mensualmente. Aun cuando el ejemplo se refiere al año de 1990, la metodología está
vigente. Cálculo de la tasa de inflación acumulada a partir de las tasas mensuales de inflación. Para
ello se toma como referencia el Índice Nacional de Precios al Consumidor, (I.N.P.C.), con 1978 =
100 así para 1990:

Tabla III.10
Cálculo de la inflación mensual acumulada en México en 1990
I II III IV
Índice
Base Inicial para
Nacional de
Variación aplicar la Importe de la Inflación
Mes Precios al
Mensual Del inflación del mes Inflación del Acumulada
Consumidor
INPC (100+col. IV del mes % %
1978=100
renglón anterior)
A Enero 20,260.70 4.8 100 4.8 4.8
B Febrero 20,719.50 2.3 104.8 2.4104 7.2104
C Marzo 21,084.80 1.8 107.2104 1.92978 9.14018
D Abril 21,405.70 1.5 109.141187 1.63712 10.7773
E Mayo 21,779.20 1.7 110.778305 1.88323 12.66053
F Junio 22,258.90 2.2 112.661536 2.47855 15.13908
G Julio 22,664.80 1.8 115.14009 2.072522 17.211602
H Agosto 23,051.00 1.7 117.212612 1.992614 19.204216
I Septiembre 23,379.60 1.4 119.205226 1.668873 20.873089
J Octubre 23,715.70 1.4 120.874099 1.692237 22.565326
20.6 22.565326
Fuente: Investigación directa con datos de INEGI/Banxico

Para obtener la tasa mensual acumulada, no se debe sumar las tasas de inflación de cada mes, se
debe multiplicar y después sumar; para así acumular correctamente las tasas de inflación de cada
mes.
Así al empezar el mes de enero de 1990, se parte de la base 100 (columna I renglón A). La tasa de
inflación del mes de enero fue de 4.8% luego la tasa de inflación acumulada al final del mes fue del
4.8 (columna IV renglón A)

La tasa de inflación del mes de febrero fue de 2.3%. Sin embargo la tasa de inflación acumulada
durante estos dos meses de 1990 no fue la simple suma de 4.8+2.3=7.1. El cálculo de la inflación
acumulada al 29 de febrero fue: 104.8 x 0.023 = 2.4104 + 4.8 = 7.21 % (columna IV renglón B).

Generalizando para los meses siguientes:

139
Tabla III.11
Cálculo de la inflación mensual acumulada en México.
Marzo 107.2104 * 0.018 = 1.92978 + 7.2101 = 9.14018
Abril 109.141187 * 0.015 = 1.63712 + 9.14016 = 10.7773
Mayo 110.778305 * 0.017 = 1.88323 + 10.7783 = 12.66053
Junio 112.661536 * 0.022 = 2.47855 + 12.66165 = 15.13908
Julio 115.14009 * 0.018 = 2.072522 + 15.14009 = 17.211602
Agosto 117.212612 * 0.017 = 1.992614 + 17.212612 = 19.204216
Septiembre 119.205226 * 0.014 = 1.668873 + 19.205226 = 20.873089
Octubre 120.874099 * 0.014 = 1.692237 + 20.874099 = 22.565326
Fuente: Investigación directa con datos del Banco de México/INEGI

Así, puede observarse en la tabla III.11 que al finalizar el mes de octubre de 1990, la tasa de
inflación fue del 22.565326 (columna III y columna IV) y no del 20.6 (columna I) como lo indicaría
simplemente la suma de las tasa de inflación mensual.

III.9 Ejemplos adicionales

III.9.1 Ejemplos sobre el cálculo de números índices compuestos o ponderados de precios

Sean los datos de la siguiente Tabla III.12:

Tabla III.12
Para números índices compuestos o ponderados
2001 2002
Producto Unidad P1Q0 P0Q0 P1Q1 P0Q1
P0 Q0 P1 Q1
Maíz Kgs. 2 3 3 1 9 6 3 2
Arroz Kgs. 4 3 6 2 18 12 12 8
Papa Kgs. 6 4 9 3 36 24 27 18
Trigo Kgs. 8 5 12 4 60 40 48 32
Sal Kgs. 10 6 15 5 90 60 75 50
30 21 45 15 213 142 165 110
Fuente: Investigación directa con datos hipotéticos

Los cálculos de los índices correspondientes son:

Laspeyres
∑ 𝑃1 𝑄0 213
𝐼𝑝 = ∗ 100 = ∗ 100 = 1.5 ∗ 100 = 150%
∑ 𝑃0 𝑄0 142
Paasche
∑ 𝑃1 𝑄1 165
𝐼𝑝 = ∗ 100 = ∗ 100 = 1.5 ∗ 100 = 150%
∑ 𝑃0 𝑄1 110
Marshall

∑ 𝑃1 (𝑄0 + 𝑄1 ) 45(21 + 15) 1620


𝐼𝑝 = ∗ 100 = ∗ 100 = ∗ 100 = 1.5 ∗ 100 = 150%
∑ 𝑃0 (𝑄0 + 𝑄1 ) 30(21 + 15) 1080

140
Fórmula ideal de Fisher

∑ 𝑃1 𝑄0 ∑ 𝑃1 𝑄1 213 165
𝐼𝑝 = √ ∗ ∗ 100 = √ ∗ ∗ 100 = √1.5 ∗ 1.5 ∗ 100 = √2.25 ∗ 100
∑ 𝑃0 𝑄0 ∑ 𝑃0 𝑄1 142 110

𝐼𝑝 = 1.5 ∗ 100 = 150%

∑ 𝑄1 𝑃0 ∑ 𝑄1 𝑃1
𝐼𝑞 = √ ∗ ∗ 100 = √0.79 ∗ 0.79 ∗ 100 = √0.6241 ∗ 100
∑ 𝑄0 𝑃0 ∑ 𝑄0 𝑃1

𝐼𝑞 = 0.79 ∗ 100 = 79%

III.9.2 Numeros índice de precios simples o relativos:

∑ 𝑃1 𝑄1 165
𝑎). − 𝐼𝑣 = ∗ 100 = ∗ 100 = 1.16 ∗ 100 = 116%
∑ 𝑃0 𝑄0 142

b).- Media aritmética de relativos


𝑃
∑ 1 75
𝑃0
𝐼𝑝 = ∗ 100 = ∗ 100 = 1.5 ∗ 100 = 150%
𝑛 5

c).- Media geométrica de relativos


𝑃
∑ 1 𝑃
𝑃0
Log𝐼𝑝 = log [ 𝑛
∗ 100] = log ∑ 𝑃1 − log 𝑛 + log 100
2

Por lo tanto log Ip = 2.1761

Su antilogaritmo = 150.0 %

d).- Media armónica de relativos


𝑛 5
𝐼𝑝 = ∗ 100 = ∗ 100 = 1.49 ∗ 100 = 149% ≅ 150%
𝑃0 3.35

𝑃1

141
Ejemplos numéricos adicionales

Tabla III.13
Para números índice compuestos o ponderados
2001=100 Log de
Recíproco
Del precio Relativos Q0 + Q1 P1(Q0 + Q1) P0(Q0 + Q1)
P0/P1
P1/P0 P1/P0
1.5 0.1761 0.67 4 12 8
1.5 0.1761 0.67 5 30 20
1.5 0.1761 0.67 7 63 42
1.5 0.1761 0.67 9 108 72
1.5 0.1761 0.67 11 165 110
7.5 0.8805 3.35 36 378 252
Fuente: Investigación directa con datos hipotéticos
Marshall
∑ 𝑃1 (𝑄0 + 𝑄1 ) 378
𝐼𝑝 = ∗ 100 = ∗ 100 = 150%
∑ 𝑃0 (𝑄0 + 𝑄1 ) 252

También existe el índice Flores-Panse. Fue calculado por Ana María Flores y V.G. Panse en 1963.
Contiene una elaboración matemática rigurosa en el cálculo de los Qs, lo que hace posible que el
indicador (índice) resulte más apegado a la realidad económica y tenga aplicación en Paasche,
Laspeyres y Fisher.

Ejemplo: para el cálculo de Q0 (consumo) su fórmula es:


𝑁
𝜇̅𝑖 𝑁𝑖
𝑄0 = ∑ 𝑐𝑖 = = 𝐸𝑠𝑡𝑖𝑚𝑎𝑐𝑖ó𝑛 𝑑𝑒𝑙 𝑐𝑜𝑛𝑠𝑢𝑚𝑜 𝑝𝑜𝑟 𝑑í𝑎
𝜇𝑖
𝑖=1
Dónde:
ci = Consumo total por día en el estrato i-ésimo.
𝜇̅𝑖 = Promedio de unidades de consumo en el estrato i-ésimo, o sea convertirá total la población
según su edad y sexo en unidades de consumo.
𝜇̅𝑖 𝑁𝑖 = Total de unidades de consumo en estrato i-ésimo.

La población se calcula tomando el sexo y la edad en unidades de consumo según la tabla de la


FAO.

III.9.3 Pruebas matemáticas

En la exposición teórica realizada al principio del capítulo se indicó que existen varias fórmulas
para calcular números índices , motivo por el cual ahora procede preguntarse cuáles son los
mejores; al respecto, autores como Taro Yamane ( 1974:181) comentan que sólo algunas de esas
fórmulas pasan las pruebas matemáticas que se describen a continuación, dentro de las cuales
destaca la de Fisher, motivo por el cual se le conoce como la fórmula ideal:

142
O sea que se aplican para identificar qué índice es el mejor de los muchos que existen para expresar
variaciones. Fisher propuso entre otros, las dos que aparecen en los siguientes dos incisos (Croxton
y Crowden, 1964). Para ello supóngase que los datos son los siguientes:

Tabla III.14
Pruebas matemáticas
2013 2014
Artículo Unidad
P0 Q0 P1 Q1
Maíz Kilos 2,343.00 2,679.00 0.66 3,071.00
Algodón Kilos 5,356.00 5,705.00 0.14 6,715.00
Heno Kilos 20,150.00 76.59 17.78 76.16
Trigo Kilos 2.13 52.10 1.43 843.30
Avena Kilos 0.70 1,107.00 0.46 1,444.00
Papa Kilos 1.58 297.30 1.13 368.90
Azúcar Kilos 0.10 4,371.00 0.05 4,817.00
Cabada Kilos 1.22 131.10 0.72 171.00
Tabaco Kilos 0.39 1,444.00 0.21 1,509.00
Linaza Litros 4.38 6.77 1.77 10.90
Centeno Kilos 1.33 78.70 1.26 61.90
Arroz Kilos 2.67 42.69 1.19 51.56
Fuente: Investigación directa con datos hipotéticos

Cálculos necesarios para realizar las dos pruebas matemáticas:

Tabla III.15
Pruebas matemáticas
P0Q0 P1Q0 P0Q1 P1Q1
3,597.90 1757.424 4,124.35 2,014.58
2,030.98 792.995 2,390.54 933.385
1,543.29 1361.7702 1,534.62 1,354.12
2,018.93 1364.3593 1,797.07 1,208.45
777.114 504.792 1,013.69 658.464
469.734 335.3544 582.862 416.1192
445.842 231.663 491.334 255.301
159.2865 93.8676 207.765 122.436
563.16 306.128 588.51 319.908
29.67291 11.9829 47.7747 19.293
104.7497 98.8472 82.3889 77.7464
113.81154 50.84379 137.6989 61.51515
11,854.46 6,910.03 12,998.61 7,441.32
Fuente: Investigación directa con datos hipotéticos

143
III.9.4 Prueba de reversión de factores

La prueba de reversión de factores se demuestra a continuación de la siguiente manera:

Si se intercambian los factores P y Q en una fórmula de índice de precios (o de cantidad) de manera


que se obtenga una fórmula de índices de cantidad (o de precios), el producto de los índices deberá
𝑃 𝑄
dar el valor exacto del índice de valor: 𝑃1 𝑄1
0 0

Verificación:

∑ 𝑃1 𝑄0 ∑ 𝑄1 𝑃0
Si se toma la fórmula de Laspeyres: ∑ se transforma ∑ 𝑄0 𝑃0
𝑃0 𝑄0

∑ 𝑃1 𝑄0 ∑𝑄 𝑃 ∑𝑄 𝑃
Esto es en un índice de cantidad, pero ∑ 𝑃0 𝑄0
∗ ∑ 𝑄1 𝑃0 es diferente de ∑ 𝑄1 𝑃1
0 0 0 0

Igualmente si se tiene la fórmula de Paasche:

∑ 𝑃1 𝑄1 ∑ 𝑄1 𝑃1 ∑ 𝑃1 𝑄1 ∑ 𝑄1 𝑃1 ∑ 𝑄1 𝑃1
∑ 𝑃0 𝑄1
se transforma en ∑ ; pero ∑ ∗∑ es diferente de ∑
𝑄0 𝑃1 𝑃0 𝑄1 𝑄0 𝑃1 𝑄0 𝑃0

En cambio la fórmula ideal de Fisher:

∑𝑃 𝑄 ∑𝑃 𝑄 ∑𝑄 𝑃 ∑𝑄 𝑃
√∑ 𝑃1 𝑄0 ∗ ∑ 𝑃1 𝑄1 al transformarse en√∑ 𝑄1 𝑃0 ∗ ∑ 𝑄1 𝑃1 y multiplicarse por la anterior
0 0 0 1 0 0 0 1

∑ 𝑃1 𝑄0 ∑ 𝑃1 𝑄1 ∑ 𝑄1 𝑃0 ∑ 𝑄1 𝑃1 ∑ 𝑃1 𝑄1
√ ∗ ∗√ ∗ =
∑ 𝑃0 𝑄0 ∑ 𝑃0 𝑄1 ∑ 𝑄0 𝑃0 ∑ 𝑄0 𝑃1 ∑ 𝑃0 𝑄0

Demostración numérica

∑ 𝑃1 𝑄0 ∑ 𝑃0 𝑄1 12,968,610.8
Laspeyres: = 0.5824; =
∑ 𝑃0 𝑄0 ∑ 𝑃0 𝑄0 11,864,461.25

Si el índice del valor:


∑ 𝑃1 𝑄1 7,441,317.45
= = 0.6272
∑ 𝑃0 𝑄0 11,864,461.25
Entonces en el caso de Laspeyres:

(1.0965)(0.5824) ≠ 0.6272; o sea que 0.6381 ≠ 0.6272

Con Paasche:

∑ 𝑃1 𝑄1 7,441,317.45
= = 0.5725 y
∑ 𝑃0 𝑄1 12,998,610.8

144
∑ 𝑄1 𝑃1 7,441,317.45
= = 1.0769 ≅ 1.078868
∑ 𝑄0 𝑃1 6,910,027.39

tal qué:(1.0769)(0.5725) ≠ 0.6272, ahora:

Trabajando con el índice ideal de Fisher:

∑ 𝑃1 𝑄0 ∑ 𝑃1 𝑄1 ∑ 𝑄1 𝑃0 ∑ 𝑄1 𝑃1 ∑ 𝑃1 𝑄1
√ ∗ ∗√ ∗ =
∑ 𝑃0 𝑄0 ∑ 𝑃0 𝑄1 ∑ 𝑄0 𝑃0 ∑ 𝑄0 𝑃1 ∑ 𝑃0 𝑄0

Esto es: √(0.5824)(0.5725) ∗ √(1.0956)(1.0769) = 0.6272

(0.5775)(1.0862) = 0.6272; por lo tanto 0.6272 = 0.6272

En conclusión, éste debería ser el índice a utilizar para medir variaciones en el tiempo.

III.9.5 Prueba de reversión cronológica

La prueba de reversión cronológica se demuestra matemáticamente como sigue:

Si se intercambian los subíndices de tiempo de una fórmula de precios (o de cantidad), la fórmula


resultante de precios (o de cantidad) deberá ser recíproca de la fórmula original.

∑𝑃 𝑄 ∑𝑃 𝑄 ∑𝑃 𝑄
Si se toma la fórmula de Laspeyres: ∑ 𝑃1 𝑄0 pero ∑ 𝑃1 𝑄0 se transforma en ∑ 𝑃0 𝑄1
0 0 0 0 1 1

Por lo tanto
∑ 𝑃1 𝑄0 ∑ 𝑃0 𝑄1
∗ ≠ 1.0
∑ 𝑃0 𝑄0 ∑ 𝑃1 𝑄1

Luego no satisface la prueba; de la misma manera en el caso de Paasche:

∑ 𝑃1 𝑄1 ∑𝑃 𝑄
∑ 𝑃0 𝑄1
se transforma ∑ 𝑃0 𝑄0.
1 0

∑ 𝑃1 𝑄1 ∑ 𝑄0 𝑃0
Pero ∑ ∗∑ ≠ 1.0
𝑃0 𝑄1 𝑄0 𝑃1

En cambio si se aplica la prueba al Índice Ideal de Fisher:

∑𝑄 𝑃 ∑𝑄 𝑃 ∑𝑄 𝑃 ∑𝑄 𝑃
√∑ 𝑄0 𝑃1 ∗ ∑ 𝑄1 𝑃1 se cambia √∑ 𝑄1 𝑃0 ∗ ∑ 𝑄0 𝑃0 tal que
0 0 1 0 1 1 0 1

∑ 𝑄0 𝑃1 ∑ 𝑄1 𝑃1 ∑ 𝑄1 𝑃0 ∑ 𝑄0 𝑃0
√ ∗ ∗√ ∗ = 1.0
∑ 𝑄0 𝑃0 ∑ 𝑄1 𝑃0 ∑ 𝑄1 𝑃1 ∑ 𝑄0 𝑃1

145
Demostración numérica

Lo anterior ahora sustituyendo los valores de la Tabla III.15 en las fórmulas anteriores, permite
obtener en el caso de Laspeyres:

∑ 𝑃1 𝑄0 ∑𝑃 𝑄
∑ 𝑃0 𝑄0
se transforma en ∑ 𝑃0 𝑄1
1 1

Recordando que:
∑ 𝑃0 𝑄1 12,998,610.8
= = 1.7468157
∑ 𝑃1 𝑄1 7,441,317.45

Luego (0.5824)(1.7468157) ≠1.0 porque 1.01734 ≠ 1.0

∑ 𝑃1 𝑄1 ∑ 𝑄0 𝑃0
Con Paasche: se transforma en
∑ 𝑃0 𝑄1 ∑ 𝑄0 𝑃1

∑ 𝑄0 𝑃0 11,864,461.25
Donde
∑ 𝑄0 𝑃1
= = 1.7169919
6,910,023.9

(0.5725)(1.79919) ≠ 1.0 es decir 0.9829778 ≠ 1.0

En el caso del Índice ideal de Fisher:

∑ 𝑄0 𝑃1 ∑ 𝑄1 𝑃1 ∑ 𝑄1 𝑃0 ∑ 𝑄0 𝑃0
√ ∗ ∗√ ∗ = 1.0
∑ 𝑄0 𝑃0 ∑ 𝑄1 𝑃0 ∑ 𝑄1 𝑃1 ∑ 𝑄0 𝑃1

Esto es: √(0.5824)(0.5725) ∗ √(1.7468157)(1.71169919) = 1.0

(0.5774)(1.7318) = 1.0 o sea que 0.99999413 = 1.0 por lo tanto 1.0 = 1.0

Conclusión: Puesto que sólo las fórmulas propuestas por Fisher pasan estas dos pruebas
matemáticas, él las llamó “Fórmula Ideal de Fisher”. Cabe señalar que en México no se usa para
medir variaciones ya sea de precios o de cantidades pero se incluyó este tema para que el lector vea
los esfuerzos que hacen los investigadores por mejorar la metodología de variaciones de una
variable.

III.10 Índices eslabonados y en cadena

Los procesos de eslabonamientos o encadenamiento permiten hacer cambios en la muestra de


bienes usados para calcular el índice ponderado compuesto. (Kazmier, 1967, 325)

El proceso de eslabonamiento se caracteriza por el cambio constante del año base. Por ejemplo el
índice de 2000 usa como base 1999 y el de 2002 toma como base 2001. Visto numéricamente:

146
Tabla III.16
Índices eslabonados y en cadena
Año Ventas en Eslabón Relativo Índice en Cadena
Millones de $ en porcentajes
1998 1.5 - 136.3
1999 1.3 86.7 118.2
2000 1.1 84.6 100
2001 1.7 154.5 154.5
2002 1.9 121.1 187.09
Fuente: Provienen de los datos de Kazmier (1967).

Las limitaciones de este índice es que no se puede hacer comparaciones sobre un número
determinado de años, para ello es necesario unir o encadenar los eslabones en términos de un sólo
año base-fija, que puede ser el año inicial o digamos el año 2000.

Para el año escogido como base el valor del índice es automáticamente fijado en 100, en este
ejemplo el año de 2000 es igual a 100, cuarta columna. Los índices para los años siguientes a 2000
fueron determinados multiplicando el eslabón relativo de cada año por el índice en cadena del año
precedente. Así, si N se refiere a un año determinado en la serie:

𝐿𝑢 ∗ 𝐶𝑢−1
𝐶𝑢 =
100
Dónde:

𝐶𝑢 = Índice de cadena del año de estudio.


𝐿𝑢 = Eslabón relativo.
𝐶𝑢−1 = Índice en cadena del año anterior.

Ilustrando la aplicación de la fórmula para el año 2002.

(121.1)∗(1545)
𝐶𝑢 2002 = 100
, 𝐶𝑢 2002 = 187.09

Para ir hacia atrás en el tiempo a partir de un año base la ecuación se resuelve para C u-1 en lugar de
Cu. Así, el índice en cadena para 1998 será:

𝐶𝑢 118.2
𝐶𝑢−1 = ∗ 100; 𝐶𝑢 1998 = ∗ 100
𝐿𝑢 86.7
Por tanto Cu 1998 = 136.3

100
Para 1999 se obtiene: 𝐶𝑢 1999 = 84.6 ∗ 100 = 118.2

147
Reafirmación de los conocimientos: cálculos de los números índice usados para “inflactar” la
información de 1997 a 2000.

PASOS:

1. Se obtuvo el índice mensual para los años de 1998 y 1999, por ser los años a que
corresponden la mayoría de las empresas, que se dividió entre 12 meses, arribándose a:

1,418.20 1,199.40
𝐼1999 = = 118.18%; 𝐼1998 = = 99.95%
12 12

2. Al año de 1999 o sea 118.8 se le incorporó el 30% de la inflación estimada para 2000, a fin
de hacer este último igual a 100% o año base:

𝐼2000 = 118.18 ∗ 1.30 = 153.63 = 100.0%

3. Con esta información se calcularon los números índice.

Tabla III.17
Índices eslabonados y en cadena.
Índice
Año Cálculo
Para dividir Para multiplicar
2000 153.63 ÷ 153.63 = 1 1
1999 118.18 ÷ 153.63 = 0.77 1.3
1998 99.95 ÷ 153.63 = 0.65 1.54
1997 85.1 ÷ 153.63 = 0.55 1.82
Fuente: Investigación directa con datos hipotéticos

148
III.11 Diferentes tipos de índices usados en México

Destacan: a) Índice Nacional de Precios al Consumidor, INPC; b) Índice Nacional de Precios al


Productor, INPP y el de la Vivienda.

Las principales diferencias (Banxico, 2002) entre el INPC y el INPP son:

Tabla III.18
Diferentes tipos de índices usados en México
INPC INPP
Es un indicador (estimador porque viene de una Es un indicador de la evolución de los
muestra) del comportamiento de los precios de los precios de los bienes y servicios que forman
bienes y servicios que consumen las familias en un la producción de la economía en un lapso
lapso dado. dado.
Incluye únicamente los bienes y servicios que Incluye: además del consumo familiar, a los
adquieren las familias para su consumo en un lapso bienes y servicios intermedios, de consumo
dado. del gobierno, de inversión y de exportación.
Las ponderaciones están basadas en los reportes que el Las ponderaciones se estiman con base en el
INEGI levanta en los hogares, los cuales, al agregarse, Sistema de Cuentas Nacionales de México,
constituyen la Encuesta Nacional de Ingreso Gasto de SCNM.
los Hogares, ENIGH.
Incluye las importaciones como una fracción de los No incluye a las importaciones.
bienes que consumen las familias.
Los precios son recabados en los establecimientos o Los precios se obtienen directamente de las
fuentes de información donde las familias acuden a empresas productoras de bienes o
realizar las compras de los bienes y servicios que suministradoras de servicios.
consumen.
Periodicidad quincenal: Los resultados se publican los Periodicidad mensual. Se publica a más
días 10 y 25 de cada mes en el Diario Oficial de la tardar el día 9 de cada mes en un boletín de
Federación, en un boletín de prensa ( que se emite prensa y en la hoja electrónica del Banco de
el día anterior a su publicación en el Diario Oficial ) y México.
en la hoja electrónica del Banco de México
Se elabora con base en precios al consumidor final que Los precios que se cotizan son
incluyen impuestos al consumo, costos de transporte y principalmente Libre a Bordo (LAB) planta
márgenes de comercialización. Las cotizaciones son de producción. Por tanto, no incluyen
proporcionadas de manera voluntaria y se publican impuestos al consumo, costos de transporte
cada mes en el Diario Oficial de la Federación, ni márgenes de comercialización; se
manteniendo la confidencialidad respecto a las fuentes proporcionan de manera voluntaria y son
de información. confidenciales.
Se calcula para 46 ciudades y a nivel nacional. Presenta resultados a nivel nacional.
Fuente: Investigación directa con datos de Banxico

149
III.12 Ejercicios sobre la construcción de índices con variables de la economía de México

Ejercicio 14: Índices relativos para un solo artículo.

Referencias. La producción nacional de maíz en grano es la siguiente:

Tabla III.19
Producción de Maíz en México

PMR Valor Producción (Miles de


Año Producción (Ton)
($/Ton) Pesos)

1990 14,635,439.00 609.47 8,919,861.01


1991 14,251,500.00 707.31 10,080,228.47
1992 16,929,342.00 761.23 12,887,123.01
1993 18,125,263.00 767.73 13,915,308.16
1994 18,235,826.00 656.22 11,966,713.74
1995 18,352,856.00 1,091.57 20,033,427.02
1996 18,025,952.45 1,434.61 25,860,211.64
1997 17,656,258.00 1,353.75 23,902,159.27
1998 18,454,710.38 1,446.18 26,688,833.06
1999 17,706,375.63 1,454.48 25,753,569.23
2000 17,556,905.24 1,507.78 26,471,950.58
2001 20,134,312.10 1,451.07 29,216,296.26
2002 19,297,754.79 1,500.56 28,957,438.93
2003 20,701,420.03 1,618.01 33,495,104.62
2004 21,685,833.34 1,678.59 36,401,622.99
2005 19,338,712.89 1,577.93 30,515,135.23
2006 21,893,209.25 2,010.55 44,017,391.86
2007 23,512,751.85 2,441.99 57,417,904.89
2008 24,410,278.53 2,817.04 68,764,731.03
2009 20,142,815.76 2,802.05 56,441,176.90
2010 23,301,878.98 2,816.48 65,629,276.11
Fuente: Investigación directa con datos obtenidos en SAGARPA.

Considerando 1990=100, es decir, año base.

Tomando 1990 como 100 se dice que 14, 635,439 toneladas será =100 y con esta referencia se
obtendrá el índice para cada año.

Ejemplo: Para 1993 = 18, 125,263 Toneladas considerando el año 1990 = 100

18,125,263
1993 = ( ) 100 = 123.845
14,635,439

150
Ejercicio 15:

Tabla III.20
Índices relativos para precio, cantidad y valor de la Producción de maíz
Valor Producción (Miles de
Producción (Ton) PMR ($/Ton)
Año Pesos)
Unidades Índice Precio Índice Valor Índice
1990 14,635,439.00 100 609.47 100 8,919,861.01 100
1991 14,251,500.00 97.38 707.31 116.053292 10,080,228.47 113.008807
1992 16,929,342.00 115.67 761.23 124.900323 12,887,123.01 144.476724
1993 18,125,263.00 123.85 767.73 125.966824 13,915,308.16 156.003643
1994 18,235,826.00 124.6 656.22 107.670599 11,966,713.74 134.158074
1995 18,352,856.00 125.4 1,091.57 179.101514 20,033,427.02 224.593489
1996 18,025,952.45 123.17 1,434.61 235.386483 25,860,211.64 289.917204
1997 17,656,258.00 120.64 1,353.75 222.119218 23,902,159.28 267.965602
1998 18,454,710.38 126.1 1,446.18 237.284854 26,688,833.06 299.206827
1999 17,706,375.63 120.98 1,454.48 238.646693 25,753,569.23 288.721643
2000 17,556,905.24 119.96 1,507.78 247.391996 26,471,950.58 296.775371
2001 20,134,312.10 137.57 1,451.07 238.087191 29,216,296.26 327.542057
2002 19,297,754.79 131.86 1,500.56 246.20736 28,957,438.93 324.640024
2003 20,701,420.03 141.45 1,618.01 265.478202 33,495,104.62 375.511508
2004 21,685,833.34 148.17 1,678.59 275.417986 36,401,622.99 408.096303
2005 19,338,712.89 132.14 1,577.93 258.901997 30,515,135.23 342.103259
2006 21,893,209.25 149.59 2,010.55 329.884982 44,017,391.86 493.476208
2007 23,512,751.85 160.66 2,441.99 400.674356 57,417,904.89 643.708516
2008 24,410,278.53 166.79 2,817.04 462.21143 68,764,731.03 770.917069
2009 20,142,815.76 137.63 2,802.05 459.751916 56,441,176.90 632.75848
2010 23,301,878.98 159.22 2,816.48 462.119546 65,629,276.11 735.765681
Fuente: Investigación directa con datos de SAGARPA.

Si ahora se cambia de base, ergo, 2000=100, haciendo los cálculos para los precios se obtiene:

100
1990 = ( ) 100 = 83.36
119.96

Siendo 100 la base anterior ya que se consideró a 1990 como 100; ahora éste se divide entre el valor
de la nueva base que será 2000=119.96 en índice de acuerdo a las toneladas y a la base anterior y se
obtiene el nuevo índice.

151
Tabla III.21
Cambio de base en la producción de Maíz
Producción (Ton) Producción (Ton)
Índice Índice Índice
Año Índice base Año
Unidades base Unidades base base
1990
2000 1990 2000
1990 14,635,439.00 100 83.36 2001 20,134,312.10 137.57 114.68
1991 14,251,500.00 97.38 81.17 2002 19,297,754.79 131.86 109.92
1992 16,929,342.00 115.67 96.43 2003 20,701,420.03 141.45 117.91
1993 18,125,263.00 123.85 103.24 2004 21,685,833.34 148.17 123.52
1994 18,235,826.00 124.6 103.87 2005 19,338,712.89 132.14 110.15
1995 18,352,856.00 125.4 104.53 2006 21,893,209.25 149.59 124.7
1996 18,025,952.45 123.17 102.67 2007 23,512,751.85 160.66 133.92
1997 17,656,258.00 120.64 100.57 2008 24,410,278.53 166.79 139.04
1998 18,454,710.38 126.1 105.12 2009 20,142,815.76 137.63 114.73
1999 17,706,375.63 120.98 100.85 2010 23,301,878.98 159.22 132.72
2000 17,556,905.24 119.96 100
Fuente: Investigación directa con datos de SAGARPA.

Lo mismo puede hacerse para los Precios y el Valor de la Producción como anteriormente se
elaboró para índices en general en la Tabla III.20

 Aplicaciones para deflactar e inflactar.

Como antes se indicó, la deflactación se hace lo mismo para una serie cronológica como para el
análisis comparativo en dos años de un fenómeno en términos reales.

Si se define la inflación como el aumento sustancial y sostenido del nivel general de precios, detrás
de este fenómeno están la cantidad total del dinero en la economía y la lucha de los distintos agentes
económicos por el reparto de la renta. Por ello para evaluar estos cambios se necesitan actualizar el
valor de los bienes e ingresos.

La técnica que se utiliza es la deflactación de valores corrientes transformándolos en valores


constantes a través de la aplicación de un índice como pueden ser el Índice Nacional de Precios al
Consumidor (INPC).

El Índice Nacional de Precios al Consumidor es un indicador económico que se emplea


recurrentemente, cuya finalidad es la de medir a través del tiempo la variación de los precios de una
canasta fija de bienes y servicios representativa del consumo de los hogares. El INPC es el
instrumento estadístico por medio del cual se mide el fenómeno económico que se conoce como
inflación. Así, el INPC es la medida de la inflación por explicar una similitud.

Ejemplo para deflactar; sean los siguientes datos:

152
Tabla III.22
Deflactación
Periodo Salario INPC Salario
Nominal Real
2001 37.57 95.424 39.372
2002 39.74 100.224 39.651
2003 41.53 104.782 39.635
2004 43.29 109.694 39.464
2005 45.24 114.069 39.66
2006 47.05 118.209 39.802
2007 48.88 122.898 39.773
2008 50.84 129.197 39.351
2009 53.19 134.071 39.673
Fuente: Investigación directa, INEGI, con base en cifras de la Comisión Nacional de Salarios Mínimos.

En la Tabla III.22 se obtienen los salarios reales con ayuda del Índice Nacional de Precios al
Consumidor, teniendo estos datos la deflactación consiste en basarnos en el índice de precios para
así obtener el salario real como e muestra en el siguiente ejemplo:

Ejemplo para el año 2004:

Como el INPC es de 109.694, se sabe que es un índice por lo que su valor esta multiplicado por
100. Así que se toma el valor de variación que será 1.0969. De ese modo se tiene el siguiente
resultado:

43.29
2004 = = 39.46
1.0969
Inflactación:

Existen dos maneras de realizarla, la primera es dividiendo. Así se toman los valores de la Tabla
III.23, por ejemplo para el periodo 2010/01, los cálculos son:

El INPC de este periodo es 96.58 y si se toma como base 2012/02 cuyo índice es 104.5

96.58
2010/01 = = 0.92
104.5
Multiplicando:
104.5
2010/01 = = 1.082
96.58
Todos los resultados del periodo se pueden observar en la Tabla III.23 de inflactación.

153
Tabla III.23
Inflactación

Periodo ÍNPC Para dividir Para Multiplicar

2010/01 96.58 0.924 1.082


2010/02 97.13 0.93 1.076
2010/03 97.82 0.936 1.068
2010/04 97.51 0.933 1.072
2010/05 96.9 0.927 1.078
2010/06 96.87 0.927 1.079
2010/07 97.08 0.929 1.076
2010/08 97.35 0.932 1.073
2010/09 97.86 0.936 1.068
2010/10 98.46 0.942 1.061
2010/11 99.25 0.95 1.053
2010/12 99.74 0.955 1.048
2011/01 100.23 0.959 1.043
2011/02 100.6 0.963 1.039
2011/03 100.8 0.965 1.037
2011/04 100.79 0.965 1.037
2011/05 100.05 0.957 1.044
2011/06 100.04 0.957 1.045
2011/07 100.52 0.962 1.04
2011/08 100.68 0.963 1.038
2011/09 100.93 0.966 1.035
2011/10 101.61 0.972 1.028
2011/11 102.71 0.983 1.017
2011/12 103.55 0.991 1.009
2012/01 104.28 0.998 1.002
2012/02 104.5 1 1
Fuente: Investigación directa con datos de INEGI

Con esos índices se pueden hacer ejercicios como los siguientes: Ejemplo, $100 millones de ventas
de 2010/1, 2010/2 y 2010/3 equivalen a precios de 2012/02 a:

Tabla III.24
Ventas
Año Ventas (Millones de pesos de cada empresa)
2010/1 $100 ÷ 0.92 = $ 108 mil = $100 * 1.08
2010/2 $100 ÷ 0.93 = $ 107 mil = $100 * 1.07
2010/3 $100 ÷ 0.936 = $ 106 mil = $100 * 1.06
Fuente: Investigación directa con datos de INEGI

154
Cálculo de la inflación mensual acumulada

Tabla III.25
Inflación acumulada
(Base segunda quincena de diciembre 2010=100)
I II III IV
Índice
Base Inicial
Nacional de Variación Inflación Inflación
Mes para aplicar la
Precios al Porcentual mensual Acumulada
inflación del
Consumidor Del INPC en % %
mes
A Enero 100.228 3.782 100 3.782 3.782
B Febrero 100.604 3.572 103.782 3.707437 7.489437
C Marzo 100.797 3.04 107.489 3.267149 10.75659
D Abril 100.789 3.361 110.757 3.722161 14.47875
E Mayo 100.046 3.249 114.479 3.719745 18.19849
F Junio 100.041 3.276 118.198 3.872736 22.07123
G Julio 100.521 3.547 122.071 4.330065 26.40129
H Agosto 100.68 3.424 126.401 4.32759 30.72888
I Septiembre 100.927 3.137 130.729 4.10067 34.82955
J Octubre 101.608 3.2 134.83 4.314546 39.1441
K Noviembre 102.707 3.48 139.144 4.842215 43.98631
L Diciembre 103.551 3.82 143.986 5.500277 49.48659
M 40.888 49.48659
Fuente: Investigación directa con datos de INEGI

Para obtener la tasa mensual acumulada, no se deben sumar las tasas de inflación de cada mes, se
debe multiplicar y después sumar; para así acumular correctamente las tasas de inflación de cada
mes.

Así al empezar el mes de enero de 2011, se parte de la base 100 (columna I renglón A). La tasa de
inflación del mes de enero fue de 3.78%, luego la tasa de inflación acumulada al final del mes fue
del 3.78 (columna IV renglón A)

El cálculo de la inflación acumulada al 29 de febrero es:

103.78 x 0.03572 = 3.7070 + 3.78=7.48 % (columna IV renglón B).

Como puede observarse los números índice sirven para hacer muchos análisis de las variaciones de
los valores de las variables económicas en el tiempo.

155
III.13 Ejercicios con Excel: Números índices

III.13.1 Índices relativos para un solo artículo

PASOS

1. Para ejemplificar el tema se utilizarán los datos de la siguiente tabla sobre la cantidad,
precio e ingresos totales del trigo.

Tabla III.26
Cantidad, precio e ingresos totales del trigo
Año TRIGO
Cantidad Precio Ingresos totales (Cantidad *
Precio)
Unidades Índice de $ Índice de $ Índice de ingresos
cantidad precios totales
2000 150 80.00 12,000.00
2001 140 70.00 9,800.00
2002 150 90.00 13,500.00
2003 130 80.00 10,400.00
2004 120 80.00 9,600.00
2005 140 70.00 9,800.00
2006 130 90.00 11,700.00
Fuente: Investigación directa con datos hipotéticos.

2. Se copian los datos tal como aparecen en la tabla desde la celda A1 en una nueva hoja de
Excel. De modo tal que la tabla quedará de la siguiente manera:

Cuadro III.1
Cantidad, precio e ingresos totales del trigo en Excel

Fuente: Investigación directa con datos hipotéticos.

3. Para este ejemplo se tomará como año base el año 2000. Siendo así, tal como se ve en el
cuadro anterior, se ubica el cursor en la celda C4/clic. En ella se escribe la siguiente
fórmula que corresponde al método para calcular cualquier índice para obtener el primer
valor del mismo, =(B4*100)/$B$4, tal como se ve en el siguiente cuadro. La fórmula
anterior consta de multiplicar el año actual, en este caso el año 2000 en la celda B4
multiplicado (*) por cien y dividir (/) lo anterior por el año base seleccionado, que es el año

156
2000. Los símbolos de dinero ($) se encuentran en la fórmula dado que se desea “fijar” la
celda, es decir, que si se copia y pega la fórmula, la celda fijada no variará al momento de
cambiar de posición dentro de la hoja de Excel. Para finalizar se le da clic en la tecla Enter
y el resultado será 100, ya que ese año es el año base.

Cuadro III.2
Fórmula para la generación del índice de cantidad del trigo

Fuente: Investigación directa con datos hipotéticos.

4. Para completar toda la columna del índice de cantidad, solamente bastará con copiar y
pegar la fórmula de la celda C4 desde la celda C5 hasta la C10 y automáticamente
aparecerán los resultados, tal como se ve en el siguiente cuadro.

Cuadro III.3
Índice de cantidad del trigo

Fuente: Investigación directa con datos hipotéticos.

5. Para elaborar el resto de los índices basta con seguir las instrucciones del paso 3 y 4
adaptando la fórmula a las celdas en las que se encuentre los datos y sin olvidar fijar la
celda del año base para poder elaborar todos los datos del índice. Finalmente y siguiendo
dichas instrucciones, los resultados de todos los índices son los que parecen en el siguiente
cuadro.

157
Cuadro III.4
Índice de cantidad, índice de precios e índice de ingresos totales del trigo

Fuente: Investigación directa con datos hipotéticos.

III.14 Cálculo de la inflación mensual acumulada

PASOS

1. En una nueva hoja de Excel y se descarga el INPC con periodicidad mensual desde
septiembre de 2014 hasta septiembre de 2015 en la celda A1. Quedando tal como se puede
ver en el siguiente cuadro.

Cuadro III.5
INPC 2° quincena de diciembre 2010 = 100 de septiembre de 2014 a septiembre de 2015

Fuente: Elaboración propia con datos de INEGI (2015).

2. Antes que nada se debe establecer al INPC de septiembre de 2014 como el nuevo año base.
Para ello se debe dividir el valor del índice anterior entre el valor seleccionado como nueva
base y multiplicar el resultado por 100. Esto se lo hace en la celda B3 y la fórmula queda de
la siguiente manera: =(B3/$B$3)*100. Se puede ver en el siguiente cuadro, que se ha fijado
el denominador de la fórmula (Los símbolos de $) para poder pegar la fórmula sin que los
valores del denominador cambien, lo cual se hace colocando el cursor en B3 dentro de la
fórmula y dando clic en el botón de F4. Así aunque se mueva la fórmula los valores de la
celda B3 permanecerán constantes. Para terminar se da clic en la tecla Enter.
158
Cuadro III.6
Fórmula para la generación de la nueva base del INPC a septiembre de 2014 = 100

Fuente: Elaboración propia con datos de INEGI (2015).

3. Para obtener el resto de los valores faltantes se “arrastra” la fórmula hasta la celda C15.
Para ello se coloca el cursor en la equina inferior derecha de la celda C3, allí el cursor
tomará forma de una pequeña cruz, se da un clic y sin soltar se jala hasta la celda C15 como
se ve en el siguiente cuadro.

Cuadro III.7
Nueva base del INPC a septiembre de 2014 = 100

Fuente: Elaboración propia con datos de INEGI (2015).

4. Ahora que ya se tiene el nuevo índice, es necesario obtener la variación del INPC. Para ello
debe situarse en la celda D4 y realizar una sencilla resta del valor de octubre del 2014
(Celda C4) del nuevo índice menos el valor del septiembre de 2013 (Celda C3), quedando
la fórmula =C4-C3, tal como se puede ver en el siguiente cuadro. Para finalizar se da clic en
la tecla Enter.

Cuadro III.8
Fórmula para la generación de la variación porcentual mensual del INPC

Fuente: Elaboración propia con datos de INEGI (2015).

159
5. Para obtener el resto de los valores faltantes de la variación porcentual mensual del INPC se
sitúa el cursor en la esquina inferior derecha de la celda D4 hasta que el cursor toma la
forma de una pequeña cruz. Se le da doble clic y automáticamente Excel generará el resto
de los valores faltantes. (Cuadro III.9)

Cuadro III.9
Variación porcentual mensual del INPC

Fuente: Elaboración propia con datos de INEGI (2015).

6. Ahora bien, es necesario generar el importe de la variación mensual. Para ello se sitúa el
cursor en la celda E3 y se multiplica el índice del nuevo año base de la columna C con la
variación porcentual mensual (Columna D) correspondiente a su mismo periodo y se divide
el resultado entre 100. En el siguiente cuadro se aprecia cómo quedó la fórmula de lo
anterior =(C4*D5)/100 . Finalmente se da clic a la tecla Enter y se obtiene el resultado.

Cuadro III.10
Fórmula para la generación del importe de la inflación del mes

Fuente: Elaboración propia con datos de INEGI (2015).

7. Para obtener el resto de los valores situarse en la esquina inferior derecha de la celda E4
hasta que el cursor toma la forma de una pequeña cruz. Se da doble clic y automáticamente
Excel generará el resto de los valores faltantes.

160
Cuadro III.11
Importe de la inflación del mes

Fuente: Elaboración propia con datos de INEGI (2015).

8. Con el importe de la variación del INPC es muy fácil obtener la inflación mensual
acumulada. Para ello debe situarse en la celda F4 y solamente copiar el importe del mes de
septiembre de 2014 de la celda E4 y pegar (Como valores) en la celda F4, ya que esa es la
inflación acumulada de ese mes. Después debe situarse en la celda F5 y sumar el importe
del mes de octubre del 2015 de la celda E5 y la inflación acumulada del mes de septiembre
de la celda F4. Su fórmula al respecto es: =E5+F4 y debe ser tal como se muestra en el
siguiente cuadro:

Cuadro III.12
Fórmula para la generación de la inflación mensual acumulada

Fuente: Elaboración propia con datos de INEGI (2015).

9. Para obtener el resto de los datos faltantes de la inflación mensual acumulada, es necesario
situarse en la esquina inferior derecha de la celda F5 hasta que el cursor toma la forma de
una pequeña cruz. Se da doble clic y automáticamente Excel generará el resto de los valores
faltantes. (Cuadro III.13) finalmente se obtiene la inflación acumulada por medio de Excel.

161
Cuadro III.13
Inflación mensual acumulada

Fuente: Elaboración propia con datos de INEGI (2015).

10. Para comprobar que se ha calculado de manera correcta la inflación mensual acumulada, la
suma total del importe de la inflación del mes tiene que coincidir con el último dato que se
obtuvo de la inflación mensual acumulada. En el Cuadro III.14 se puede observar que el
cálculo es correcto, ya que ambos resultados coinciden.

Cuadro III.14
Comprobación de la adecuada generación de la inflación mensual acumulada

Fuente: Elaboración propia con datos de INEGI (2015).

162
III.15 Números índices compuestos y ponderados

1. Para elaborar los índices compuestos y ponderados de Fisher, Marshall y Laspeyres inicie
Excel e introduzca los siguientes datos en un libro nuevo, tal como se muestra en el Cuadro
III.15.

Cuadro III.15
Datos para elaborar índices compuestos y ponderados

Fuente: Investigación directa con datos hipotéticos.

2. Debido a que Excel no cuenta con una función o herramienta para calcular directamente los
índices compuestos y ponderados primero hay que elaborar las multiplicaciones que se
piden en las columnas F, G, H e I. Para ello, haga clic en la celda F3 y escriba: = enseguida
da clic a la celda D3 después escriba:* y da clic a C3. Esto indica la multiplicación del
precio en el año uno con la cantidad del año cero del amaranto. Tal como se observa en el
Cuadro III.16.

Cuadro III 16
Fórmula en Excel para obtener P1Q0

Fuente: Investigación directa con datos hipotéticos.

3. Dar Enter y arroja el número 90. Para elaborar los valores P1Q0 de los demás productos
sitúa el cursor en la esquina inferior derecha de la celda F3 hasta que el cursor tome la
forma de una pequeña cruz. Dar clic y sin soltar, jalar hasta la celda F6. (Cuadro III.17)

163
Cuadro III.17
Valores del P1Q0 de todos los productos

Fuente: Investigación directa con datos hipotéticos

4. Para calcular el Total de P1Q0 da clic en la celda F7. Dirígete a la pestaña INICIO y, en el
grupo Modificar, haz clic en el botón Autosuma. (Cuadro III.18) finalmente da Enter

Cuadro III.18
Autosuma de los valores de P1Q0

Fuente: Investigación directa con datos hipotéticos

5. Realizar los pasos 2 a 4 para las columnas G, H e I. De modo que la tabla quede de la
siguiente manera (Cuadro III.19)

Cuadro III.19
Resultados

Fuente: Investigación directa con datos hipotéticos

6. Para elaborar los índices agrega una tabla como la que se muestra en el Cuadro III.20

164
Cuadro III.20
Tabla de datos originales y tabla de índices

Fuente: Investigación directa con datos hipotéticos

7. Para calcular el índice de Laspeyres hay que dividir la suma total del P1Q0 entre P0Q0 y
multiplicar el resultado por 100. Para esto, da clic en la celda B11. Escribe: =(F7/H7)*100
y, presiona Enter.

Cuadro III.21
Índice de Laspeyres

Fuente: Investigación directa con datos hipotéticos

8. Para elaborar el índice de Paasche, divide el total de P1Q1 entre la suma total del P0Q1 y
multiplica por 100/Enter (Cuadro III.22).

Cuadro III.22
Fórmula en Excel para obtener el índice de Paasche

Fuente: Investigación directa con datos hipotéticos

9. Calcula la suma de P0, P1, Q0 y Q1. Enseguida en la celda B13 divide: la suma de P1
multiplicado por la suma del total de Q0 y Q1; entre la suma de P0 multiplicado por la suma
del total Q0 y Q1. Todo lo anterior se multiplica por 100. Tal como se muestra en el cuadro
III.23.

165
Cuadro III.23
Fórmula en Excel para obtener el índice de Marshall

Fuente: Investigación directa con datos hipotéticos

10. Finalmente para obtener el índice de Fisher derivado de la Fórmula ideal de Fisher es
necesario obtener la raíz del resultado de dividir P1Q0 entre P0Q0, multiplicado por el
resultado de la división de P1Q1 entre P0Q1. Multiplicar el resultado de la raíz por 100.
(véase Cuadro III.24).

Cuadro III.24
Fórmula en Excel para obtener el índice de la fórmula ideal de Fisher

Investigación directa con datos hipotéticos

El resultado final es el que se muestra en el Cuadro III.25.

Cuadro III.25
Índices Compuestos y ponderados

Fuente: Investigación directa con datos hipotéticos

166
III.16 Pruebas de reversión de factores y de reversión cronológica

Con la información contenida en la siguiente tabla realizar la prueba de reversión de factores y de


reversión cronológica para los índices de Laspeyres, Paasche y Fisher, cuyo año base es el año
2000.

Tabla III.27
Productos para la higiene personal
Agosto 2000 Agosto 2005
Artículos P Q P Q
Pasta de dientes 15.3 69 17.8 78
Champú 35.6 48 47.5 36
Jabón de tocador 8.5 78 12.4 81
Talco 17.8 8 22.5 12
Enjuague bucal 27.3 13 38.7 11
Hilo dental 16.9 28 22.5 33
Jabón para manos 11.2 61 16.2 55
Cepillo de dientes 8.9 56 10.6 64
Rastrillo 7.2 45 11.4 40
Crema para afeitar 18.9 56 28.9 57
Fuente: Facultad de Economía, Digesto del Diplomado en estadística aplicada.

PASOS:

1. En una hoja de Excel se transcriben los datos de la tabla III.27 con el fin de realizar una
tabla que contenga el producto de los precios y cantidades de cada producto. Para ello, se
coloca el cursor en la celda G3 y se escribe la fórmula =PRODUCTO(B3,C3), este paso se
repite para todas las columnas con sus respectivos precios y cantidades. Finalmente con la
fórmula =SUMA(G3;G12) se obtienen los totales de cada columna8.

Cuadro III.26
Productos de los precios y las cantidades

Fuente: Investigación directa con datos obtenidos del Digesto del Diplomado en estadística aplicada

8
Este procedimiento se realiza con el objetivo de hacer más sencillo el cálculo de los índices de Laspeyres,
Paasche y Fischer que requiere el ejercicio.

167
Cuadro III.27
Productos de limpieza, precios y cantidades

Fuente: Investigación directa con datos obtenidos del Digesto del Diplomado en estadística aplicada

2. A continuación a partir de los datos obtenidos en el inciso anterior se obtiene la prueba de


reversión de factores para los índices de Laspeyres, Paasche y Fischer, en base a las
formulas vistas precedentemente.

∑ 𝑃1 𝑄𝑂 ∑ 𝑄1 𝑃0 ∑ 𝑄1 𝑃1
En el caso del índice de Laspeyres, la prueba de reversión se expresa así: ∑ 𝑃0 𝑄0
∗∑ ≠∑ ;
𝑄0 𝑃0 𝑄0 𝑃0
∑𝑃 𝑄 ∑𝑄 𝑃
por lo que en Excel para calcular ∑ 𝑃1 𝑄0 ∗ ∑ 𝑄1 𝑃0 hay que ubicarse en la celda M2 donde se realiza la
0 0 0 0
∑𝑄 𝑃
operación correspondiente (véase Cuadro III.28) Posteriormente, se obtiene el índice de valor, ∑ 𝑄1 𝑃1
0 0
(véase celda M5).

Cuadro III.28
Prueba de reversión para el índice de Laspeyres

Fuente: Investigación directa con datos obtenidos del Digesto del Diplomado en estadística aplicada

168
Cuadro III.29
Cálculo del Índice de Valor

Fuente: Investigación directa con datos obtenidos del Digesto del Diplomado en estadística aplicada

Cuadro III.30

Resultados

Fuente: Investigación directa con datos obtenidos del Digesto del Diplomado en estadística aplicada

Por tanto, en la prueba de reversión de factores para el Índice de Laspeyres se demuestra que
1.3309 ≠ 1.3234, es decir, que no pasa esta prueba.
En el caso del Índice de Paasche, con la prueba de reversión de factores también se muestra
∑𝑃 𝑄 ∑𝑄 𝑃 ∑𝑄 𝑃
que ∑ 𝑃1 𝑄1 ∗ ∑ 𝑄1 𝑃1 ≠ ∑ 𝑄1 𝑃1; por lo tanto para probarlo, se obtiene el primer componente
0 1 0 1 0 0
∑ 𝑃1 𝑄1 ∑𝑄 𝑃
representado por ∑ 𝑃0 𝑄1
∗ ∑ 𝑄1 𝑃1 para ello colocar el cursor en la celda M3 y se escribe la
0 1
fórmula correspondiente, finalmente se compara con el índice de valor calculado previamente.
Este procedimiento se repite para el Índice de Fisher donde la prueba de reversión de factores
∑𝑃 𝑄 ∑𝑃 𝑄 ∑𝑄 𝑃 ∑𝑄 𝑃 ∑𝑃 𝑄
se define como √∑ 𝑃1 𝑄0 ∗ ∑ 𝑃1 𝑄1 ∗ √∑ 𝑄1 𝑃0 ∗ ∑ 𝑃1𝑄1 = ∑ 𝑃1 𝑄1
0 0 0 1 0 0 0 1 0 0

169
Cuadro III.31
Resultados para los índices de Paasche y Fischer

Fuente: Investigación directa con datos obtenidos del Digesto del Diplomado en estadística aplicada

Como se observa en el Cuadro III.31 el índice de Paasche (como el de Laspeyres) no pasa en tanto
que el de Fisher si cumple la prueba de reversión de factores, ya que para el índice de Paasche
1.3165 es diferente de 1.3234, mientras que para el índice de Fischer se cumple que 1.3234 es igual
a 1.3234.

PASOS:

1. Para realizar la prueba de reversión cronológica se calcula la fórmula respectiva de cada


índice y se compara con la unidad como lo indica la prueba. En el caso del índice de
∑ 𝑃1 𝑄0 ∑𝑃 𝑄
Laspeyres con esta prueba se prueba que ∑ 𝑃0 𝑄0
∗ ∑ 𝑃0 𝑄1 ≠ 1.0; igualmente pasa con el
1 1
∑ 𝑃1 𝑄1 ∑ 𝑄0 𝑃0
índice, de Paasche: ∑ 𝑃0 𝑄1
∗ ∑ 𝑄0 𝑃1
≠ 1.0 , en tanto que con el de Fisher se constata que
∑ 𝑄0 𝑃1 ∑𝑄 𝑃 ∑𝑄 𝑃 ∑𝑄 𝑃
√ 𝑄0 𝑃0
∗ ∑ 𝑄1 𝑃1 ∗ √∑ 𝑄1 𝑃0 ∗ ∑ 𝑄0 𝑃0 = 1.0 respectivamente. A continuación se presenta el
1 0 1 1 0 1

Cuadro III.32 que corrobora lo anterior para los tres índices.

Cuadro III.32
Resultados de la prueba de reversión cronológica

Fuente: Investigación directa con datos obtenidos del Digesto del Diplomado en estadística aplicada

Como se puede observar en el Cuadro III.32 la prueba de reversión cronológica no se cumple para
todos los índices, sólo se cemple en el caso del índice Fisher donde 1 se iguala a la unidad.

Ejercicio: Calcular los índices eslabonados y en cadena con la información presentada en la


siguiente tabla, considerando como año base el año 2005.

170
Tabla III.28
Exportaciones
Exportaciones totales
Año
(Millones de dólares)
2000 166 120.7
2001 158 779.7
2002 161 046.0
2003 164 766.4
2004 187 998.5
2005 214 233.0
2006 249 925.1
2007 271 875.3
2008 291 342.6
2009 229 783.0
2010 298 473 .1
2011 349 375.0
Fuente: Investigación directa con datos de INEGI, Estadísticas de Comercio exterior en México, Información
preliminar (2012); UNAM, Economía Informa, núm. 369, julio–agosto, 2011

PASOS:

1. Para construir una tabla con los índices eslabonados y en cadena se transcriben a una hoja
de Excel los datos de la Tabla III.28 Exportaciones y se le anexan los encabezados de
“Eslabón relativo” e “índice en cadena” como se muestra en el siguiente cuadro.

Cuadro III.33
Tabla de exportaciones para los índices de eslabón relativo y en cadena.

Fuente: Investigación directa con datos de INEGI, Estadísticas de Comercio exterior en México, Información
preliminar (2012); UNAM, Economía Informa, núm. 369, julio–agosto, 2011

2. Una vez realizada la tabla se construye el eslabón relativo, el cual resulta de la división
entre el valor del periodo actual y el valor del periodo pasado. Por tanto, para calcular el
eslabón relativo nos colocamos en la celda C3 y se realiza la operación =(B3/B2)*100, lo
anterior se repite para el resto del periodo.

171
Cuadro III.34
Cálculo del eslabón relativo

Fuente: Investigación directa con datos de INEGI, Estadísticas de Comercio exterior en México, Información
preliminar (2012); UNAM, Economía Informa, núm. 369, julio–agosto, 2011

3. Finalmente, para calcular el índice en cadena se deben considerar las fórmulas expuestas
𝐿𝑢∗𝐶𝑢−1 𝐶𝑢
anteriormente 𝐶𝑢 = 100
y 𝐶𝑢−1 = 𝐿𝑢 ∗ 100 , así como el año base que en este caso es
2005. En este sentido para el año base seleccionado el valor del índice es automáticamente
fijado en 100. Como se muestra en la siguiente imagen el índice en cadena para cada año
depende de su posición respecto al año base

Cuadro III.35
Cálculo del índice en cadena

Fuente: Investigación directa con datos de INEGI, Estadísticas de Comercio exterior en México, Información
preliminar (2012); UNAM, Economía Informa, núm. 369, julio–agosto, 2011

172
Cuadro III.36
Cálculo del índice en cadena

Fuente: Investigación directa con datos de INEGI, Estadísticas de Comercio exterior en México, Información
preliminar (2012); UNAM, Economía Informa, núm. 369, julio–agosto, 2011

Cuadro III.37
Resultados del índice en cadena

Fuente: Investigación directa con datos de INEGI, Estadísticas de Comercio exterior en México, Información
preliminar (2012); UNAM, Economía Informa, núm. 369, julio–agosto, 2011

173
III.17 Práctica V

ALUMNO__________________________________________GRUPO_________

Problema 1.

Un número índice es un valor relativo con una base igual al 100% y se usa como indicador para
medir el cambio relativo (porcentajes) en el valor de una cosa o de un grupo de cosas en el tiempo,
independientemente de que sean simples o compuestos, los números índices más importantes en el
análisis económico pueden clasificarse en tres tipos 1)____________________
2)______________________ 3)___________________.

Los números índices que se construyen para un sólo artículo se denominan


______________________________ y los que se construyen para un grupo de artículos se llaman
______________________________________________________.

Problema 2. Los precios por unidad y las cantidades vendidas de un artículo para los años de 2014 y
2015, están dados en la siguiente tabla. Calcule usted los índices de:

a) Precios
b) Cantidades
c) Valores para 2014 con 2015 como base.

Tabla III.29
Precios por unidad y las cantidades vendidas
Año Precio por Unidad Unidades Vendidas
2014 $1.10 150
2015 $1.32 120
Fuente: Investigación directa con datos hipotéticos.

Problema 3.

Los siguientes datos corresponden a la producción de ajonjolí (en miles de toneladas), en un


determinado país. Los datos corresponden al período de 2011 a 2015 y las cantidades producidas
respectivamente son: 50, 75, 100, 120 y 140. Calcule usted:

a) Los relativos de base fija con 2011 como base


b) Los relativos en eslabón y
c) Los relativos en cadena.

174
Tabla III.30
Datos de la producción de ajonjolí
Producción de ajonjolí: Relativos de base Relativos en Relativos en
Año
miles de toneladas fija eslabón cadenas
2011 50
2012 75
2013 100
2014 120
2015 140
Fuente: Investigación directa con datos hipotéticos.

Problema 4

Suponga que los precios y las cantidades de 4 artículos vendidos durante los años de 2014 y 2015
en una ciudad son como sigue:

Tabla III.31
Precios y cantidades vendidas de 4 artículos
Precio por Unidad Cantidad
Artículo (Pesos) (En 1,000 unidades)
2014 2015 2014 2015
A 0.6 lb. 0.65 lb. 45 138
B 1.45 lb. 0.48 lb. 180 120
C 80 ton. 85 ton. 14 10
D 1.5 ton. 1.42 ton. 20 15
Fuente: Investigación directa con datos hipotéticos.

Utilice los métodos de agregados ponderados para construir los números índices de:

a) Precios
b) Cantidades
c) Valor para 2015 con 2014 como base.

Problema 5.

Utilice la información del problema No. 4. Emplee los métodos de promedios relativos para
construir los números índices compuestos de:

a) Precios no ponderados
b) Cantidades no ponderadas
c) Precios ponderados
d) Cantidades ponderadas.

Problema 6.

Utilice nuevamente la información del problema No. 4 y:

a) Calcule el Índice de precios ponderados para 2014 con base en 2015.


b) Demuestre que el método utilizado satisface la prueba de la reversibilidad temporal.
175
c) Demuestre que los índices de precios compuestos calculados satisfacen la prueba de
reversibilidad de los factores.
d) Calcule el índice ideal de precios.

Calcule el índice ideal de cantidades.

176
CAPÍTULO IV. PROBABILIDAD

Contexto e importancia

¿Por qué estudiar la teoría de la probabilidad?

Porque con su cálculo se pueden predecir los datos emanados de la casualidad con que pueden
aparecer en un experimento insertos en la incertidumbre: lo desconocido (Richmond, 1964: 101)
por ejemplo: la cuantificación de su ocurrencia con cierto grado de confianza, es decir de esos
resultados posibles en un experimento que establezca el investigador; también, la probabilidad se
debe de estudiar porque coadyuva en la sustentación de la toma de decisiones inteligentes cuando se
conocen varias opciones en la economía y en los negocios, sobre todo cuando existen el riesgo y la
incertidumbre (Salvatore, 1991). Así, por su importancia, para entender mejor la relación entre
probabilidad, incertidumbre y riesgo a continuación se ofrecen varias definiciones de estos
conceptos..

Algunos autores comentan que la incertidumbre es la ausencia de conocimiento sobre un suceso.


También indican que riesgo es el conocimiento, cuando menos, de la distribución de probabilidad
asociada al suceso. Lo anterior parece revelar que ambos términos significan lo mismo y su
diferencia está en la disponibilidad de información para calcular la probabilidad de la ocurrencia
del suceso; dicho en otras palabras, todo parece indicar que la incertidumbre es subjetiva en tanto se
carezca de datos y que se transforma en riesgo, que es objetivo, a medida que se vaya contando con
datos, porque como señalan estos expertos, ello es lo contrario de la certidumbre o certeza de que
suceda o ocurra algún resultado posible en un experimento determinado. Se intuye pues que con la
incertidumbre se refieren a la duda de que ocurra un resultado posible en un experimento y
aprovechan para informar que la desviación típica suele ser la medición del riesgo de que ocurra un
resultado posible en términos estadísticos.

Como puede observarse estos términos están asociados con el cálculo de la probabilidad porque con
su valor se predice lo desconocido, es decir, determina la presunta ocurrencia a priori del suceso.
En este sentido, ahora conviene asociar la probabilidad con la inferencia estadística porque ésta se
refiere a la estimación con una muestra de los valores desconocidos de los parámetros de un
universo estadístico. Para demostrar lo anterior con propiedad posteriormente, a continuación se
expone la vinculación de estos temas en la siguiente forma:

Probabilidad e inferencia estadística

Como referencia conviene traer a colación la definición que hace Cristófoli (2005:21) de estadística
quien indica que “es un instrumento del método científico cuyo campo de acción es el de la
incertidumbre medible” y “que el objetivo del análisis estadístico no es el de obtener un resultado
preciso sino el de hallar el resultado más probable, o entre qué resultados, puede estar la respuesta a
un problema”.

177
En este contexto menciona que la estadística obtiene conclusiones a partir de los datos extraídos de
una muestra. Este procedimiento es lo que se conoce como estadística inductiva o inferencia
estadística porque por su analogía con el método inductivo de la lógica: a partir del análisis de lo
particular (muestra) se sacan conclusiones generales (se infieren las características: parámetros de
la población o universo estadístico). De lo antes expuesto aquí se detecta que en este proceso la
probabilidad desempeña un papel muy importante; en particular también su usa mucho en el
análisis de predicción de algunas variables de interés para el investigador..

Así, se dice que la estadística inferencial se refiere a situaciones en que al seleccionar


probabilísticamente una muestra (𝑛) de una población (𝑁), con el análisis de sus datos se puede
estimar o hacer inferencias sobre las características de ésta última; como las inferencias no son
exactas (son estimaciones) porque provienen de una muestra cuyo tamaño fue calculado con un
error de muestreo determinado apriori usando la metodología probabilística, misma que
fundamenta las conclusiones antes mencionadas.

Referencias para arribar a la definición de probabilidad

Ahora bien, si con el nuevo enfoque se define la probabilidad como el índice que cuantifica la
ocurrencia de un evento (también llamado suceso o resultado posible) que tiene incertidumbre,
entonces se dice que un evento que es incierto es un evento aleatorio que está contenido en un
espacio muestral: conjunto de todos los resultados posibles en un experimento. Dicho en otras
palabras, el evento tiene incertidumbre cuando es estocástico o aleatorio, cuando se gesta en un
experimento que produce eventos o resultados que son aleatorios porque son “unos de tantos
resultados posibles”, cuyo total de resultados constituye el “espacio muestral”. Estos resultados del
experimento son diferentes pero cada uno de ellos tiene la misma probabilidad de ocurrir en el
experimento. Luego entonces su probabilidad de ocurrencia constituye la medición de la
incertidumbre del evento, es decir, cuantifica la probabilidad de que ocurra. Como señala Cristófili
(2005: 23) “la probabilidad mide la expectativa de que se presente cada uno de los posibles
resultados contenidos en el espacio muestral”.

Derivado de lo anterior, cabe decir que un espacio muestral está constituido por todos los resultados
de un experimento aleatorio; por ejemplo si el experimento consiste en lanzar un dado que tiene seis
caras y en registrar el número de la cara que aparece, entonces hay seis eventos o resultados
posibles: 1, 2, 3, 4, 5, 6, ellos constituyen el marco muestral, son diferentes pero tienen la misma
1
probabilidad de ocurrir en el lanzamiento: 6.

Dicha probabilidad proviene de la definición de este concepto; así, si se establece 𝑃 como


probabilidad y 𝑋𝑖 como el evento 𝑖-ésimo donde 𝑖 = 1, 2, 3, 4, 5, 6 la fórmula para calcularla es:

𝑈𝑛 𝑟𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜 𝑝𝑜𝑠𝑖𝑏𝑙𝑒 𝑑𝑒 𝑖𝑛𝑡𝑒𝑟é𝑠 𝑝𝑎𝑟𝑎 𝑒𝑙 𝑖𝑛𝑣𝑒𝑠𝑡𝑖𝑔𝑎𝑑𝑜𝑟 1


𝑃(𝑋𝑖 ) = =
𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝑟𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜𝑠 𝑝𝑜𝑠𝑖𝑏𝑙𝑒𝑠 6

Al respecto, se dice que la probabilidad de cada evento toma valores entre 0 y 1 inclusive, siempre
positivos. Luego entonces cuando su probabilidad es 0 ello significa que no ocurrirá y si es 1 indica
178
que hay una certeza (probabilidad) de 1 de que ocurrirá (por ejemplo, de que aparecerá en el primer
lanzamiento del dado).

A manera de resumen se puede decir que la probabilidad expresa la expectativa de que aparezca
cada uno de los eventos contenidos en el espacio muestral.

Variable aleatoria

De la exposición anterior se puede derivar el concepto de variable aleatoria diciendo que emerge del
marco o espacio muestral aleatorio. Igualmente, se dice que una variable aleatoria toma un conjunto
de valores numerables (Cristófoli, 2005:25). En el ejemplo anterior toma los valores 1, 2, 3, 4, 5, 6.

En este sentido se considera necesario indicar que una variable aleatoria puede ser discreta cuando
los valores no son divisibles, que se pueden contar y que, por consiguiente, generalmente son
enteros y positivos como el caso anterior; puede ser aleatoria continua cuando los valores son
divisibles en un rango determinado por el interés del investigador.

Diferencias entre sucesos aleatorios y determinísticos

Cabe señalar que los determinísticos son por naturaleza conocidos, no hay incertidumbre sobre sus
valores (Ejemplo: una distribución de frecuencia relativas), en tanto que de los sucesos de carácter
aleatorio no se conoce si ocurrirán o no (Ejemplo: los resultados del lanzamiento de un dado, no se
sabe cuál ocurrirá de antemano, para saberlo se tiene que llevar a cabo el experimento: lanzar el
dado; sin embargo, como señala Ritchmond (ibid) pueden predecirse con la fórmula de la
probabilidad arriba explicada (cuyo método se conoce como clásico o de Laplace). Por otra parte la
probabilidad de los eventos determinísticos se puede calcular con el método de las frecuencias
relativas y, por consiguiente, con este enfoque se dice que la probabilidad es un mecanismo por
medio del cual se puede determinar la factibilidad de la ocurrencia de los eventos.

Métodos de Cálculo de la probabilidad

Derivado de lo anterior se dice que la probabilidad se calcula con los métodos objetivo (Clásico o
apriori y/o el de frecuencias relativas o a posteriori) y subjetivo: posibilidad de que ocurra un
evento en particular, la cual asigna una persona con la información actual disponible a su alcance.

Alcance de la probabilidad en la inferencia estadística

El Profesor L. Kazmier (1967) indica que la teoría de la probabilidad se ha convertido en la base


del desarrollo de los métodos que se utilizan en la inferencia estadística, la cual tiene su origen en
el método inductivo: indica que a partir del análisis de una porción de eventos o información
particular se puede generalizar, es decir, se pasa de lo particular (muestra ) a lo general (población
o universo ); en otras palabras, al seleccionar una muestra (porción) del universo, se detectan sus
características y se dice que esas mismas características las tiene la población. O sea que la
Inferencia Estadística es aquella disciplina que basada en el análisis de la muestra por medio de
métodos y técnicas científicas, hace posible el conocimiento de las características de la población.
179
Ahora bien, es importante mencionar que cuando se describen las características de la población
(𝑁), a partir de la información de una muestra (𝑛), no se está seguro de que dicha descripción sea
correcta o válida para todos los elementos de la población porque dicha muestra es una de tantas
lque está a disposición del investigador como resultado de que, en un muestreo probabilístico en
que la selección de n de un marco muestral determinado, se hace ya sea con el muestreo con o sin
reemplazo para determinar cuántas y qué composición tiene cada una de ellas; por lo que siempre
existirá el riesgo de aceptar la descripción cuantitativa de las características de la población a partir
de una muestra que, posiblemente sea o no representativa del universo estadístico en estudio. Dicho
riesgo se mide aplicando la teoría de la probabilidad. O sea que en el proceso de información
estadística nunca se puede evitar el riesgo o error de aceptar o rechazar a partir de la muestra,
características que pueden o no ser ciertas para la población.

Así, si bien es cierto que no se puede evitar dicho riesgo, también es cierto que se puede controlar y
cuantificar por medio de la teoría probabilística.

Idealmente se quisiera tener a disposición un procedimiento de selección de la muestra que


garantizara que es representativa de la población para reducir o eliminar el riesgo en la toma de
decisiones sobre las características de la población a partir de la información muestral.
Desafortunadamente no se ha descubierto tal procedimiento, por lo que nunca se estará seguro de
que los valores de las unidades de muestreo que integran una muestra específica sean
representativos totalmente de una población específica.

En lugar de garantizar que la muestra sea representativa, lo mejor que puede hacer el procedimiento
de selección es dar certeza vía la probabilidad de que no son introducidas fuentes distorsionadoras
durante la selección de la muestra, que en este caso se llamará muestra probabilística, que, debe
quedar claro, no por eso sea necesariamente representativa de la población.

Al respecto, es conveniente decir que uno de los requisitos de una muestra probabilística es que
cada elemento de la población estadística tenga una oportunidad conocida, es decir, por ejemplo la
misma probabilidad de ser incluido en la muestra.

IV.1 Significado de probabilidad

Dicha oportunidad se llama pues probabilidad, la cual se puede definir como la posibilidad
expresada con un número positivo, de que ocurra un evento o resultado de interés para el
investigador. De lo anterior se observa que una expresión probabilística siempre será la
cuantificación de que una estimación muestral represente un valor poblacional desconocido que
corresponderá a un evento que todavía no ocurre.

Así como antes se indicó: Existen dos procedimientos para el cálculo de la probabilidad: el primero
se refiere al enfoque objetivo y el segundo se refiere al enfoque subjetivo.

La probabilidad objetiva se calcula por dos métodos: El clásico o teórico y el de frecuencias


relativas.
180
El enfoque subjetivo referente a la interpretación de un valor probabilístico, se basa en la
confianza o seguridad que una persona tenga sobre la ocurrencia de un evento.

Un ejemplo de éste sería la fuerte creencia, de 0.95, de que se firmará un contrato de la STUNAM y
la UNAM. El 31 de octubre del 2015.

Este evento es único, no puede ser repetido muchas veces, sencillamente el 0.95 refleja la
confianza que hay sobre la firma del contrato-laboral. De manera general se dice que cuando existe
un evento con un sólo resultado posible, el concepto de probabilidad subjetiva es aplicable.

Por otra parte, en lo que respecta a la probabilidad objetiva, su cálculo por cualquiera de los dos
métodos antes mencionados no difiere sustancialmente; su diferencia radica en el tiempo en que se
calcula determinado valor probabilístico. Esto es, el procedimiento clásico se caracteriza por la
determinación apriorística de los valores antes de haber observado los eventos; en otras palabras, no
es necesario hacer el experimento para observar y registrar su resultado, es decir, la probabilidad se
calcula teóricamente.

Ejemplo:

1
Cuando se dice que un medio (2) es la probabilidad de obtener águila en el lanzamiento de una
moneda, esto se dice sin haber lanzado la moneda al aire (el experimento es el lanzamiento de la
moneda). Por eso se dice que la probabilidad así calculada es un valor esperado con el método
clásico o teórico, el cual supone en el ejemplo que se utilizó de la moneda, una simetría básica en
los posibles resultados de un evento, por ello la moneda o el dado que se utilizará, no debe estar
deformada o en el caso del dado, no debe estar “cargado”, para poder calcular la probabilidad
apriori.

También se debe decir que el cálculo anterior se basa en el supuesto de que los resultados posibles
son mutuamente excluyentes e igualmente probables de ocurrir. Al respecto, es conveniente decir
que en el mundo de la economía y los negocios los resultados posibles generalmente no son
igualmente probables y no se conoce de antemano su probabilidad de ocurrencia, situación que
limita el uso del método clásico para calcular las probabilidades. La mayor crítica es que el
término “igualmente probable” presupone el conocimiento previo de la teoría de la probabilidad,
situación que no siempre es cierta, además de que en el mundo real no siempre se puede suponer
que los resultados serán “igualmente probables”, de ahí que sea interesante, muchas veces, recurrir
al método de las frecuencias relativas.

Al respecto, de acuerdo con el método de frecuencias relativas, en que la probabilidad de un evento


se basa en un resultado observado o verificado, en otras palabras, las probabilidades se calculan
después de haber realizado el experimento y una vez que se han registrado los resultados del
mismo. Así la probabilidad de un resultado cualquiera es la frecuencia relativa de ese producto o
resultado en un gran número de eventos repetitivos.

181
Es importante señalar que con este método para calcular la probabilidad, que a medida que aumenta
el número de observaciones de los eventos, aumenta la exactitud en el cálculo de la probabilidad,
inclusive tiende a estabilizarse en cierto valor, por ejemplo, si se realiza el experimento de lanzar al
aire 500 veces una moneda y se registra el número de veces que cae “águila”, la frecuencia relativa,
es decir la probabilidad, tiende a estabilizarse alrededor del valor 0.5. Derivado de lo anterior, se
dice que la probabilidad así calculada es un valor esperado, cuya exactitud será mayor a medida
que se aumente el experimento.

Una vez establecida la diferencia entre uno y otro de los dos métodos del enfoque objetivo, a
continuación se puede profundizar señalando lo siguiente:

Definición clásica de probabilidad

Laplace definió la probabilidad como una razón matemática entre un grupo de eventos con
características especiales y la totalidad de eventos posibles. Explícitamente se dice: "si un
experimento da lugar a (𝑛) eventos mutuamente excluyentes, todos igualmente probables y (𝑟) se
𝑟
consideran favorables, entonces la probabilidad de un evento favorable es .
𝑛

De lo anterior se observa que un valor probabilístico es indicativo de la frecuencia esperada de un


resultado posible en particular, dentro del total de resultados posibles que arroje un experimento.

Un evento será una muestra cuyos puntos o elementos son resultados posibles de un experimento.
Lo anterior, en el caso de una baraja americana, se verá así:

Cuadro IV.1
Representación gráfica de un evento en una baraja americana
)))))))))) ))))))))))
♣♣♣♣♣♣♣♣ ♣♣♣♣♣♣♣♣ ♣♣♣♣♣♣♣♣ ♣♣♣♣♣♣♣♣
♠♠♠♠♠♠♠ ♠♠♠♠♠♠♠ ♠♠♠♠♠♠♠ ♠♠♠♠♠♠♠
●●●●●●● ●●●●●●● ●●●●●●● ●●●●●●●
○○○○○○○○○○○ ○○○○○○○○○○○ ○○○○○○○○○○○ ○○○○○○○○○○○
Fuente: Investigación directa.

Ahora bien, como se observa en el siguiente Cuadro IV.1, un evento puede estar representado por
un punto o un agregado de puntos.

182
Gráfica IV.1
Representación gráfica de un evento

Fuente: Investigación directa con datos hipotéticos.

Serán eventos o resultados verificables A, B, C, D; donde D está formado por un punto como D y
A, B, C por un agregado de puntos.

IV.1.1 Axiomas de probabilidad

1. A cada punto se le asigna un número positivo, llamado probabilidad.


2. Todos los puntos tienen la misma probabilidad de ocurrencia.
3. La suma de las probabilidades del espacio muestral es igual a 1.
4. La probabilidad de un punto oscila entre 0 y 1, es decir 0 ≤ 𝑃(𝑥) ≤ 1.

Conforme a lo anterior se puede establecer que la probabilidad de cada resultado de un experimento


1
es 𝑛, donde es el número de veces que se repite el experimento del evento.

Al respecto el espacio muestral puede definirse como la suma de todos los puntos de una muestra, o
de resultados posibles que produce un experimento. En opinión de Yu Lun Chou (1987) realmente
debería llamarse “espacio de resultados”, porque eso son.

Ejemplo:

El experimento "lanzamiento de dos monedas" genera un espacio muestral, conteniendo cuatro


puntos o resultados posibles (AA, AS, SA, SS):

Donde: 𝐴 = Á𝑔𝑢𝑖𝑙𝑎 𝑆 = 𝑆𝑜𝑙

El evento "caras iguales", está compuesto de dos puntos (AA y SS). Si se quiere saber cuál es la
probabilidad de que caigan caras iguales (águilas o soles) en un lanzamiento de dos monedas, con el
método clásico, ésta será:

𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒𝑠 2 1


𝑃(𝐴𝐴 𝑜 𝑆𝑆) = = =
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑜𝑠𝑜𝑠 𝑝𝑜𝑠𝑖𝑏𝑙𝑒𝑠 4 2

183
Cuadro IV.2
Principales aplicaciones de la probabilidad
1. Inferencia estadística: Muestreo estadístico, estimación de parámetros y
prueba de hipótesis;
La probabilidad fue 2. Econometría: análisis de estructura, de predicción y evaluación de
desarrollada por Pascal políticas públicas y privadas;
3. Teoría de las decisiones: Teorema de Bayes.
Fuente: Investigación directa con datos hipotéticos.

Para desarrollar la teoría probabilística fue necesario identificar y cuantificar el número de


resultados posibles, marco de referencia, espacio muestral que genera un experimento, puesto que
sólo así se puede cuantificar la probabilidad de éxito o fracaso en la obtención de un resultado de
interés particular.

Al respecto la probabilidad se desarrolló partiendo de la decisión del investigador de decidir el


número de veces que repetiría el experimento; en seguida se realizó en gran parte en los juegos de
azar, que constituyen uno de los principales marcos de referencia, la cual posteriormente se utilizó
en biología para seleccionar y utilizar muestras que dieran representatividad a los resultados de sus
experimentos. Así, en el caso de la moneda, el marco de referencia son las dos caras de la misma.
En el caso de un dado son las seis caras. Cuando son dos dados el espacio muestral está constituido
por 36 resultados posibles que se muestran a continuación.

Tabla IV.1
Marco muestral constituido por 36 resultados posibles
DADO #1
1 2 3 4 5 6
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
DADO #2

3 (3,1) (3,2) (1,3) (3,4) (3,5) (3,4)


4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)
Fuente: Investigación directa con datos hipotéticos.

En el caso de una baraja española el marco muestral está constituido por 40 cartas o resultados
posibles.

En el caso de una baraja americana está constituida por 52 cartas o resultados posibles. Estos
resultados se clasifican en 4 grandes grupos: Diamantes, Corazones, Tréboles, Picas, que a su vez se
agrupan en dos colores, negro (26 resultados) y rojo (26 resultados).

184
Tabla IV.2
Representación gráfica de una baraja americana
1 2 3 4 5 6 7 8 9 10 J Q K
1 2 3 4 5 6 7 8 9 10 J Q K
1 2 3 4 5 6 7 8 9 10 J Q K
1 2 3 4 5 6 7 8 9 10 J Q K
Fuente: Investigación directa con datos hipotéticos.

Una vez que se conoce el marco de referencia se puede decir qué es posible calcular la probabilidad
de ocurrencia de cualquiera de los resultados comprendidos en el marco de referencia. En otras
palabras la probabilidad representa la cuantificación de éxito o fracaso de un resultado posible.

IV.2 Tipos de resultados posibles de un experimento

Pueden ser:

IV.2.1 Eventos mutuamente excluyentes

A y B lo son cuando en un experimento sólo ocurre uno de ellos. La probabilidad de que ocurra uno
o el otro es igual a la suma de sus probabilidades de ocurrencia. Al resultado formado por la suma
de ambas probabilidades de ambos eventos tiene el nombre de unión.

𝑃(𝐴 𝑜 𝐵) = 𝑃(𝐴) + 𝑃(𝐵)

También se puede expresar con la siguiente notación:

𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵)

El siguiente diagrama se llama diagrama de Venn comprende todos los resultados posibles
excluyentes de un experimento, con uno o más resultados identificados específicamente, cuyo
conjunto se llama espacio muestral (𝑆); cualquier resultado se identifica como un punto en ese
espacio y el área relativa asignada a ese punto no necesita ser indicativa de su probabilidad.

Gráfica IV.2
Diagrama de Venn

Fuente: Investigación directa con datos hipotéticos.

Cuando hay intersección entre ellos es decir, que tienen puntos en común, se dice que no son
eventos mutuamente excluyentes. Gráficamente se ven así

185
Gráfica IV.3
Diagrama de Venn con la inserción de dos eventos

Fuente: Investigación directa con datos hipotéticos.

En ese caso el cálculo de su probabilidad es:

𝑃(𝐴 𝑜 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴𝐵)

También se puede expresar con la siguiente notación:

𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵)

De lo anterior, cuando 𝐴 y 𝐵 son mutuamente excluyentes su intersección, 𝑃(𝐴𝐵) = 0

En el siguiente diagrama se representa la 𝑃(𝐴) y 𝑃(𝑛𝑜 𝐴), ésta última indica la probabilidad de que
no ocurra 𝐴, tal que 𝑃(𝐴) + 𝑃(𝑛𝑜 𝐴) = 1, ello indica que ocupan todo el espacio muestral.

Gráfica IV.4
Diagrama de Venn con las probabilidades de ocurrencia de los resultados posibles un evento en un
espacio muestral

Fuente: Investigación directa con datos hipotéticos.

Los eventos mutuamente excluyentes pueden ser más de dos; ejemplo:

Se sabe que la probabilidad de que los estudiantes de posgrado obtengan 10 de calificación es 0.12;
𝑃(9) = 0.13; 𝑃(8) = 0.12; 𝑃(7) = 0.18; 𝑃(6) = 0.20; 𝑃(5) = 0.25, cuya suma es 1.0. Se dice
que la suma de todos los resultados mutuamente excluyentes es igual a 1.0, lo cual cumple con uno
de los axiomas de la probabilidad. Se pueden hacer cálculos como los siguientes:

𝑃(5 𝑜 6) = 0.25 + 0.20 = 0.45


𝑃(5 𝑜 6 𝑜 7) = 0.25 + 0.20 + 0.18 = 0.63
𝑃(8 𝑜 9) = 0.12 + 0.13 = 0.25
𝑃(8 𝑜 9 𝑜 10) = 0.12 + 0.13 + 0.12 = 0.3

186
IV.2.2 Eventos independientes

𝐴 y 𝐵 son independientes cuando ocurren separadamente en el tiempo o en el espacio; se dice que lo


son cuando la ocurrencia de uno no afecta la del otro. La probabilidad de que ambos ocurran es:

𝑃(𝐴 𝑦 𝐵) = 𝑃(𝐴) ∗ 𝑃(𝐵)

Aquí también es conveniente advertir que a diferencia de los resultados posibles que pueden surgir
en los juegos de azar, en el mundo de los negocios los eventos o sus resultados raras veces son
independientes, sin embargo, aun con ese señalamiento, no deja de ser útil para la toma de
decisiones en Economía.

IV.2.3 Eventos dependientes y de probabilidad condicionada

Cuando 𝐴 y 𝐵 no son independientes surge el concepto de probabilidad condicional y para


determinar la probabilidad de una secuencia de eventos se escribe 𝑃(𝐵|A), que indica la
probabilidad de que ocurra 𝐵 dado que 𝐴 ocurrió previamente.

Ejemplo: Suponga que un cargamento de diez motores contiene uno defectuoso, 𝐷, y nueve no
defectuosos, 𝑁𝐷. Al inspeccionarlos, obtenga la probabilidad de uno defectuoso, 𝐷, y los otros
nueve no defectuosos, 𝑁𝐷. Así, al revisar uno de dos motores
se sabe que para el primero:

9 1
𝑃(𝑁𝐷) = 10 y que 𝑃(𝐷) = 10

La revisión de un segundo motor, dado que ya se revisó uno antes puede generar los siguientes
resultados posibles:

8 9 72 4
𝑃(𝑁𝐷|𝑁𝐷) = ∗ = = = 0.8
9 10 90 5

1 9 9 1
𝑃(𝐷|𝑁𝐷) = ∗ = = = 0.1
9 10 90 10

9 1 9 1
𝑃(𝑁𝐷|𝐷) = ∗ = = = 0.1
9 10 90 10

𝑃(𝐷|𝐷) = 0

𝑆𝑢𝑚𝑎 = (0.8 + 0.1 + 0.1 + 0) = 1.0

Con estas referencias, enseguida se explican algunos conceptos que también se necesitan para dar
continuidad al análisis de la relación que tiene la probabilidad con la inferencia estadística.
9
/ 187

1
0
IV.2.4 Función

Es una relación de dependencia unívoca de una variable dependiente “𝑦” de otra independiente “𝑥”.

Si 𝑦 = 𝑓(𝑥), se dice que los valores de 𝑦, variable dependiente, están en función de los valores que
tome 𝑥, variable independiente.

IV.2.5 Variable numérica

Es aquella literal (𝑥, 𝑦, 𝑧, 𝑒𝑡𝑐. ) que toma los valores dados en un espacio muestral dado.

Ahora relacionando lo que se conoce hasta el momento, se define, se calcula y véase el alcance de
la:

IV.2.6 Variable aleatoria, 𝑿

Se origina en un experimento aleatorio. Es una función real valorada y definida en un espacio


muestral, con su probabilidad de ocurrencia asociada. Así, en el caso de un dado el “dominio” de la
variable aleatoria toma los valores: 1, 2, 3, 4, 5, 6, con su probabilidad asociada de ocurrencia.

Ejemplo 16:

Se sabe que:

Tabla IV.3
Datos de una variable aleatoria: Cálculo de su media y su varianza
𝑋𝑖 𝑃(𝑋𝑖 ) 𝑋𝑖 − 𝜇𝑥𝑖 (𝑋𝑖 − 𝜇𝑥𝑖 )2 𝑃(𝑋𝑖 ) ∗ (𝑋𝑖 − 𝜇𝑥𝑖 )2
1 1 -2.5 6.25 1.041
6
2 1 -1.5 2.25 0.375
6
3 1 -0.5 0.25 0.041
6
4 1 0.5 0.25 0.041
6
5 1 1.5 2.25 0.375
6
6 1 2.5 6.25 1.041
6
Suma: 1 0 17.5 2.914
Fuente: Investigación directa con datos hipotéticos.

Efectivamente

1 1 1 1 1 1 21
𝜇𝑥 = [1 ( ) + 2 ( ) + 3 ( ) + 4 ( ) + 5 ( ) + 6 ( )] = = 3.5 = 𝐸(𝑋𝑖 )
6 6 6 6 6 6 6

188
Donde 𝐸(𝑋𝑖 ) es la esperanza matemática ( Richmond, 1964: 119) de las Xi, concepto que se
utilizará con frecuencia en el resto del libro.

2.914
𝜎 2 = 𝑉𝑎𝑟(𝑋𝑖 ) = 𝐸(𝑋𝑖 − 𝜇)2 = = 0.486
6
Ejemplo 17:

Ahora bien, si el experimento se repite varias veces, el valor esperado promedio no es necesario que
sea un valor posible de la variable aleatoria, como lo muestra el ejemplo anterior de 𝐸(𝑋𝑖 ) = 3.5.
Como concepto, como medida de tendencia central, es un concepto básico que se usa mucho en la
economía y los negocios, cuya aplicación en estos campos se ilustra de la manera siguiente:

La probabilidad de que se incendie una casa en la colonia Juárez del Distrito Federal en cualquier
día del año 2015, es 0.005. La Compañía de Seguros Monterrey le ofrece al dueño de la casa un
seguro contra incendios con una póliza por $ 20,000. 00 durante un año; cuyo costo es $150.00. En
este caso ¿Cuál es la utilidad esperada de Seguros Monterrey?

La utilidad definida por, 𝑈𝑖, es una variable aleatoria que puede tomar los valores de $150.00 si no
se incendia la casa y, de $ 19,850.00 si es que se incendia durante el año 2015, periodo que cubre la
póliza contratada. Así, la función de probabilidad de 𝑈𝑖 es:

Tabla IV.4
Utilidad esperada de Seguros Monterrey
Valor de 𝑈𝑖 $150.00 -$19,850.00
Probabilidad: 𝑃𝑖 0.995 0.005
Fuente: Investigación directa con datos hipotéticos.

Su 𝐸(𝑈𝑖) = (150)( 0.995) + (−19,850)( 0.005) = $ 50.00

La esperanza matemática o utilidad esperada por la póliza vendida siempre debe ser positiva, como
es el caso, para permitir a Seguros Monterrey el pago de gastos de administración y acumular
reservas para pagar los siniestros a los beneficiarios y tenedores de pólizas.

Ejemplo 18:

Lo anterior, desde el punto de vista del comprador, el seguro como cualquier juego de azar que se
hace para obtener una utilidad, tiene un valor esperado negativo.

Tabla IV.5
Utilidad esperada del comprador en Seguros Monterrey
Valor de 𝑈𝑖 -$150.00 $19,850.00
Probabilidad: 𝑃𝑖 0.995 0.005
Fuente: Investigación directa con datos hipotéticos.

Su 𝐸(𝑈𝑖 ) = $ 19,850(0.005) + (− $150)(0.995) = $ 99.25 − $ 149.25 = −$ 50

189
La cantidad de menos $50.00 es lo que no espera ganar en promedio, en caso de que se incendie la
casa y cobre el seguro por $ 20,000.00.

IV.3 Determinación del número de sucesos compuestos

En la aplicación de la probabilidad con frecuencia se trabaja con un gran número de objetos, en


cuyo caso es difícil enumerar o contar el número total de combinaciones de los mismos, por lo cual
para poder determinar el tamaño del espacio muestral es recomendable aplicar el análisis
combinatorio que además permite distinguir los diferentes ordenamientos que pueden tener las
unidades muestrales, k que dejan de ser simples para convertirse en unidades compuestas. Así,
Para resolver esta situación se utilizan las técnicas de permutación y combinación, que a su vez, se
basan en el principio de multiplicación, el cual establece ( Shao, 1975: 254); por su parte
Rojas:2001) : dice “ si una operación puede efectuarse en 𝑛1 formas y enseguida, después de
realizarse en cualquiera de esas formas, se puede efectuar una segunda operación en 𝑛2 formas, y
después de ser ejecutada en cualquiera de estas formas, se puede realizar una tercera operación en
𝑛3 formas, y así sucesivamente hasta 𝑘 operaciones, entonces las 𝑘 operaciones pueden ejecutarse
en las siguientes formas:
(𝑛1 )(𝑛2 )(𝑛3 ) … (𝑛𝑘−1 )(𝑛𝑘 )𝑓𝑜𝑟𝑚𝑎𝑠

Se agrega a lo anterior, como referencia adicional, que ya se aprendió a calcular la probabilidad de


ocurrencia de los resultados posibles de un experimento, y se estuvo en condiciones de definir y
obtener la variable aleatoria, así como su valor esperado o promedio en un espacio muestral
determinado.

Importancia del análisis combinatorio en la inferencia estadística

Ahora se van a utilizar los conceptos anteriores en el contexto del análisis combinatorio, que a su
vez permitirán profundizar en la demostración de la relación que tiene la probabilidad con la
inferencia estadística, ahora, en el contexto de analizar de cuantas maneras diferentes se pueden
clasificar o arreglar dichos resultados posibles que, dicho en otras palabras, se podrá saber cuántas
muestras se pueden obtener y de cuantas maneras distintas se pueden constituir u ordenar con las
unidades de muestreo que las componen.

En general se puede decir que sirve para generar distribuciones probabilísticas y para introducir al
lector al muestreo estadístico, en particular al muestreo con reemplazo (permutaciones) y al
muestreo sin reemplazo (combinaciones). Su exposición se hace a continuación.

IV.3.1 Permutaciones

Así, se empieza diciendo que una permutación es un arreglo de todos o parte de los objetos dentro
de un conjunto de objetos en un orden definido (Shao, 1975:255). El número total de
permutaciones de un conjunto de objetos depende del número de objetos tomados a la vez para cada
permutación. El número de objetos tomados a la vez para cada permutación puede ser:

190
a) Todos los objetos; o
b) Parte de los objetos.

Ejemplo 19: Caso en que se toman todos los objetos

Encontrar el número total de permutaciones del conjunto de letras (a, b, c) tomadas todas a la vez.
Uso del diagrama de árbol: el diagrama de árbol es una gráfica que se usa para mostrar los
resultados posibles (permutaciones) cuando éstos se organizan u ordenan por etapas.

Usando el diagrama de árbol, se ve que serían los siguientes:

Cuadro IV.3
Diagrama de árbol: Caso 1

Fuente: Investigación directa con datos hipotéticos.

El número de las seis permutaciones anteriores también se puede obtener con el siguiente
razonamiento: suponga que se tienen tres cajones donde se pueden poner las letras anteriores, en el
primero puede ir cualquiera de las tres letras, en el segundo dos de las que quedaban y en el tercero
𝐴 𝐵 𝐶
la última letra. Así, cálculo numérico: 3 ∗ 2 ∗ 1 = 6 permutaciones.

Hay 6 permutaciones. Nótese que el arreglo A, B, C, es diferente de B, A, C aun cuando cada uno
de los 2 arreglos consiste de las mismas letras, luego en este caso se dice que el orden en que
aparece cada letra es muy importante. El número de permutaciones también se puede obtener con la
fórmula:

𝑛𝑃𝑛 = 𝑛! = 𝑛(𝑛 − 1)(𝑛 − 2)(𝑛 − 3) … 3 ∗ 2 ∗ 1 = ₃P₃ = 6 𝑝𝑜𝑟𝑞𝑢𝑒 𝑛 = 3

Ahora bien cuando 𝑛 = 4 se tiene ₄𝑃₄ = 4! = 4 ∗ 3 ∗ 2 ∗ 1 = 24 permutaciones.

Ejemplo 20: Caso en el que solo se toma parte de los objetos

Solamente parte de dos objetos si se define 𝑟 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑜𝑏𝑗𝑒𝑡𝑜𝑠, tomado a la vez para cada
permutación, entonces la fórmula es 𝑛𝑃𝑟.

𝑛𝑃𝑟 = El número total de permutaciones de 𝑛 objetos, tomados 𝑟 a la vez. Con 𝑛 = 4 y tomando


𝑟 = 3 a la vez, se calcula:

a) Tres a la vez; 𝑛 = 4 ; 𝑟 = 3;
191
₄𝑃₃ = 4 ∗ 3 ∗ 2 = 24
b) Dos a la vez; 𝑛 = 4 ; 𝑟 = 2;
𝑛𝑃𝑟 = ₄𝑃₂ = 4 ∗ 3 = 12

𝑛! 4∗3∗2∗1 24
También se puede obtener con: (𝑛−𝑟)!
= 2∗1
= 2
= 12

Lo anterior gráficamente se ve así:


Cuadro IV.4
Diagrama de árbol: Caso 2

Fuente: Investigación directa con datos hipotéticos.

IV.3.2 Combinaciones

Una combinación es un subconjunto o un arreglo de todos o parte de los objetos de un conjunto


sin considerar el orden de los objetos ( Shao, 1975: 257), mismos que constituyen un espacio
muestral (n) donde también se hace un arreglo de parte de sus objetos o agrupamiento (r) sin
considerar el orden de los objetos. La fórmula es. nCr = n!/ (n-r)!*r!

Ejemplo 21: Encontrar el número total de combinaciones tomando dos a la vez del conjunto
(𝒂, 𝒃, 𝒄).
₃𝐶₂ 3 ∗ 2 6
= = = 3 𝑐𝑜𝑚𝑏𝑖𝑛𝑎𝑐𝑖𝑜𝑛𝑒𝑠
2! 2∗1 2

Lo anterior se corrobora usando el diagrama de árbol.

Cuadro IV.5
Diagrama de árbol con las permutaciones y combinaciones posibles

Fuente: Investigación directa con datos hipotéticos.


192
IV.3.3 Ejercicios de análisis combinatorio ampliado

Para afianzar el conocimiento, ahora se dirá que se utilizan las fórmulas anteriores para obtener
numéricamente el número de arreglos diferentes que se pueden obtener cuando ya no es visible el
espacio muestral. Suponga que se tienen (𝑛) objetos diferentes y se quiere conocer el número de
maneras de ordenar estos objetos. Se puede pensar que hay (𝑛) espacios o lugares donde se puede
colocar los (𝑛) objetos a fin de dar forma a cada uno de los ordenamientos.

Así habrá (𝑛) posibilidades para el primer objeto, 𝑛 − 1 para el segundo, 𝑛 − 2 para el tercero y
así sucesivamente hasta llenar el último lugar con el último objeto.

Este desarrollo no es otra cosa que el producto de 𝑛𝑃𝑛. Donde 𝑛𝑃𝑟 = 𝑛 (𝑛 − 1)(𝑛 − 2) … 1 = 𝑛!
que sería la fórmula para obtener el número total de ordenaciones que también se llaman
permutaciones para (𝑛) objetos.

En un esfuerzo adicional por consolidar la familiaridad con el manejo de los conceptos que integran
el conocimiento del análisis combinatorio, dada la importancia que tiene para la inferencia
estadística, se decidió complementar la exposición con la del Profesor S. Shao (1975), quien como
antes se indicó, dice:“Una permutación es un arreglo de todos o parte de los elementos dentro de un
conjunto de objetos en un orden definido. El número total de permutaciones de un conjunto de
objetos depende del número de los mismos, tomados a la vez para cada permutación, pueden ser:

a) Todos los objetos; o


b) Parte de los objetos.

Ejemplo 22: Caso en que se toman todos los objetos

Encontrar el número total de permutaciones del conjunto de letras {a, b, c,} tomadas todas a la vez.

Cuadro IV.6
Diagrama de árbol: Caso1

Fuente: Investigación directa con datos de Shao (1975).

Hay seis permutaciones. Nótese que el arreglo a, b, c, es diferente de a, c, b, aunque cada uno de
los dos arreglos consista de las mismas letras.

El orden de cada arreglo de letras es importante en una permutación. El número de permutaciones


se puede obtener con la fórmula Nº 1.
193
Fórmula Nº 1: 𝑛𝑃𝑟 = 𝑛! = 𝑛 (𝑛 − 1)(𝑛 − 2)(𝑛 − 3) … 3 ∗ 2 ∗ 1 = 6 Permutaciones

También se puede obtener así ₃𝑃₃ = 3! = 3 ∗ 2 ∗ 1 = 6 permutaciones.

Otro ejemplo: encontrar el número total de permutaciones del conjunto de dígitos (1, 3, 5, 7, )
tomados todos a la vez.

Aquí 𝑛 = 4 luego ₄𝑃₄ = 4! = 24 permutaciones, que usando el diagrama de árbol se observa que
están ordenadas o integradas de la siguiente forma:

Cuadro IV.7
Diagrama de árbol

Fuente: Investigación directa con datos hipotéticos.

Ahora permutaciones de objetos diferentes tomados parte a la vez

También se puede obtener por medio del diagrama de árbol o con las siguientes fórmulas. El
diagrama de árbol es similar a los dos casos anteriores excepto que el número de columnas en este
caso es igual al número de objetos tomados para cada permutación. En general sea:

𝑟 = El número de objetos, tomados a la vez para cada permutación.


𝑛𝑃𝑟= El número total de permutaciones de 𝑛 objetos, tomados 𝑟 a la vez.

Entonces:

Fórmula Nº 1: 𝑛𝑃𝑛 = 𝑛(𝑛 − 1)(𝑛 − 2)(𝑛 − 3) … (𝑛 − 𝑟 + 1)

Para 𝑟 factores. Nótese que el último factor(𝑛 − 𝑟 + 1)) es simplificado de[𝑛 − 𝑟(−1)], También
cuando 𝑟 = 𝑛, el último factor se vuelve (𝑛 − 𝑛 + 1) = 1. Luego cuando 𝑟 = 𝑛, está última
fórmula es idéntica a la del número 1.

Ahora bien la fórmula 2 también se puede escribir así:


194
𝑛!
Fórmula Nº 2: 𝑛𝑃𝑟 = (𝑛−𝑟)!

Esta fórmula es conveniente para cálculos cuando se tiene disponibles tablas de 𝑛! y (𝑛 − 𝑟)!.

Ejemplo 23:

Encontrar el número total de permutaciones del conjunto de letras (𝐴, 𝐵, 𝐶, 𝐷) tomadas: a) tres a la
vez y b) dos a la vez.

a) Aquí: 𝑛 = 4 (Número de letras en el conjunto dado); 𝑟 = 3 (Número de letras tomadas a


la vez para cada permutación).

𝑛! 4∗3∗2∗1
𝑛𝑃𝑟 = = = 24 𝑝𝑒𝑟𝑚𝑢𝑡𝑎𝑐𝑖𝑜𝑛𝑒𝑠
(𝑛 − 𝑟)! 1
b) Ahora bien para , 𝑛 = 4; 𝑟 = 2

𝑛! 4∗3∗2∗1
𝑛𝑃𝑟 = = = 12 𝑝𝑒𝑟𝑚𝑢𝑡𝑎𝑐𝑖𝑜𝑛𝑒𝑠
(𝑛 − 𝑟)! 2∗1

El diagrama de árbol correspondiente se obtiene de la siguiente manera, para las 12 permutaciones:

Cuadro IV.8
Diagrama de árbol inciso b) 12 permutaciones

Fuente: Investigación directa con datos hipotéticos.

Igualmente, en el caso del inciso a) se tiene:

Cuando 𝑛𝑃𝑟 = ₄𝑃₃ = 24 𝑝𝑒𝑟𝑚𝑢𝑡𝑎𝑐𝑖𝑜𝑛𝑒𝑠

195
Cuadro IV.9
Diagrama de árbol inciso a) 24 permutaciones

Fuente: Investigación directa con datos hipotéticos.

Combinaciones. Es un subconjunto o un arreglo de todos o una parte de los objetos de un conjunto


sin considerar el orden de los mismos. ( Shao, 1975:257)

El número total de combinaciones posibles de un conjunto de objetos tomados todos a la vez es 1.

Por ejemplo:

Los arreglos posibles del conjunto de letras (𝑎, 𝑏) son ab y ba. Puesto que el orden del arreglo no es
considerado, el arreglo ab es el mismo que ba. Por lo tanto hay solamente una combinación
(𝑎 𝑦 𝑏) posible para el conjunto. Gráficamente:

Cuadro IV.10
Diagrama de árbol con dos permutaciones y una combinación

Fuente: Fuente: Shao; 1975:258.

Por otra parte, conviene decir que el número total de combinaciones posibles de un conjunto de
objetos diferentes tomados parte a la vez puede ser obtenido encontrando primero el número total
de permutaciones contando después las permutaciones con los mismos objetos como una
combinación.

IV.3.3.1 Ejercicios sobre eventos mutuamente excluyentes

Se ha dicho que dos o más eventos son mutuamente excluyentes si no puede ocurrir en un cierto
experimento más de uno de ellos. La probabilidad de que ocurra uno o el otro dentro de un conjunto
de eventos mutuamente excluyentes, es igual a la suma de sus probabilidades de ocurrencia.

196
Si 𝐴 = 𝐴𝑆 ; 𝐵 = 𝑅𝐸𝑌

Entonces del ejemplo anterior:

4 1 4 1
𝑃(𝐵) = = ; 𝑡𝑎𝑚𝑏𝑖é𝑛 𝑃(𝐴) = =
52 13 52 13

Si se desea conocer la probabilidad de obtener 𝐴𝑆 o 𝑅𝐸𝑌, esto es 𝐴 o 𝐵, entonces:

𝑃(𝐴 𝑜 𝐵) = 𝑃(𝐴) + 𝑃(𝐵)

1 1 2
𝑃(𝐴 𝑜 𝐵) = + =
13 13 13

IV.3.3.2 Diagrama de Venn

Recuérdese que un diagrama que comprende todos los resultados posibles de un evento con uno o
más resultados específicamente identificados se llama Diagrama de Venn.

El conjunto de todos los resultados posibles se llama espacio muestral y cada resultado se identifica
como un punto en el espacio.

Utilizando el Diagrama de Venn: se ilustra la probabilidad de 𝐴 en un espacio muestral.

Gráfica IV.5
Probabilidad de A en un espacio muestral

Fuente: Investigación directa con datos hipotéticos.

Se puede decir que si 𝑃 (𝐴) es la probabilidad de ocurrencia de A; 𝑃 (~ 𝐴) es la probabilidad de


que no ocurra 𝐴.
𝑃(𝐴) + 𝑃(~𝐴) = 1

1
En el lanzamiento de un dado la 𝑃(𝐴𝑆) es 6.
Esto es:
1
𝐴: 𝑃(𝐴𝑆) =
6
5
𝐵: 𝑃(~𝐴𝑆) =
6
Luego la 𝑃(𝐴) + 𝑃(𝐵) = 1

197
Esto es, la suma de las probabilidades de todos los resultados posibles de eventos mutuamente
1 5
excluyentes es: 6 + 6 = 1

Gráfica IV.6
Diagrama de Venn ilustrando dos eventos mutuamente excluyentes

Fuente: Investigación directa con datos hipotéticos.

Ejemplos adicionales de eventos mutuamente excluyentes:

1. En el lanzamiento de una moneda la ocurrencia de un águila y la de un sol son eventos


mutuamente excluyentes.
2. El lanzamiento de una moneda dos veces genera eventos mutuamente excluyentes en cada
lanzamiento.
3. Al sacar una carta de una baraja americana ¿Puede salir un as y un rey?
No, luego entonces estos dos resultados posibles son mutuamente excluyentes.
4. Al sacar una carta de una baraja americana ¿Puede salir un as y una espada?
Si, luego no son eventos mutuamente excluyentes.

El cálculo de los eventos mutuamente excluyentes puede generalizarse para situaciones en los
cuales se manejen 2 o más eventos mutuamente excluyentes.

Ejemplo 25:

Tabla IV.6
Número de hijos por familia
N° de hijos por familia 0 1 2 3 4 5 o más
Proporción 0.1 0.1 0.2 0.25 0.2 0.15
Fuente: Investigación directa con datos hipotéticos.

¿Cuál es la probabilidad de que una familia escogida aleatoriamente dentro de un grupo tenga 5 o
más hijos?

Respuesta: 0.15, la proporción representa la probabilidad de acuerdo con el cálculo de la


probabilidad por el método de las frecuencias relativas.

¿Cuál es la probabilidad de que una familia tenga tres o más hijos?

𝐴: 𝑃(3 ℎ𝑖𝑗𝑜𝑠) = 0.25


𝐵: 𝑃(4 ℎ𝑖𝑗𝑜𝑠) = 0.20
𝐶: 𝑃(5 𝑜 𝑚á𝑠) = 0.15
198
Luego: 𝑃(𝐴 𝑜 𝐵 𝑜 𝐶) = 0.25 + 0.20 + 0.15 = 0.60

Si 𝐴 y 𝐵 no son mutuamente excluyentes entonces la probabilidad de ocurrencia de 𝐴 o 𝐵 es la


probabilidad de que ocurra 𝐴 más la probabilidad de que ocurra 𝐵 menos la probabilidad de que
ambos ocurran conjuntamente, simbólicamente:

𝑃(𝐴 𝑜 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴, 𝐵)

Gráfica IV.7
Diagrama de Venn para dos eventos que no son mutuamente excluyentes

Fuente: Investigación directa con datos hipotéticos.

La sustracción de (𝐴, 𝐵) es para corregir el traslape o intersección que se presenta de 𝐴 y 𝐵 cuando


no son eventos mutuamente excluyentes. Cuando son excluyentes los eventos 𝐴, 𝐵 = 0,
significando que no existe el área (𝐴, 𝐵).

IV.3.3.3 Ejercicios sobre eventos independientes

Ejemplo: Cuando dos o más eventos ocurren en forma secuenciada o separados en el tiempo o
espacio, tales como el lanzamiento de 2 monedas 2 veces, se habla de eventos independientes.

𝐴 y 𝐵 son eventos independientes dentro de un conjunto de eventos si la ocurrencia de uno no


afecta la del otro. La probabilidad de que ocurran ambos es 𝑃(𝐴 𝑦 𝐵) = 𝑃(𝐴) ∗ 𝑃(𝐵).

Ejemplo 26:

¿Cuál es la probabilidad de obtener dos ases en dos dados en una sola tirada? , por ejemplo que:
1
A: 𝑃(𝑑𝑒 𝐴𝑠 𝑒𝑛 𝑒𝑙 𝑝𝑟𝑖𝑚𝑒𝑟 𝑑𝑎𝑑𝑜) = y que;
6
1
B: sea la 𝑃(𝑑𝑒 𝐴𝑠 𝑒𝑛 𝑒𝑙 𝑠𝑒𝑔𝑢𝑛𝑑𝑜 𝑑𝑎𝑑𝑜) = 6

1 1 1
Luego, 𝑃(𝐴 𝑦 𝐵) = 6 ∗ 6 = 36 independientes porque un resultado no afecta la ocurrencia del otro.

Ejemplo 27:

Dos lanzamientos de una moneda dónde A: Águila y B: Sol son eventos independientes, luego la
1
probabilidad de dos águilas en dos lanzamientos sucesivos de una moneda es 4
; porque la
1 1 1
probabilidad 𝑃(𝐴 𝑦 𝐵) = ∗ = ; ya que como se recordará 𝑃(𝐴 𝑦 𝐵) = 𝑃(𝐴) ∗ 𝑃(𝐵).
2 2 4

199
Por otra parte, es interesante recordar que así como el diagrama de Venn sirve para ilustrar los
eventos posibles de un experimento, los diagramas de árbol sirven para ilustrar los resultados
posibles de eventos sucesivos o múltiples.

En el caso del lanzamiento de una moneda dos veces el diagrama de árbol será:

Cuadro IV.12
Diagrama de árbol con eventos sucesivos
𝐴 = Á𝑔𝑢𝑖𝑙𝑎 𝑆 = 𝑆𝑜𝑙

Fuente: Investigación directa con datos hipotéticos.

¿Cuál es la probabilidad de obtener 𝐴 y luego 𝐵?


1 1 1
𝑃(𝐴 𝑦 𝐵) = ∗ =
2 2 4
Eventos dependientes

En la vida real la mayoría de los eventos no son independientes, sino que existen interacciones entre
ellos. Si son dependientes, el concepto de probabilidad condicionada se usa para determinar la
probabilidad de una secuencia particular de eventos, el símbolo 𝑃(𝐵|𝐴) significa la probabilidad de
𝐵 dado que 𝐴 ocurrió previamente, esto es:

𝑃(𝐴 𝑦 𝐵) = 𝑃(𝐴) ∗ 𝑃(𝐵|𝐴)

Ejemplo 28:

3 2
Una caja tiene 3 bolas rojas (𝑅) y 2 negras (𝑁) luego la probabilidad de 𝑃(𝑅) = 5 ; 𝑃(𝑁) = 5
porque son cinco bolas en total.

Si se quiere usar el diagrama de árbol éste será:

200
Cuadro IV.13
Diagrama de árbol con eventos dependientes
𝑅 = 𝐵𝑜𝑙𝑎 𝑟𝑜𝑗𝑎 𝑁 = 𝐵𝑜𝑙𝑎 𝑛𝑒𝑔𝑟𝑎

Fuente: Investigación directa con datos hipotéticos.

Si en la primera selección se obtiene una bola roja. Obtenga la probabilidad de que en una segunda
selección la bola sea negra, sin reemplazo.

2
𝑃(𝑁|R) =
4
3 2 6
𝑃(𝑅 𝑦 𝑁) = 𝑃(𝑅) ∗ 𝑃(𝑁|R) = ∗ =
5 4 20
Por lo tanto
6 3
𝑃(𝑅 𝑦 𝑁) = =
20 10
Ejemplo 29:

Si la verificación de un evento afecta la probabilidad de ocurrencia de otro, el segundo es un evento


dependiente del primero.

¿Cuál es la probabilidad de obtener un As en una segunda selección de cartas de una baraja


americana? Ello dependerá de que se haya escogido un as en la primera selección.

4 1
𝐴: 𝑃(𝑎𝑠 𝑒𝑛 𝑙𝑎 𝑝𝑟𝑖𝑚𝑒𝑟𝑎 𝑠𝑒𝑙𝑒𝑐𝑐𝑖ó𝑛) = =
52 13
3
𝐵: 𝑃(𝑎𝑠 𝑒𝑛 𝑙𝑎 𝑠𝑒𝑔𝑢𝑛𝑑𝑎 𝑠𝑒𝑙𝑒𝑐𝑐𝑖ó𝑛) =
51
4 3 12
𝑃(𝐴 𝑦 𝐵) = ∗ = = 0.0045
52 51 51

Ejemplo 30: Aplicación de eventos dependientes en Economía

El cálculo de la probabilidad condicional de un evento dependiente, con un ejemplo económico


aplicando el teorema de Bayes o Inferencia Bayesiana, tomado del libro del Prof. J. Kazmier e
intitulado "Statistical Analysis for Business and Economics de MC Graw Hill, 1967".

El teorema de Thomas Bayes proporciona el procedimiento mediante el cual los valores


probabilísticos (apriori) se transforman con base en datos de evidencias actuales en nuevos valores
probabilísticos (a posteriori)

201
Así, suponga que la probabilidad de que nuestro principal competidor decida diversificar su
producto es 0.60, y si lo hace hay una probabilidad de 0.80 que construirá una nueva planta. Así
mismo si decide no diversificarse (0.40), hay la probabilidad de 0.40 de que construirá una nueva
planta.

Si 𝐷 = 𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑑𝑒 𝑑𝑖𝑣𝑒𝑟𝑠𝑖𝑓𝑖𝑐𝑎𝑟𝑠𝑒
Si ∼ 𝐷 = 𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑑𝑒 𝑛𝑜 𝑑𝑖𝑣𝑒𝑟𝑠𝑖𝑓𝑖𝑐𝑎𝑟𝑠𝑒
Si 𝐵 = 𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑑𝑒 𝑐𝑜𝑛𝑠𝑡𝑟𝑢𝑖𝑟 𝑢𝑛𝑎 𝑛𝑢𝑒𝑣𝑎 𝑝𝑙𝑎𝑛𝑡𝑎
Si ∼ 𝐵 = 𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑑𝑒 𝑛𝑜 𝑐𝑜𝑛𝑠𝑡𝑟𝑢𝑖𝑟 𝑢𝑛𝑎 𝑛𝑢𝑒𝑣𝑎 𝑝𝑙𝑎𝑛𝑡𝑎.

Gráficamente se puede ilustrar lo anterior con el diagrama de árbol así:

Cuadro IV.14
Diagrama de árbol con eventos dependientes

Fuente: Investigación directa con datos hipotéticos.

Como puede verse 𝐵 y ~ 𝐵 dependen de 𝐷 y son dependientes, su probabilidad esta condicionada a


la ocurrencia de 𝐷. Así, la probabilidad total de 𝐵:

𝑃(𝐵) = 𝑃(𝐷)𝑃(𝐵|D) + P(∼ 𝐷)P(B| ∼ 𝐷)


𝑃(𝐵) = (0.6)(0.8) + (0.4)(0.4) = 0.48 + 0.16 = 0.64
Similarmente:
𝑃(∼ 𝐵) = 𝑃(𝐷)𝑃(∼ 𝐵|D) + P(∼ 𝐷)P(∼ 𝐵| ∼ 𝐷)
𝑃(𝐵) = (0.6)(0.2) + (0.4)(0.6) = 0.12 + 0.24 = 0.36

Así 𝑃(𝐵 𝑜 ∼ 𝐵) = (0.64) + (0.36) = 1

Ahora bien, si ve que está construyendo una nueva planta, ¿Esto indica que ha decidido
diversificarse? No, porque la decisión de construir también pudo haberse tomado con la decisión de
no diversificarse.

Luego si se desea determinar la probabilidad de que nuestro competidor se diversifique dado que
está construyendo una nueva planta, se usa el teorema de Bayes, que representa el análisis de la
probabilidad condicional cuando se hace una inferencia hacia atrás, es decir se usa en eventos
dependientes y de probabilidad condicional, para calcular la probabilidad condicional que permiten
hacer inferencias hacia atrás.

202
De acuerdo con los símbolos usados, para obtener 𝐷, se parte de 𝐵, llamada probabilidad posterior
que sirve para obtener la probabilidad anterior de 𝐷, expresada así:

𝑃(𝐷)𝑃(𝐵|D)
𝑃(𝐷|B) =
𝑃(𝐵)

𝑃(𝐵) se determina considerando 𝐷 y ~ 𝐷, es decir, cuando se diversifica y cuando no se diversifica.


Del diagrama de árbol se ve que:

𝑃(𝐵) = 𝑃(𝐷)𝑃(𝐵|D) + P(~D)P(B|~D) = (0.6)(0.8) + (0.4)(0.4) = 0.64

Luego
𝑃(𝐷)𝑃(𝐵|D) (0.6)(0.8) 0.48
𝑃(𝐷|B) = = = = 0.75
𝑃(𝐷)𝑃(𝐵|D) + P(∼ 𝐷)P(B| ∼ 𝐷) (0.64) 0.64

Comentarios: Antes de tener la información adicional sobre la construcción de la planta, la


probabilidad de diversificarse era de 0.60, que en el lenguaje de la inferencia Bayesiana, se
denomina probabilidad apriori. Considerando la información adicional: que nuestro competidor
construirá la nueva planta, la probabilidad de que se diversifique ahora es 0.75 y se denomina
probabilidad posterior.

La probabilidad posterior puede ser mayor o menor que la apriori. V.gr., si el competidor decidió
no construir la nueva planta, la nueva probabilidad posterior de diversificarse sería menor que 0.60.

Demostración:

𝑃(𝐷)𝑃(∼ 𝐵|D) (0.6)(0.2) 0.12


𝑃(𝐷| ∼ B) = = =
𝑃(𝐷)𝑃(∼ 𝐵| ∼ D) + P(∼ D)𝑃(∼ 𝐵| ∼ D) (0.6)(0.2) + (0.4)(0.6) 0.36
= 0.33
Igualmente
𝑃(∼ D)𝑃(𝐵| ∼ D) (0.16)
𝑃(∼ D|B) = = = 0.25
𝑃(∼ D)𝑃(𝐵| ∼ D) + P(D)P(B|D) (0.64)
0.16 + 0.48 = 0.64

𝑃(∼ D)𝑃(~𝐵|~D) (0.24)


𝑃(~𝐷|~B) = = = 0.67
𝑃(𝐷)𝑃(~𝐵|D) + P(~D)P(~B|~D) (0.36)
0.24 + 0.12 = 0.36

Ejercicios para reafirmar el conocimiento

1. ¿Por qué estudiar la probabilidad en economía y en los negocios? ¿Cuál es su importancia?


2. ¿La probabilidad permite predecir la ocurrencia de un suceso, cómo?
3. ¿La probabilidad permite calcular el riesgo o incertidumbre sobre la ocurrencia de un
suceso o evento, cómo?

203
4. ¿La probabilidad es el cálculo de que un evento o suceso ocurra en el futuro?
5. ¿Puede decirse que la probabilidad mide la expectativa de que se presente uno o más de los
resultados posibles (suceso o evento) contenidos en el espacio muestral? Explique.
6. ¿Qué es la probabilidad, cómo la define Laplace y cómo se define en general?
7. ¿Qué es un experimento?
8. ¿Qué es un suceso, evento o resultado posible?
9. ¿Cuántos procedimientos existen para calcular la probabilidad? ¿El subjetivo es uno de
ellos?
10. Dentro del procedimiento objetivo ¿Cuántos métodos existen pata calcular la probabilidad
y cuáles son?
11. ¿Qué es una variable aleatoria (estocástica), qué es el espacio muestral y qué relación existe
entre ellos?
12. ¿El espacio muestral ilustra gráficamente un proceso estocástico?
13. ¿Qué es la esperanza matemática y qué relación tiene con la variable aleatoria o
estocástica?
14. ¿Cuáles son los principales axiomas de la probabilidad?
15. ¿Cuál es la relación de la probabilidad con la inferencia estadística?
16. ¿Qué es una población y qué es una muestra en sentido estadístico?
17. ¿Cuál es la diferencia entre una muestra seleccionada probabilísticamente y otra
empíricamente?
18. ¿De qué naturaleza pueden ser los resultados de un experimento?
19. ¿Cuáles son las fórmulas con que se calcula la probabilidad de ocurrencia de cada uno de
ellos?
20. ¿Para qué sirven las técnicas de permutar y combinar objetos (también llamados eventos,
sucesos o resultados posibles de un experimento?
21. ¿Los resultados de un experimento pueden ilustrarse gráficamente con un diagrama de
árbol y el diagrama de Venn? ¿En qué se asemejan y en que difieren?
22. ¿Con cuál de los dos diagramas anteriores puede demostrarse fácilmente que los resultados
de un experimento pueden ser mutuamente excluyentes e independientes a la vez?
23. ¿Cuáles son las fórmulas de las permutaciones y de las combinaciones?
24. ¿Por qué las permutaciones y las combinaciones sirven para indicar cómo se selecciona una
muestra con y sin reemplazo, respectivamente?

Ejercicio adicional para reafirmar el conocimiento de la probabilidad de una sucesión simple


(Salvatore, 1991:26)

A. Método clásico: Razón matemática, apriorístico

1. Si de un total de 𝑁 casos posibles en un experimento, todos igualmente factibles, puede ocurrir el


evento o suceso 𝐴 en 𝑛𝐴 , de los casos, tal que la probabilidad de que el evento ocurra está dada por:

𝑛𝐴
𝑃(𝐴) =
𝑁
Donde:
204
𝑃(𝐴) = 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑑𝑒 𝑞𝑢𝑒 𝑜𝑐𝑢𝑟𝑟𝑎 𝐴
𝑛𝐴 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑒𝑛 𝑞𝑢𝑒 𝐴 𝑝𝑢𝑒𝑑𝑒 𝑜𝑐𝑢𝑟𝑟𝑖𝑟
𝑁 = 𝑛ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑖𝑔𝑢𝑎𝑙𝑚𝑒𝑛𝑡𝑒 𝑝𝑜𝑠𝑖𝑏𝑙𝑒𝑠

Dicha probabilidad se visualiza en el diagrama de Venn así:

Gráfica IV.8
Diagrama de Venn ilustrando el evento A

Fuente: Investigación directa con datos de Salvatore (1991).

El círculo representa el evento 𝐴 y el área total del rectángulo representa todos los casos posibles.

La 𝑃(𝐴) varía entre 0 y 1; 0 ≤ 𝑃(𝐴) ≤ 1.

Cuando 𝑃(𝐴) = 0 el evento 𝐴 no puede ocurrir. Si 𝑃(𝐴) = 1 el evento 𝐴 ocurre con certeza.

Ahora si 𝑃(~𝐴) representa la probabilidad de no ocurrencia del evento 𝐴.

Luego, 𝑃(𝐴) + 𝑃(~𝐴) = 1.

2. Si con el lanzamiento de una moneda sin deformaciones se generan dos resultados posibles: (𝐴)
águila y (𝑆) sol, entonces:

𝑛𝐴 1
𝑃(𝐴) = =
𝑁 2

𝑛𝑆 1
𝑃(𝑆) = =
𝑁 2

Por consiguiente, 𝑃(𝐴) + 𝑃(𝑆) = 1

3. Si el experimento consiste en obtener la probabilidad de los resultados posibles al lanzar una vez
un dado, se dice que el dado tiene 6 caras y por ende 6 resultados igualmente posibles, ellos son:
1, 2, 3, 4, 5 𝑦 6, tal que:

1 1 1 1 1 1
𝑃(1) = ; 𝑃(2) = ; 𝑃(3) = ; 𝑃(4) = ; 𝑃(5) = ; 𝑃(6) = .
6 6 6 6 6 6

205
Luego 𝑃(1) = 𝑃(2) = 𝑃(3) = 𝑃(4) = 𝑃(5) = 𝑃(6)

1 5
Así, por ejemplo, la probabilidad de no obtener 3 es 𝑃(~3) = 1 − 𝑃(3) = 1 − 6 = 6, tal que
1 5
𝑃(3) + 𝑃(~3) = 6 + 6 = 1.

5. De los dos últimos ejemplos se deduce que el enfoque clásico para calcular probabilidades
parte del supuesto de simetría en la ocurrencia de resultados posibles de un experimento
(Kazmier, 1967: 83)

B. Método de frecuencias relativas

1. Si el experimento consiste en lanzar 100 veces al aire una moneda no deformada y si se registra
los resultados posibles: Águila (𝐴) 68 veces y Sol (𝑆) 32 veces, se dice que la frecuencia relativa de
68
águila (𝐴) es 100
ó 0.68, que es la probabilidad de ocurrencia de águila (𝐴), que es distinta de la
probabilidad a priori o clásica: 𝑃(𝐴) = 0.5

2. Si se aumenta el número de lanzamientos de la moneda al aire, se observa que cuando alcanza el


infinito en el límite, la frecuencia relativa o probabilidad empírica se acerca a la probabilidad a
priori o clásica. Es decir con cualquier método 𝑃(𝐴) = 0.5

Probabilidad de eventos múltiples

A. Eventos mutuamente excluyentes (𝐴 𝑦 𝐵).

De acuerdo con la definición dada previamente se sabe que

𝑃(𝐴 𝑜 𝐵) = 𝑃(𝐴) + 𝑃(𝐵)

B. Eventos no mutuamente excluyentes.

𝑃(𝐴 𝑜 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 𝑦 𝐵)

Usando el diagrama de Venn, lo anterior se expresa así:

Cuadro IV.15
Diagrama de Venn para dos eventos que no son mutuamente excluyentes

Fuente: Investigación directa con datos hipotéticos.


206
C. Eventos independientes

Así como el diagrama de Venn, ilustra la ocurrencia de un evento, el diagrama de árbol ilustra la
ocurrencia de varios eventos o eventos sucesivos.

Con base en la definición previa, se dice que la probabilidad del conjunto 𝑃(𝐴 𝑦 (𝐵) = 𝑃(𝐴) ∗
𝑃(𝐵).

D. Eventos dependientes

Si 𝐴 y 𝐵 lo son, entonces 𝑃(𝐴 𝑦 𝐵) = 𝑃(𝐴)𝑃(𝐵|𝐴)

Se dice que la probabilidad de que ocurran 𝐴 y 𝐵 es igual a la probabilidad del evento 𝐴 por la
probabilidad del evento 𝐵 dado que el evento 𝐴 ya ha ocurrido, dado que
𝑃(𝐵|𝐴) = 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑐𝑜𝑛𝑑𝑖𝑐𝑖𝑜𝑛𝑎𝑙 𝑑𝑒 𝐵 𝑑𝑎𝑑𝑜 𝐴.

Ejemplos:

1. Si se considera el lanzamiento de un dado, el experimento genera los siguientes


resultados o eventos mutuamente excluyentes: 1, 2, 3, 4, 5 𝑦 6. Así:

1
𝑃(1) = 𝑃(2) = 𝑃(3) = 𝑃(4) = 𝑃(5) = 𝑃(6) =
6
1 1 2 1
Luego 𝑃(2 𝑜 5) = 𝑃(2) + 𝑃(5) = 6 + 6 = 6 = 3.

Generalizando

1 1 1 3 1
𝑃(1 𝑜 3 𝑜 6) = 𝑃(1) + 𝑃(3) + 𝑃(6) = + + = =
6 6 6 6 2

1 1 1 1 4 2
𝑃(1 𝑜 2 𝑜 4 𝑜 6) = 𝑃(1) + 𝑃(2) + 𝑃(4) + 𝑃(6) = + + + = =
6 6 6 6 6 3

1 1 1 1 1 1
𝑃(1 𝑜 2 𝑜 3 𝑜 4 𝑜 5 𝑜 6) = 𝑃(1) + 𝑃(2) + 𝑃(3) + 𝑃(4) + 𝑃(5) + 𝑃(6) = + + + + +
6 6 6 6 6 6
6
= =1
6

La probabilidad de obtener un as o una espada al sacar una carta de una baraja americana, sin
4 13 4 13
reemplazo, y sabiendo que 𝑃(𝑎𝑠) = 52 y que 𝑃(𝑒𝑠𝑝𝑎𝑑𝑎) = 52, será 𝑃(𝑎𝑠 𝑜 𝑒𝑠𝑝𝑎𝑑𝑎) = 52 + 52 −
1 16 4
52
= 52 = 13.

207
2. ¿Cuáles son las ventajas y desventajas de calcular la probabilidad con: a) el método clásico
o apriorístico; b) las frecuencias relativas o probabilidad empírica; c) subjetivamente?

Ventajas:

a) Del método clásico: no se tiene que realizar el experimento físicamente;


b) De las frecuencias relativas: ellas son las probabilidades de ocurrencia de eventos que sucedieron
en el pasado, y
c) Subjetivamente: se fundamenta en el fuerte grado de confianza que una persona tiene de que
ocurra un evento,

Desventajas:

a) Del método clásico: aun cuando es adecuado en los juegos de azar, en la vida real no es posible,
sobre todo en la economía y en los negocios, es decir, es difícil fijar probabilidades apriori de
ocurrencia de los eventos de interés y, mucho menos decir que tienen la misma probabilidad de
ocurrencia los eventos de interés;

b) De las frecuencias relativas: se obtienen probabilidades (frecuencias relativas) diferentes para


números diferentes de experimentos, es decir., tiene un manejo casuístico que no siempre permite
generalizar; además, puede resultar caro aumentar el experimento para que estas probabilidades se
acerquen a las probabilidades obtenidas con el método clásico;

c) Subjetivo o personalista: diversas personas pueden observar la misma realidad con información
diferente y por ello, calcular o manejar probabilidades de ocurrencia diferentes para el mismo
evento.

4. Dadas las siguientes probabilidades relativas al número adicional de personas en


ingeniería que se necesitan en la empresa ICA durante los próximos 2 años:

Tabla IV.7
Número de ingenieros solicitados en ICAMEX
Número de ingenieros Hasta 100 101 a 199 200 a 299 300 a 399 400 a 499 ≥500
Probabilidad 0.3 0.14 0.2 0.3 0.1 0.05
Fuente: Investigación directa con datos hipotéticos.

a) ¿Cuál es la probabilidad de que ICAMEX llegase a necesitar 400 o más ingenieros adecuados en
los próximos 2 años?

Si 𝑃(400 𝑎 499) = 0.10 𝑦 𝑃(≥ 500) = 0.05

Luego 𝑃(400 𝑎 499) 𝑜 (≥ 500) = 𝑃(400 𝑎 499) + 𝑃(≥ 500) = 0.10 + 0.05 = 0.15

b) ¿Cuál es la probabilidad de que ICAMEX llegue a necesitar al menos 200 pero no más que 399
ingenieros adicionales?

208
𝑃(200 𝑎 299) 𝑜 (300 𝑎 399) = 𝑃(200 𝑎 299) + 𝑃(300 𝑎 399) = 0.20 + 0.30 = 0.50

6. 5. Si 0.30 es la probabilidad de que un solicitante de empleo en ICA esté titulado como


ingeniero y 0.70 de que haya tenido alguna experiencia como ingeniero y 0.20 de que tenga
ambos, ¿De 300 solicitantes qué número de ellos tendrán el título de ingeniero o alguna
experiencia de trabajo en ingeniería?

Si 𝑇 = 𝑇𝑖𝑡𝑢𝑙𝑎𝑑𝑜 y 𝐸 = 𝐸𝑥𝑝𝑒𝑟𝑖𝑒𝑛𝑐𝑖𝑎, se dice que:

𝑃(𝑇 𝑜 𝐸) = 𝑃(𝑇) + 𝑃(𝐸) − 𝑃(𝑇, 𝐸) = 0.30 + 0.70 − 0.2 = 0.80

7. Construye un diagrama de Venn para la situación descrita en el problema anterior:

Cuadro IV.16
Diagrama de Venn para un solicitante de empleo con T o E en ICA

Fuente: Investigación directa con datos hipotéticos.

8. Durante el año 2015 dos terceras partes de las acciones preferentes aumentaron sus precios
o los mantuvieron estables, en tanto que una tercera parte disminuyó su precio; suponga que
se analiza la evolución en el mercado de los precios de tres acciones preferentes,
seleccionadas al azar:

a) Usando 𝐴 para significar que aumentó o se mantuvo constante el precio de las acciones y 𝐵
para denotar que su precio disminuyó, construya un diagrama de árbol ilustrando las
probabilidades del aumento o disminución en el precio de las tres acciones seleccionadas al
azar (tip, debe de ser un árbol de 3 etapas de izquierda a derecha).

209
Cuadro IV.17
Diagrama de árbol con eventos sucesivos

Fuente: Investigación directa con datos hipotéticos.

b) Con los datos del diagrama de árbol anterior, ¿Cuál es la probabilidad de que hayan
disminuido los precios de las 3 acciones?

1 1 1 1
𝑃(𝐵 𝐵 𝐵) = ∗ ∗ =
3 3 3 27

c) ¿Cuál es la probabilidad de que al menos una de las tres acciones haya disminuido en su
precio (tip, sólo una rama en el diagrama de árbol no satisface esta condición, y por ende la
probabilidad de que los 3 productos secuenciados en este árbol pueda sustraerse de 1.0):

2 2 2 8 27 − 8 19
𝑃(𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑎 𝐵) = 1 − 𝑃(𝐴 𝐴 𝐴) = 1 − ( ∗ ∗ ) = 1 − = = 𝑙
3 3 3 27 27 27

9. La probabilidad de un aumento (𝐴) en la demanda de pan Bimbo para el año próximo se


estima que será de 0.70. Si ello sucede 0.80 es la probabilidad de que aumenten las ventas
de pan Bimbo. Si no sucede, 0.50 es la probabilidad de que aumenten las ventas de pan
Bimbo.

a) Construya el diagrama de árbol ilustrando todos los posibles productos con su probabilidad
de ocurrencia asociada usando 𝐴 y 𝑁𝐴 para denotar aumento y no aumento en la demanda
de pan Bimbo, y 𝑉 y 𝑁𝑉 para expresar el incremento y el no incremento en sus ventas,
respectivamente.

210
Cuadro IV.18
Diagrama de árbol del Pan Bimbo

Fuente: Investigación directa con datos hipotéticos.

b) ¿Cuál es la probabilidad de que haya un aumento en la demanda y un incremento en las


ventas de pan Bimbo?

𝑃(𝐴, 𝑉) = 𝑃(𝐴)𝑃(𝑉|A) = (0.70)(0.80) = 0.56

c) ¿Cuál es la probabilidad de que ambos no aumenten?

𝑃(𝑁𝐴, 𝑁𝑉) = 𝑃(𝑁𝐴)𝑃(𝑁𝑉|NA) = (0.30)(0.50) = 0.15

9. Los empleados de la empresa Coca Cola Drink van a ser incluidos en el SAR
inscribiéndolos en una AFORE. Para esto se toma una muestra de ellos para ser
encuestados o entrevistados, mismos que se observa se clasifican de la manera siguiente:

Tabla IV.8
Empleados entrevistados de la empresa Coca Cola Drink
Clasificación Evento NO. de empleados
Supervisores A 120
Mantenimiento B 50
Producción C 1460
Administración D 302
Secretarías E 68
TOTAL 2000
Fuente: Investigación directa con datos hipotéticos.

Se puede ver que son mutuamente excluyentes (ocurre uno u otro) y colectivamente exhaustivos
(por lo menos uno de los eventos puede ocurrir al realizar el experimento). Con estas referencias:

a) ¿Cuál es la probabilidad de que la primera persona seleccionada sea:

1. Un empleado de mantenimiento o una secretaria

50 68 118
𝑃(𝑚𝑎𝑛𝑡𝑒𝑛𝑖𝑚𝑖𝑒𝑛𝑡𝑜 𝑜 𝑠𝑒𝑐𝑟𝑒𝑡𝑎𝑟𝑖𝑎) = + = = 0.059
2000 2000 2000

211
b) Construya un diagrama de Venn que ilustre la respuesta en a).

Cuadro IV.19
Diagrama de Venn: Inciso a.1)

Fuente: Investigación directa con datos hipotéticos.

2. Un empleado que no sea parte de la administración ni de la supervisión

422
𝑃(𝑥) = 1 − = 1 − 0.211 = 0.789
2000

10. En el examen médico anual practicado a los empleados de la empresa “Tequila


Jaltotongo” se halló que 8% de ellos necesitan zapatos ortopédicos, 15% requieren de atención
dental y 3% necesitan ambos: zapatos ortopédicos y atención dental.

a) ¿Cuál es la probabilidad de que un empleado seleccionado al azar necesite zapatos ortopédicos


(𝐴) o tratamiento dental (𝐵)?

𝑃(𝐴 𝑜 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 𝑦 𝐵) = 0.08 + 0.15 − 0.03 = 0.20

Represente lo anterior con el diagrama de Venn

Cuadro IV.21
Diagrama de Venn para un empleo que necesita A o B

Fuente: Investigación directa con datos hipotéticos.

11. Por su experiencia la fábrica de llantas “Sagitario”, sabe que la probabilidad de que su
marca “Duracero” dure 50,000 km. es 0.70. Si para verificarlo toma una muestra de 5 llantas al
azar, ¿Cuál es la probabilidad de que las 5 llantas duren 50,000 km?

𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 = (0.70)(0.70)(070)(0.70)(.70) = 0.4599

12. El Consejo de Administración de la empresa “Gatopardo” lo constituyen 8 hombres y 4


mujeres. De entre ellos se debe elegir al azar un comité de búsqueda de 4 miembros para buscar en
212
todo México un nuevo presidente para la empresa ( ejercicio interesante tomado de los realizados
en el aula con los alumnos ) .

a) ¿Cuál es la probabilidad de que los 4 miembros del comité de búsqueda sean mujeres?

4 3 2 1 24
𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 = ( )( )( )( ) = = 0.002
12 11 10 9 11880

b) ¿Cuál es la probabilidad de que los 4 miembros sean hombres?

8 7 6 5 1680
𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 = ( ) ( ) ( ) ( ) = = 0.1414
12 11 10 9 11880

c) ¿La suma de las probabilidades de los eventos descritos en a) y b) es igual a 1?

No, porque hay otros eventos posibles.

13. Sobre el uso de una tabla de contingencia. Sabiendo que es una tabla que se utiliza para
clasificar las observaciones de las muestras de acuerdo en dos o más características que se pueden
identificar, como la vigente tomada de ejercicios de años anteriores con los alumnos; que es una
tabulación realizada que resume al mismo tiempo dos variables de interés y su relación.

Lealtad de los ejecutivos y tiempo de servicio en la empresa “ Jugos Naturales del Sureste”,
denotada con 𝐴1 .

Tabla IV.9
Tabla de contingencia representando la lealtad de los ejecutivos y tiempo de servicio en la empresa
Jugos Naturales del Sureste
Tiempo de servicio en años
Menos de 1 De 1 a 5 De 6 a 10 Más de 10
Lealtad TOTAL
B1 B2 B3 B4
Permanencia en A1 10 30 5 75 120
No permanencia en A1: ~A 25 15 10 30 80
TOTAL 35 45 15 105 200
Fuente: Investigación directa con datos hipotéticos.

a) ¿Cuál es la probabilidad de seleccionar un empleado con más de 10 años de servicio?

105
𝑃(𝐵4 ) = = 0.525
200

b) ¿Cuál es la probabilidad de seleccionar un empleado que no pertenezca en 𝐴 debido a que tiene


más de 10 años de servicio?

213
30
𝑃(𝐴2 |𝐵4 ) = = 0.286
105

c) ¿Cuál es la probabilidad de seleccionar un empleado con más de 10 años de servicio o a uno que
no permanezca en la empresa A1 ?

80 105 30 155
𝑃(𝐴2 𝑜 𝐵4 ) = + − = = 0.775
200 200 200 200

d) ¿Cuál es la probabilidad de que un empleado permanezca con la empresa A1 ?

120
𝑃(𝐴1 ) = = 0.60
200

e) La probabilidad de que un empleado haya trabajado en la empresa menos de un año es:

35
𝑃(𝐵1 ) = = 0.175
200

f) ¿Cuál es la probabilidad condicional de que un empleado con más de 10 años de servicio


continúe con A1 ?
75
𝑃(𝐵4 |𝐴1 ) = = 0.625
120

14. Concepto de probabilidad conjunta.

Una probabilidad conjunta ( Salvatore, 1999) es la probabilidad de que dos o más eventos (𝐴 𝑦 𝐵)
ocurran al mismo tiempo. Los eventos 𝐴 y 𝐵 no son mutuamente excluyentes. De la tabla de
contingencia anterior se puede decir que un empleado puede estar dispuesto a permanecer en la
empresa y tener menos de un año de experiencia. Esta probabilidad se conoce como probabilidad
conjunta y se escribe 𝑃(𝐴1 𝑦 𝐵). En la tabla mencionada se puede ver que hay 10 empleados que se
10
quedarán en la empresa y tienen menos de un año de servicio; por lo que 𝑃(𝐴1 𝑦 𝐵) = 200 = 0.05 e
indica que hay intersección entre ellos por lo que en el cálculo de sus probabilidades como eventos
mutuamente excluyentes se debe restar este valor así: 𝑃(𝐴 𝑜 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 𝑦 𝐵) =
(0.60) + (0.17) − (0.05) = 0.725

Interpretación: la probabilidad de que un empleado permanezca en la empresa o haya trabajado por


menos de un año es 72.5%.

15. El método para calcular la probabilidad como una razón matemática, también conocido
como clásico o a priori, se aplica cuando hay 𝑛 resultados igualmente posibles en un experimento.

El método de las frecuencias relativas, llamado también a posteriori o empírico, se aplica cuando se
realiza el experimento y se registran los eventos o resultados que éste produce.

214
16. Teorema o Regla de Bayes. Es un método para revisar una probabilidad (a priori)
cuando se obtuvo información adicional (a posteriori). Para su exposición antes se dice que un
teorema es una suposición científica que debe demostrarse. (Larousse, 2005:973 y 126), y que un
axioma es una proposición primera evidencia no susceptible de demostración, que es lógica y se
interpreta como un principio enunciado hipotéticamente como base de una teoría deductiva.

Con estas definiciones se dice que este teorema fue desarrollado en el siglo XVIII por el Presbítero
Thomas Bayes, quien se preguntó ¿En verdad existe Dios? Y para contestar esta pregunta elaboró
una fórmula para llegar a la probabilidad de que Dios existe (Lind et al, 2005: 160), a partir de las
evidencias o información a su alcance en la tierra. Luego Laplace detalló la investigación de Bayes
y él fue quien la denominó “Teorema de Bayes”. Así, para dos eventos mutuamente excluyentes y
colectivamente exhaustivos, dicha fórmula es:

𝑃(𝐴1 )𝑃(𝐵|𝐴1 )
𝑃(𝐴1 |B) =
𝑃(𝐴1 )𝑃(𝐵|𝐴1 ) + 𝑃(𝐴2 )𝑃(𝐵|𝐴2 )

Para ilustrar su aplicación se tomó de los ejercicios con los alumnos, el sigui(ente: Suponga que
los eventos 𝐴1 y 𝐴2 son mutuamente excluyentes y colectivamente exhaustivos por lo menos uno de
los eventos debe ocurrir al realizar el experimento); además, que 𝐴𝑖 se refiere al evento 𝐴1 o 𝐴2 .

Por otra parte suponga que 5% de la población de Sonora tiene una enfermedad que es peculiar en
esa entidad federativa. También suponga que 𝐴1 indica el evento “tiene la enfermedad” y que 𝐴2 se
refiere al evento “no tiene la enfermedad”. Luego entonces si se selecciona al azar una persona de
Sonora, la probabilidad de que esa persona tenga la enfermedad es 0.05 o 𝑃(𝐴1 ) = 0.05. Se conoce
como probabilidad a priori (Lind et al, 2005:161). Así le llaman porque se origina antes de obtener
cualquier dato empírico (Idem), ya que esta probabilidad inicial se basa en la información actual
disponible.

En este sentido apriorístico la probabilidad de que una persona de Sonora no padezca la enfermedad
es 𝑃(𝐴2 ) = 1 − 0.05 = 0.95.

Ahora bien, se sabe que existe una técnica de diagnóstico para detectar la enfermedad (la cual no es
del todo precisa). Así suponga que 𝐵 se refiere al evento “las pruebas demuestran que la
enfermedad está presente”. Suponga también que las evidencias históricas revelan que si una
persona tiene la enfermedad, la probabilidad de que la prueba indique su presencia es de 0.90. Así,
si se utilizan las definiciones de la probabilidad condicional expuestas previamente, esta afirmación
se expresa como: 𝑃(𝐵|𝐴1 ) = 0.90.

Ahora suponga que 0.15 es la probabilidad de que una persona que en realidad no tiene la
enfermedad la prueba indicará la presencia de ésta. 𝑃(𝐵|𝐴2 ) = 0.15.

Con estas referencias ahora suponga que se selecciona al azar a una persona de Sonora, se realiza la
prueba y ésta indica que la enfermedad está presente. Por consiguiente, ¿Qué probabilidad hay de
que la persona realmente padezca la enfermedad? En forma simbólica, se quiere saber
215
𝑃(𝐴1 𝑑𝑎𝑑𝑜 𝐵) que se lee: 𝑃 (tiene la enfermedad dados los resultados de la prueba son positivos).
La probabilidad 𝑃(𝐴1 𝑑𝑎𝑑𝑜 𝐵) se conoce como probabilidad a posteriori (probabilidad revisada con
base en datos adicionales).

Aplicando la fórmula del Teorema de Bayes se determina la probabilidad a posteriori:

𝑃(A1 )P(B|𝐴1 )
𝑃(A1 |B) =
𝑃(𝐴1 )𝑃(𝐵|𝐴1 ) + 𝑃(𝐴2 )𝑃(𝐵|𝐴2 )

(0.05)(0.90)
𝑃(A1 |B) = = 0.24
(0.05)(0.90) + (0.95)(0.15)

Interpretación: 0.24 es la probabilidad de que una persona tenga la enfermedad debido a que la
prueba dio positivo. Entonces, si se selecciona una persona de Sonora al azar, la probabilidad de
que padezca la enfermedad es 0.05. Si esa persona se somete a la prueba y el resultado es positivo,
se dice que la probabilidad de que realmente esté enferma aumenta de 0.05 a 0.24, es decir, aumenta
casi cinco veces. Con estos cambios los cálculos se resumen en:

Tabla IV.10
Teorema de Bayes para la población enferma en Sonora
Probabilidad Probabilidad Probabilidad Probabilidad
Evento anterior condicional conjunta posterior
𝑃(𝐴) 𝑃(𝐴|𝐵) 𝑃(𝐴𝑖 𝑦 𝐵) 𝑃(𝐴𝑖 |𝐵)
0.0450
Enfermedad (𝐴1 ) 0.05 0.90 0.045 = 0.24
0.1875
0.1425
Sin enfermedad (𝐴2 ) 0.95 0.15 0.1425 = 0.76
0.1875
TOTAL 100 100 𝑃(𝐵) = 0.1875 1
Fuente: Investigación directa con datos hipotéticos.

216
IV.3.4 Examen: Introducción a la probabilidad

Nombre del alumno:

1. ¿Qué es la probabilidad?______________________________________________
:
2. ¿Cuántos y cuáles son los enfoques para calcular la probabilidad?_____________
_____________________________________________________________________
3. Según Laplace, ¿Cómo se define la probabilidad?__________________________
_____________________________________________________________________
4. ¿Cuándo se aplica el enfoque subjetivo para calcular la probabilidad?___________
_____________________________________________________________________
5. ¿En que difiere el método de las frecuencias relativas del método teórico? ______
_____________________________________________________________________
6. ¿Para qué sirven las técnicas del análisis combinatorio?______________________
_____________________________________________________________________
7. ¿Un evento sólo puede estar constituido por un punto? SI_____; NO______
8. ¿Por qué las permutaciones sirven de referencia para el muestreo con reemplazo?_
_____________________________________________________________________
9. ¿Por qué las combinaciones sirven de referencia para el muestreo sin reemplazo?_
_____________________________________________________________________
10. Las permutaciones, ¿Son más o menos que las combinaciones, por qué? ________
_____________________________________________________________________

Observaciones: Cada una de las respuestas cuenta como medio punto.

PROBLEMA 1.

Referencias: La Secretaría de Economía puede investigar en las empresas zapateras: a, b y c sí éstas


cumplen con las normas de calidad que exige el TLC. Si decide investigar en dos de ellas lo
anterior:

a) ¿Cuántas y cuáles permutaciones (muestras) tiene a su disposición?_____________


______________________________________________________________________
b) ¿Cuántas y cuáles combinaciones (muestras) tiene a su disposición? ____________
______________________________________________________________________
c) En términos de representatividad de la muestra, ¿Escogería muestras con o sin reemplazo,
por qué?___________________________________________________
PROBLEMA 2.

Si una muestra de empleados de TELMEX participa en una encuesta sobre un nuevo plan de
pensiones y sí estos empleados se clasifican como se indica en el siguiente cuadro:

Tabla IV.11
217
Trabajadores encuestados de TELMEX
Clasificación Evento Número de empleados
Supervisores A 120
Mantenimiento B 50
Producción C 1460
Administración D 302
Secretarias E 68
Fuente: Investigación directa con datos hipotéticos.

a) ¿Cuál es la probabilidad de que una persona seleccionada al azar sea un empleado de


Mantenimiento o una Secretaria? ______________________________________
______________________________________________________________________
b) ¿Cuál es la probabilidad de que esa persona seleccionada al azar no sea de
Administración?______________________________________________________
c) ¿Los eventos de la pregunta a) son independientes, mutuamente excluyentes o
ambos?_____________________________________________________________

PROBLEMA 3.

Si usted sabe que cada año a los empleados de la Facultad de Economía les es practicado un
examen físico para conocer su estado de salud y que el año pasado se detectó que 8% de ellos
necesitaban zapatos ortopédicos, que 15% requieren de un tratamiento dental y que 3% de ellos
requieren tanto de zapatos ortopédicos como de servicio dental, así:

a) ¿Cuál es la probabilidad de que un empleado seleccionado al azar necesite zapatos


ortopédicos o tratamiento dental?
b) Represente esta situación con un diagrama de Venn.

Observaciones: el problema uno cuenta 2 puntos; el dos, 1.5 puntos y el tres, 1.5 puntos.

IV.3.5 Práctica VI

NOMBRE__________________________________________ GRUPO_____

PROBLEMA 1. Al mercado concurren tres empresas con los productos A, B, C. El número


de unidades de A es de 20, el de B es de 35 y el de C es de 45. Una unidad será elegida al
azar entre todas ellas.

1. ¿Cuál es el conjunto de eventos elementales o espacio muestral?


2. ¿Cuál es la probabilidad asociada a cada evento elemental?
218
3. ¿Cuál es la probabilidad de elegir una unidad del producto A?
4. ¿Cuál es la probabilidad de elegir una unidad del producto B?
5. ¿Cuál es la probabilidad de elegir una unidad del producto C?
6. ¿Cuál es la probabilidad de elegir una unidad sea del producto A o B?
7. ¿Cuál es la probabilidad de elegir una unidad sea del producto B o C?
8. ¿Cuál es la probabilidad de elegir una unidad sea del producto A o C?

PROBLEMA 2. En una localidad de 10,000 compradores las opiniones respecto a dos


productos X y Z se manifiestan de la siguiente manera:

 1,000 son favorables a ambos.


 2,000 a favor de X y en contra de Z.
 1,000 en contra de ambos.
 4,000 a favor de X y no tienen opinión sobre Z.
 1,000 en contra de Z y no tiene opinión respecto a X.
 1,000 no tienen opinión respecto a ambos.

Si se elige al azar un comprador, ¿Cuál es la probabilidad de que?:

1. Opinen a favor de X.
2. Opinen en contra de X.
3. No tiene opinión respecto a X.

PROBLEMA 3. Dentro de una rama industrial se encuentran 15 empresas divididas en tres


grupos: grupo México con 6, grupo Puebla con 4 y grupo Querétaro con cinco. Si se denota
por M, P, y Q como los eventos de exportar una misma mercancía, determinar las
probabilidades siguientes:

1. Sea una empresa del grupo México la que exporte.


2. Sea una del grupo Puebla la que exporte.
3. Sea una del grupo Querétaro la que exporte.
4. Que no sea del grupo México.
5. Que sea del grupo México o Puebla.

PROBLEMA 4. En una Facultad de Ciudad Universitaria asisten 2,500 estudiantes con las
siguientes características:

 1,000 son del sexo femenino.


 1,200 pesan 58 kilos o más.
 De las mujeres 700 miden sobre 1.58.
 De los hombres 1,300 miden sobre 1.65.

De los 2,500 uno se elige al azar:

219
1. Determinar el conjunto de eventos elementales o marco muestral.
2. Cuál es la probabilidad de elegir un estudiante varón.
3. Cuál es la probabilidad de elegir un estudiante que pese menos de 58 kilos.

Cuál es la probabilidad de que habiendo elegido a un estudiante varón, este mida sobre 1.65
metros.

220
CAPÍTULO V. DISTRIBUCIONES PROBABILÍSTICAS

Este tipo de distribuciones son muy importantes porque una vez conocidas sus características, sus
propiedades estadísticas y el alcance de cada una de ellas, se amplía la capacidad de análisis, ya que
a partir del conocimiento de sus supuestos teóricos, de su conformación, de su distribución y de la
destreza que se desarrollen para saber aplicarlas o adaptarlas a fenómenos económicos específicos,
es posible hacer estimaciones de riesgo o incertidumbre, de parámetros, de verificación de hipótesis
de trabajo, calcular y utilizar tamaños de muestras para inferir las características de la población de
dónde se obtienen, etc. Todo ello a partir de muestras sin tener que estudiar toda la población, como
sería a través de un censo.

Para saber cómo se generan, se comenzará haciendo el símil con una distribución o arreglo de datos
en lo que se ha dado en llamar una distribución de frecuencias, que es una lista de todos los
resultados posibles con la asociación de una frecuencia observada por cada resultado.

Similarmente, una distribución probabilística también es una lista de todos los resultados posibles,
pero en lugar de la frecuencia observada, se indica la probabilidad asociada con cada uno de los
resultados ( Richmond , 1964) . Así, para generarse puede decirse que si tres monedas se lanzan al
aire una vez y se registran los resultados, el número posible por ejemplo de águilas en un
lanzamiento puede ser: 0, 1, 2, 3.

Aun cuando hay cuatro resultados posibles sólo uno ocurre en el lanzamiento al aire de tres
monedas a la vez. Suponiendo que se realiza o se repite el experimento de lanzar diez veces las tres
monedas y se registra el número de veces que cae 0, 1, 2, 3 águilas, la tabla que resulta es una
distribución de frecuencias.

Tabla V.1
Frecuencias observadas del lanzamiento de tres monedas
No. De águilas Frecuencia observada
0 2
1 4
2 4
3 0
Fuente: Investigación directa con datos hipotéticos.

Si el experimento se repite, una y otra vez, en cada ocasión se obtienen resultados diferentes. Para
evitar lo anterior y no conducirse casuísticamente, es decir, estar tabulando las frecuencias de
ocurrencia de cada resultado posible, en forma aislada para luego llegar a conclusiones
circunstanciales o coyunturales en el estudio de un fenómeno económico, es preferible tratar de
generalizar aplicando procedimientos estándar de aceptación general en el análisis de los mismos,
cuyos resultados sean creíbles puesto que se maneja una metodología aceptada por la mayoría. Para
1 1
ello qué mejor referencia que el enfoque clásico o teórico donde 𝑝 = 2 y 𝑞 = 2; con el que es
posible determinar e indicar la probabilidad de cada producto: 0.1.2.3, ya que en este caso se
determina o indica la probabilidad de ocurrencia de cada suceso, con este procedimiento se evita

221
que cambie la distribución, es decir, en el caso del experimento de lanzar tres monedas al aire y al
1 3
registrar sus resultados, teóricamente éstos serán siempre: 8 para cero águilas o tres soles; 8 para un
3 1
águila y dos soles; para dos águilas y un sol y para tres águilas y ningún sol (Richmond; 1964).
8 8

Reiterando, mientras que una distribución de frecuencias lista todos los resultados posibles con su
frecuencia asociada indicando el número de veces que ocurre cada resultado, la distribución
probabilística también lista todos los resultados posibles con su probabilidad asociada de
1
ocurrencia, así: partiendo de la definición clásica la cual establece que 𝑝 = 2 = 𝑞; donde 𝑝 =
Probabilidad de que caiga "águila" y 𝑞 = Probabilidad de que no sea águila; si se lanzan tres
monedas a la vez y se registra el número de águilas, se genera una distribución probabilística con
ocho resultados posibles, que agrupados dan:

Tabla V.2
Distribución probabilística del lanzamiento de tres monedas
No. De águilas Probabilidad
0 1 ÷ 8
1 3 ÷ 8
2 3 ÷ 8
3 1 ÷ 8
Fuente: Investigación directa con datos hipotéticos.

Uno de los primeros beneficios de estos cálculos es que dada una distribución probabilística, se
puede desarrollar una distribución de frecuencias esperadas multiplicando el valor de cada una de
las probabilidades por el número total de veces que se repita el experimento. Si esto se hace 3
veces:

Tabla V.3
Distribución de frecuencias del lanzamiento de tres monedas
No. De águilas Frecuencia esperada en el lanzamiento de 3 monedas 24 veces
0 24 * 1 ÷ 8 = 3
1 24 * 3 ÷ 8 = 9
2 24 * 3 ÷ 8 = 9
3 24 * 1 ÷ 8 = 3
Fuente: Investigación directa con datos hipotéticos.

Raras veces la distribución de frecuencias observadas coinciden con la de las esperadas, que se
convierten en la mejor estimación de las primeras si el experimento se realiza muchas veces. Luego
una distribución de frecuencias esperadas es una distribución probabilística.

Su naturaleza y formas de generarlas

Pueden ser discretas y continuas. Al respecto, de acuerdo con Canavos (1988; 53), se dice que la
variable aleatoria 𝑋 es discreta si el número de valores que puede tomar es contable (ya sea finito o
infinito), y si estos pueden arreglarse en una secuencia que corresponde con los enteros positivos.
En general, una variable aleatoria discreta 𝑋 representa los resultados de un espacio muestral en
222
forma tal que por 𝑃(𝑋 = 𝑥) se entenderá la probabilidad de que 𝑋 tome el valor de 𝑥. De esta
forma, al considerar los valores de una variable aleatoria es posible desarrollar una función
matemática que asigne una probabilidad a cada realización 𝑥 de la variable aleatoria 𝑋. Esta
función recibe el nombre de función de probabilidad de la variable aleatoria 𝑋.(Canavos; 1988; 53-
54).

Como es el caso del lanzamiento de una moneda o un dado donde los valores que se obtienen al
realizar el experimento son enteros positivos.

Por otra parte, se dice que una variable aleatoria 𝑋 es continua si es divisible o fraccionable, es
decir, si sus valores están en uno o más intervalos de la recta de los números reales. Este tipo de
distribuciones están caracterizadas por una función 𝑓(𝑥) que recibe el nombre de función de
densidad de probabilidad. Esta función 𝑓(𝑥) no es la misma función de probabilidad que para el
caso discreto. Como existe la probabilidad de que 𝑋 tome el valor específico de 𝑥 es cero, la
función de densidad de probabilidad no representa la probabilidad de que 𝑋 = 𝑥. Más bien ésta
proporciona un medio para determinar la probabilidad de un intervalo 𝑎 ≤ 𝑋 ≤ 𝑏. (Canavos; 1988;
57). Por ejemplo, si se miden intervalos de tiempo de cualquier evento hasta una décima de
segundo o más y se desea obtener la probabilidad de los mismos, es más sencillo determinar la
probabilidad de cada intervalo de tiempo que de un punto en el espacio muestral disponible.

Dentro de las primeras destacan por su uso en la economía la distribución binomial, la


hipergeométrica y la de Poisson. Dentro de las continuas, la principal y de mayor uso es la
distribución normal.

En la primera parte de este capítulo se tratarán las principales distribuciones discretas. Aun cuando
existen diferentes maneras de generar una distribución de frecuencias esperadas discreta, son dos
los métodos más extensamente usados en la inferencia estadística partiendo de la definición clásica
de probabilidad: El diagrama de árbol y la expansión del binomio, como se ilustra a continuación.

Dentro de la segunda parte del capítulo se tratarán las principales distribuciones continuas, como es
la distribución normal, la distribución F de Fisher y la t de Student y la chi-cuadrada (𝜒 2 ).

V.1 Principales distribuciones de probabilidad discretas

V.1.1 Distribución binomial

Esta distribución pertenece a la familia de distribuciones Bernoulli, la cual depende del tamaño de
la muestra n y de su probabilidad objetivo 𝑝. Su fórmula es :

𝑛!
𝑃(𝑋) = 𝑝 𝑥 𝑞𝑛−𝑥
(𝑛
𝑥! − 𝑥)!

Es una de las distribuciones de probabilidad más útiles. Sus áreas de aplicación incluyen la
inspección de calidad, ventas, mercadotecnia, medicina, investigación de opiniones y otras muchas.
Una de sus principales características es que maneja datos discretos y no continuos. Se llama
binomial porque se genera de la expansión binomial de 𝑞 + 𝑝, por ejemplo: Supóngase un
223
experimento, dónde el resultado de este es la ocurrencia o no ocurrencia de un evento, es decir el
“éxito” de que ocurra el evento o el “fracaso” o su no ocurrencia. Sea 𝑝 la probabilidad de éxito y
(1 − 𝑝) = 𝑞 la probabilidad de fracaso. Por motivos didácticos puede decirse que se obtiene por
medio de:

a) Diagrama de árbol.
b) La expansión binomial 𝑞 + 𝑝.

Partiendo del diagrama de árbol, en el caso del experimento consistente en el lanzamiento una vez
de tres monedas al aire, estableciendo que 𝑝 es A (Águila) y 𝑞 es S (sol) la distribución binomial
gráficamente se generará así:

Cuadro V.1
Diagrama de árbol del lanzamiento de tres monedas

Fuente: Investigación directa con datos hipotéticos.

Agrupando los resultados anteriores se tendrá a una distribución probabilística:

Tabla V.4
Distribución probabilística del lanzamiento de 3 monedas
No. De águilas Probabilidad
0 1/8
1 3/8
2 3/8
3 1/8
Fuente: Investigación directa con datos hipotéticos.

Para construir el diagrama de árbol se supone que los eventos son mutuamente excluyentes e
independientes.

224
Ahora bien, para ilustrar la creación de la distribución binomial mediante la expansión del binomio
(𝑞 + 𝑝)𝑛 . Ahora supóngase que una moneda se lanza al aire dos veces e interesa obtener la
probabilidad de que caigan "águilas". Los resultados posibles son 0, 1, 2 "águilas"; así mismo en el
caso de una moneda no deforme, en cada lanzamiento la probabilidad de obtener águila (p) es
0.5 y la de sol (q)j es también 0.5 = q; tal que:

𝑞 + 𝑝 = 0.5 + 0.5 = 1

Luego la distribución binomial se obtiene de (𝑞 + 𝑝)𝑛 donde 𝑛 = 2 lanzamientos de la moneda.


Así, con 𝑥 representando águilas (Richmond, Apéndice C, 1964).

Tabla V.5
Distribución binomial del lanzamiento de una moneda dos veces al aire
𝑋 𝑃(𝑋)
0 0.25
1 0.5
2 0.25
1
Fuente: Investigación directa con datos hipotéticos.

Sustituyendo las literales 𝑞 y 𝑝:

(0.5 + 0.5)2 = (0.5)2 + 2(0.5)(0.5) + (0.5)2 = 0.25 + 0.50 + 0.25 = 1.00

𝑃(0) = 0.25
𝑃(1) = 0.50
𝑃(2) = 0.25

Lo anterior representa cada uno de los resultados en el desarrollo de una distribución binomial, lo
que significa que la fórmula binomial representa cada uno de los términos en el desarrollo del
binomio con exponente n.. Es probabilística porque muestra cada resultado posible con su
probabilidad de ocurrencia asociada. Gráficamente se ve así:

Gráfica V.1
Distribución binomial del lanzamiento de una moneda dos veces al aire

Fuente: Investigación directa con datos hipotéticos.

225
Cuantificación con el diagrama de árbol de las probabilidades de (𝑥):

Cuadro V.2
Distribución de probabilidades del lanzamiento de una moneda dos veces al aire

Fuente: Investigación directa con datos hipotéticos.

Importante: Es necesario recordar que la probabilidad en su acepción objetiva se refiere a un


proceso repetitivo, el cual genera productos que no son idénticos ni predecibles individualmente,
pero que pueden describirse en términos de frecuencias relativas, estos procesos son llamados
estocásticos o aleatorios, y los resultados posibles individuales se llaman eventos o sucesos,.

Así, un proceso estocástico puede ser el lanzamiento de una moneda, el proceso de fabricación de
ladrillos o la selección al azar de personas y el registro de su peso, estatura, ingreso o sexo, etc. Lo
que se observa (cara de la moneda, el peso de los ladrillos, el ingreso de las personas, etc.) es
llamado variable estocástica, aleatoria o al azar.

De esta manera una distribución de probabilidad es una lista de todos los eventos (o valores de la
variable aleatoria) que resulta de un proceso estocástico, y la probabilidad asociada de
ocurrencia de cada uno de ellos.

Observaciones:

1. El número de eventos en la secuencia o número de repeticiones se indica con el exponente


del binomio. Así (𝑞 + 𝑝)𝑛 es la expansión binomial que genera una distribución de
probabilidad cuando se lanza una moneda, una sola vez al aire.

Por consiguiente (𝑞 + 𝑝)3 es la expansión binomial que genera una distribución de


probabilidad cuando se lanzan tres monedas a la vez al aire; el término binomial a expandir
será:
(𝑞 + 𝑝)3 = 𝑞 3 + 3𝑝𝑞 2 + 3𝑝2 𝑞 + 𝑝3

1
Sustituyendo los valores de 𝑞 y 𝑝, donde 𝑞 = 2 = 𝑝; se tiene:

1 3 1 1 2 1 2 1 1 3 1 3 3 1
(𝑞 + 𝑝)3 = ( ) + 3 ( ) ( ) + 3 ( ) ( ) + ( ) = + + +
2 2 2 2 2 2 8 8 8 8

226
Estos resultados son iguales a los obtenidos con el diagrama de árbol y corresponden a la
probabilidad de obtener 0, 1, 2 o 3 águilas en el lanzamiento de 3 monedas.

El primer término de la expansión indica la probabilidad de obtener cero águilas y tres


soles, el segundo expresa la probabilidad de obtener un águila y dos soles y así
sucesivamente. Luego los exponentes incluidos en cada término de la expansión binomial
son útiles en la interpretación del significado de cada uno de los términos (Kazmier; 1967)

2. Por otro lado los coeficientes de cada término indican el número de formas en que se
pueden obtener los resultados, (ibíd.).

En resumen, la distribución binomial puede generarse de dos maneras:

a) Por el diagrama del árbol.


b) Por la expansión del binomio (𝑞 + 𝑝)𝑛

V.1.1.1 La media aritmética y desviación estándar de la distribución binomial

Se calculan con el procedimiento usual, solo que se usan probabilidades en lugar de frecuencias. En
el caso de la media, su fórmula es:

∑ 𝑋𝑝(𝑋)
𝜇=
∑ 𝑝(𝑋)
Para la desviación estándar:
∑(𝑥 − 𝜇)2 𝑝(𝑥)
𝜎=√
∑ 𝑝(𝑥)
Como la suma de las probabilidades es igual a 1 los denominadores de las fórmulas se eliminan y
queda:
𝜇 = ∑ 𝑥𝑝(𝑥)

𝜎 = √∑(𝑥 − 𝜇)2 𝑝(𝑥)


La distribución binomial es simétrica cuando 𝑝 = 𝑞 = 1⁄2; y asimétrica (positiva o negativa)
cuando 𝑝 es diferente de 𝑞. Así, si p es mayor que 0.5 la asimetría es negativa y si p es menor que
0.5, la asimetría es positiva, ver gráfica V.2.

Gráficamente:

227
Gráfica V.2
Distribución binomial simétrica y asimétrica

Fuente: Investigación directa con datos de Canavos (1988: 4).

El experimento se puede realizar n veces, y cada uno de ellos son independientes. Finalmente sea 𝑋
la variable aleatoria que representa el número de éxitos en los 𝑛 ensayos (Canavos; 1988; 90).

Gráfica V.3
Gráficas de la función de probabilidad Binomial

Fuente: Canavos (1988: 91).


Ejemplo 1:

Si el 50% de los hombres empleados en la empresa “La Lechera” son casados y se toma una
muestra aleatoria de dos hombres, ¿Cuál es la probabilidad de que la muestra contenga 2, 1 o 0
hombres casados?
1
𝑝=2=𝑞
𝑝 = Probabilidad de que los hombres sean casados.
𝑞 = Probabilidad de que no lo sean.
𝐶 = Casado.
𝑆 = Soltero.

En este caso usando un diagrama de árbol, la distribución binomial será:

228
Cuadro V.3
Diagrama de árbol de la probabilidad de que un empleado esté casado o no

Fuente: Investigación directa con datos hipotéticos.

Agrupando los resultados anteriores en una distribución probabilística, se tiene:

Tabla V.6
Tabla de probabilidades de los empleados casados
𝑋 𝑃(𝑋)
0 0.25
1 0.50
2 0.25
1
Fuente: Investigación directa con datos hipotéticos.

Este mismo resultado puede obtenerse con la expansión del binomio:

(𝑞 + 𝑝)2

(𝑞 + 𝑝)2 = 𝑞 2 + 2𝑝𝑞 + 𝑝2

2
1 2 1 1 1 2 1 1 1 2
(𝑞 + 𝑝) = ( ) + 2 ( ) ( ) + ( ) = ( ) + 2 ( ) + ( ) = 0.25 + 0.50 + 0.25 = 1
2 2 2 2 4 4 4

Cálculo de la media aritmética y desviación estándar de la distribución binomial

Tabla V.7
Cálculo de la media aritmética y desviación estándar
𝑋 𝑃(𝑋) 𝑋𝑃(𝑋) (𝑥 − 𝜇) (𝑥 − 𝜇)2 (𝑥 − 𝜇)2 𝑃(𝑋)
0 0.25 0 -1 1 0.25
1 0.5 0.5 0 0 0
2 0.25 0.5 1 1 0.25
1 1 0 0.5
Fuente: Investigación directa con datos hipotéticos.

Se calcula con

229
𝜇 = ∑ 𝑋 𝑃(𝑋)

Así, de la Tabla V.7 se observa que el sustituir, la media 𝜇 = 1.


También

Así sustituyendo
∑(𝑥 − 𝜇2 )𝑃(𝑋)
𝜎=√ = √0.5 = 0.71
∑ 𝑃(𝑋)
Estos resultados de 𝜇 y 𝜎 se obtienen más fácilmente con las fórmulas ( Richmond, 1964: 126)
aplicadas específicamente a la distribución binomial:

𝜇 = 𝑛𝑝; y 𝜎 = √𝑛𝑝𝑞

Donde 𝑛 = número de veces que se realiza el experimento o tamaño de la muestra:


1
Si 𝑝 = 2 y 𝑛 = 2;
1
𝜇 = 2( ) = 1
2
1 1
𝜎 = √2 ( ) ( ) = 0.71
2 2
A continuación se resumen algunas de las propiedades y características más importantes de la
distribución binomial obtenida por el método directo desde su función de probabilidad, ellas son: la
media, varianza, coeficiente de sesgo y curtósis relativa.

Tabla V.8
Principales propiedades de la distribución binomial y estadísticos básicos
Función de probabilidad Parámetros
𝑛! 𝑥 (1 𝑛−𝑥 𝑛, entero positivo
𝑝(𝑥; 𝑛, 𝑝) = (𝑛−𝑥)!𝑥! 𝑝 − 𝑝)
𝑝, 0 ≤ 𝑝 ≤ 1
Media Varianza Coeficiente de sesgo
𝑛𝑝 𝑛𝑝(1 − 𝑝) 1−2𝑝
[𝑛𝑝(1−𝑝)]1⁄2
Fuente:Canavos (1988: 98).

V.1.1.2 La distribución normal como límite de la binomial

Se ha visto que la distribución binomial es discreta porque la naturaleza de sus son discretos, es
decir, porque son categorías o conceptos indivisibles. El polígono de frecuencias ilustra su
simetría o asimetría, es decir, no se pueden interpolar sus puntos al no ser fraccionables sus valores,
por lo que no se puede hacer análisis de los puntos intermedios entre los números enteros de la
serie (Richmond, 1964: 130).

230
Sin embargo, como se recordará, cuando 𝑛 crece se puede hacer una aproximación utilizando la
fórmula de la distribución normal, para lo cual se adapta al valor de Z estandarizado de la siguiente
forma:

(𝑥 − 𝜇)
𝑍=
𝜎
Que es igual a
(𝑥 − 𝑛𝑝)
𝑍=
√𝑛𝑝𝑞
Y con 𝑛 creciendo sin límite.

Así, Z expresa la transformación de valores discretos de 𝑋 en continuos. Si se usa el ejemplo


anterior para ilustrar esta transformación y usando las nuevas literales, se tiene:

Tabla V.9
Transformación de la distribución binomial a una distribución normal
𝑋 𝑃(𝑋) (𝑥 − 𝜇) 𝑍 = (𝑥−𝜇) Área bajo la curva (𝑦)𝑂𝑟𝑑𝑒𝑛𝑎𝑑𝑎
𝜎
0 0.25 -1 -1.4 -0.41924 0.14973
1 0.5 0 0 0.00000 0.39894
2 0.25 1 1.4 0.41924 0.14973
Fuente: Investigación directa con datos hipotéticos y del Apéndice A.

𝜇 = 𝑛𝑝 = 1𝜎 = 0.71

La normal es simétrica aun cuando p es diferente de q. En el caso de una binomial, aunque p sea
diferente de q, su distribución tiende a ser normal o simétrica a medida que aumenta n.

Gráfica V.4
Transformación de la distribución binomial a una distribución normal

Fuente: Investigación directa con datos hipotéticos.

En la siguiente gráfica se puede observar claramente este hecho. Supóngase el ejemplo del
lanzamiento al aire de una moneda una vez y la probabilidad de que caiga águila, es claro que la
probabilidad de éxito o de fracaso es de 0.5. A medida que se realicen más y más lanzamientos de la

231
moneda, la distribución de la misma tenderá a la de una normal. En la gráfica se puede apreciar que
al lanzar la moneda 5 veces, su distribución se nota leptocúrtica, sin embargo llegado a los 50
lanzamientos o en su caso, ensayos, la distribución se muestra como la de una normal, ya que es una
curva mesocúrtica.

Gráfica V.5
La distribución binomial tiende a ser normal
a medida que aumenta el número de ensayos
0.40

0.30

0.20

0.10

0.00
6
0
1
2
3
4
5
7
8
9

17
10
11
12
13
14
15
16
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
n=5, p=0.5 n=20, p=0.5 n=50, p=0.5

Fuente: Investigación directa con datos hipotéticos.

La distribución binomial también se le llama de Bernoulli, porque fue quien la desarrolló.

V.1.1.3 Generación de la distribución binomial con Excel

Con las referencias anteriores ahora suponga que 𝑛 = 5; 𝑝 = 0.60 y que 𝑥 = 2.

PASOS:
1. Se posiciona el cursor celda A1/clic y se coloca en 𝑓𝑥/clic. En el nuevo cuadro de diálogo
Insertar una función, en el cual se buscará O seleccionar una categoría/clic, se selecciona
Estadísticas/Clic/. En el cuadro de diálogo de abajo se busca la función
DISTR.BINOM.N/clic y se le da Aceptar/clic.

2. En el nuevo cuadro de diálogo: Argumentos de función, se coloca el cursor en Número de


éxitos/clic y se escribe 2 (Dado que 𝑥 = 2); en Ensayos/clic y se digita 5; en el argumento
Prob_éxito/clic se digita la probabilidad de éxito, la cual en este caso es 0.60. En cuanto al
argumento Acumulado/clic se escribe FALSO para obtener la probabilidad bruta de 𝑥 = 2.
Como se observa en la parte inferior del cuadro V, el resultado es 𝑃(𝑥 = 2) = 0.2304. Para
finalizar se busca Aceptar/clic.

232
Cuadro V.4.
Argumentos de función de DISTR.BINOM.N con acumulado FALSO

Fuente: Investigación directa con datos hipotéticos.

3. Si se deseara obtener la probabilidad acumulada cuaando de 𝑥 =, 0, 1 𝑦2, es decir, dla suma


de las probabilidades de (𝑥 = 0) + (𝑥 = 1) + (𝑥 = 2) se siguen las instruucciones del paso
2 con la excepción de escribir VERDADERO el argumento Acumulado/clic, tal como se
muestre en el siguiente cuadro. Es ese caso el resultado es de 0.31744. (Martínez; 2005).

V.1.2 Distribución hipergeométrica

Esta distribución se usa cuando cambia el espacio muestral o la probabilidad objetivo ( p). En otras
palabras, cuando la población es pequeña y finita, el alterar por el proceso de selección sin
reemplazamiento ocasiona que la probabilidad objetivo cambie, por lo que la distribución
hipergéometrica permite dicha variación, a diferencia de la distribución binomial cuya probabilidad
objetivo no puede variar. Lind et al ( 2005) recomienda que cuando el tamaño de una muestra, 𝑛,
sea mayor a 5% de la población, 𝑁, cuando se usa un muestreo sin reemplazo, en ese caso se
aconseja utilizar la distribución hipergeométrica en lugar de la binomial para calcular la
probabilidad de un número específico de éxitos (𝑥).

Indudablemente que si la población fuera grande y la selección de la muestra fuera con reemplazo
se podría asignar la misma probabilidad a cada uno de los elementos para ser incluidos en la
muestra. Para su cálculo se parte de las fórmulas de la binomial obtenida con la fórmula de las
combinaciones:

𝑛 𝑛!
( )= = 𝑛𝐶𝑟
𝑟 𝑟! (𝑛 − 𝑟)!
En este caso se tiene que:
𝑁−𝑛
𝜎 = √𝑛𝑝𝑞 ∗ √
𝑁−1
𝑁−𝑛
Conociéndose √ 𝑁−1 con el nombre del multiplicador o corrector finito, el cual es útil porque
ayuda a mejorar el valor de . Finalmente, es posible definir la función de probabilidad
233
hipergeométrica de la siguiente manera: Si N es el número total de objetos en una población finita,
de manera tal que 𝑛1 de éstos es de un tipo y 𝑛2 de otro tipo. Si se selecciona una muestra aleatoria
sin reemplazo de la población constituida por 𝑟 objetos de la probabilidad de que 𝑥 sea de un tipo
exactamente y 𝑟 − 𝑥 sea del otro, se dice que está dada por la función de probabilidad
hipergeométrica:

(𝑛𝑥1 )(𝑟−𝑥
𝑛2
)
𝑝(𝑥) =
(𝑁𝑟)

En la siguiente gráfica se puede observar cómo cambia la distribución hipergeométrica a medida


que cambia la muestra aleatoria sin reemplazo y la probabilidad de objetos que se desean.

Gráfica V.6
Gráficas de la función hipergeométrica de probabilidad

Fuente: Canavos 1988; 110.


Ejemplo 1:

𝑁 = Universo = 200 automóviles


𝑛1 = Automóviles americanos = 120
𝑛2 = Automóviles europeos = 80
𝑟 = Tamaño de la muestra = 20

𝑛
¿Cuál es la probabilidad de que 𝑥 = 8 sean americanos? Recordando que habrá [ 1 ] maneras
𝑟
diferentes de obtener 8 automóviles americanos, entonces 𝑟 − 𝑥: será el número de automóviles
𝑛
europeos tal que hay [ 2 ] maneras diferentes de obtener 12 automóviles europeos.
𝑟−𝑥
Luego la probabilidad de obtener 8 automóviles americanos y 12 europeos será:

𝑛 𝑛 120 80
( 1) ( 2 ) ( )( )
𝑥 𝑟−𝑥 = 8 12
𝑁 200
( ) ( )
𝑟 20

A continuación, la distribución hipergeométrica se genera para todos los éxitos (𝑋).

234
Tabla V.10
Probabilidad de obtener 8 y hasta 20 autos americanos
Número de autos Americanos (𝑋) Combinaciones 𝑃(𝑋)
0 120 80 0.000000002
( )( )
𝑃(𝑥 = 0) = 0 12
200
( )
20
1 . 0.000000086
2 . 0.000001572
3 . 0.000017664
. . .
. . .
. . .
8 120 80
( ) ( ) 0.03137292
𝑃(𝑥 = 8) = 8 12
200
( )
20
. . .
. . .
. . .
. .
20 120 80
( ) ( ) 0.00001826
𝑃(𝑥 = 20) = 20 0
200
( )
20
Suma 1.00
Fuente: Investigación directa con datos hipotéticos.

235
Ejemplo 2:

¿Cuál es la probabilidad de obtener hombres en una muestra de 5?

𝑁 = 10 personas
𝑛1 = 6 hombres
𝑛2 = 4 mujeres
𝑟= 5
Tabla V.11
Probabilidad de obtener X número de hombres en una muestra de 5
Número de hombres (X) Combinaciones P(x)
6 4
( )( )
0 0 4 = 0 0.0000
10 252
( )
5
6 4
( ) ( ) 6(1) 6
1 1 4 = = 0.0238
10 252 252
( )
5
6 4
( ) ( ) 15(4) 60
2 2 3 = = 0.2380
10 252 252
( )
5
6 4
( ) ( ) 20(6) 120
3 3 2 = = 0.4761
10 252 252
( )
5
6 4
( ) ( ) 15(4) 60
4 4 1 = = 0.2380
10 252 252
( )
5
6 4
( ) ( ) 6(1) 6
5 5 0 = = 0.0238
10 252 252
( )
5
SUMA 0.9757 ≅ 1.000
Fuente: Investigación directa con datos hipotéticos.

V.1.2.1 Su media aritmética y su desviación estándar

Calcular la 𝜇 y la 𝜎 de la hipergeométrica con 𝜇 = 𝑛𝑝 = ∑ 𝑋𝑃(𝑋) y

𝑁−𝑛
𝜎 = √𝑛𝑝𝑞 ∗ √ = √∑(𝑥 − 𝜇)2 𝑝(𝑥)
𝑁−1

236
Tabla V.12
Obtención de la media aritmética y la desviación estándar de una distribución hipergeométrica
𝑋 𝑃(𝑋) 𝑋𝑃(𝑋) 𝑥−𝜇 (𝑥 − 𝜇)2 (𝑥 − 𝜇)2 𝑃(𝑋)
0 0.0000 0.0000 -3 9 0.0000
1 0.0238 0.0238 -2 4 0.0960
2 0.2380 0.4760 -1 1 0.2380
3 0.4761 1.4280 0 0 0.0000
4 0.2380 0.9520 1 1 0.2380
5 0.0238 0.1200 2 4 0.0960
0.9937≈1.0000 3 0.6680
Fuente: Investigación directa con datos hipotéticos.

Así:
𝜇 = ∑ 𝑋 𝑃(𝑋) = 3
𝜇=3

También se obtiene el mismo resultado con:

𝜇 = 𝑛𝑝

𝜇 = 5(0.6) = 3

Ya que 𝑝 = 0.6 = probabilidad de obtener "hombre" en una selección simple o proporción de


hombres en la población. Por su parte la desviación estándar será:

𝜎 = √∑(𝑥 − 𝜇)2 𝑝(𝑥) = √0.668 = 0.81

Como en el caso de la media,  también se obtiene de:

𝑁−𝑛
𝜎 = √𝑛𝑝𝑞 ∗ √
𝑁−1

10 − 5
𝜎 = √5(0.6)(0.4) ∗ √ = √1.20 ∗ √0.55 = 0.81
10 − 1

El profesor Lind (2005: 197) comenta que esta distribución debe usarse cuando: a) La probabilidad
de ocurrencia de cada evento (1/𝑛) ya no sea la misma, como sucede en poblaciones pequeñas
finitas de las que se extrae la muestra (𝑛) usando el muestreo sin reemplazo, dado que al no ser
reemplazado el resultado posible que apareció en la primera selección de la muestra, en la segunda
selección se dispone de menos resultados en el espacio muestral para ser incluidos en la muestra, y
por ende la probabilidad de ser incluido cada resultado posible en la muestra ahora es 1⁄𝑛 − 1; en
una tercera selección, al quedar menos datos para ser incluidos en la muestra, la probabilidad de

237
cada uno de ellos de ser incluidos en la muestra ahora es 1⁄𝑛 − 2, etc; b) Cuando 𝑛 sea mayor al
5% de 𝑁 (Población estadística). También recomienda usar esta distribución en economía cuando:

1. Los resultados en cada prueba de un experimento se clasifican en una de dos categorías: un


éxito o un fracaso;
2. La variable aleatoria es el número de éxitos en un número fijo de pruebas;
3. Las pruebas no son independientes; y
4. Se supone que los muestreos se realizan con una población finita sin reemplazo, por tanto,
la probabilidad de éxito cambia en cada prueba.

Por lo ilustrativo, se cree conveniente mostrar el ejemplo de Lind et al (2005:199), cuyo


planteamiento es el siguiente: Una empresa tiene 50 empleados (𝑁) de los cuales 40 son
sindicalizados y 10 no lo son. Con esas referencias, se toma una muestra de 5 empleados para que
participen en las negociaciones del nuevo contrato de trabajo que regirá sus relaciones de trabajo
durante el año próximo. Lind et. al. Se pregunta, ¿Cuál es la probabilidad de que 4 de los
trabajadores sean sindicalizados?

Para contestar usa la fórmula de las combinaciones arriba descrita estableciendo que 𝑋 representa a
los trabajadores sindicalizados y desarrolla las probabilidades de que ocurra cada una de las 𝑋, es
decir 𝑃(𝑋), arribando a la siguiente tabla que representa la distribución hipergeométrica:

Tabla V.13
Distribución hipergeométrica de probabilidades de trabajadores sindicalizados
𝑋 𝑃(𝑋)
0 0.000
1 0.004
2 0.044
3 0.220
4 0.431
5 0.311
Total 1.000
Fuente: Investigación directa con datos hipotéticos.

Luego la 𝑃(𝑋 = 4) será 0.431 como la 𝑃(𝑋 = 5) = 0.311, etc.

V.1.2.2 Generación de la distribución hipergeométrica con Excel

PASOS:

1. Haciendo uso del primer ejercicio de esta sección, donde se deseaba saber cuál era la
probabilidad de obtener 8 autos americanos, Se posiciona el cursor celda A1/clic y se
coloca en 𝑓𝑥/clic. En el nuevo cuadro de diálogo Insertar una función, en el cual se buscará
O seleccionar una categoría/clic, se selecciona Estadísticas/Clic/. En el cuadro de diálogo
de abajo se busca la función DISTR.HIPERGEOM.N/clic y se le da Aceptar/clic.
2. En el nuevo cuadro de diálogo: Argumentos de función, se coloca el cursor en Muestra
éxito/clic y se escribe 8, ya que se desea obtener 8 autos americanos; en Número de
238
muestra/clic y se digita 20 del tamaño de la muestra a tomar; en el argumento
Pobalción_éxito/clic se digita la población que corresponde a los autos americanos, la cual
en este caso es 120; Núm_de_población/clic se digita 200 del total de la población de autos.
En cuanto al argumento Acumulado/clic se escribe FALSO (Para obtener la función de
densidad de la probabilidad) finalmente Aceptar/clic y aparece que la probabilidad de
obtener 8 autos americanos de una muestra de 20 sabiendo que se tienen 120 autos
americanos en una población de 200 automóviles es de 0.031372919.

Cuadro V.5
Argumentos de función de DISTR.HIPERGEOM.N con argumento FALSO

Fuente: Investigación directa con datos hipotéticos.

3. Si se deseara obtener la probabilidad la función de distribución acumulativa , es decir la


suma de las probabilidades de 𝑃(𝑥 = 0) + 𝑃(𝑥 = 1) + ⋯ + 𝑃(𝑥 = 8) se siguen las
instruucciones del paso 2 con la excepción de escribir VERDADERO el argumento
Acumulado/clic, tal como se muestre en el siguiente cuadro. Es ese caso el resultado será de
0.047345. (Martínez; 2005).

V.1.3 Distribución de Poisson

La descripción de la manera como se obtiene la distribución de Poisson al igual que del cálculo de
sus características estadísticas ( media y desviación estándar) se basa en mucho en la obra del
Canavos ( 1988), quien señala que esta distribución también es discreta y forma parte de la
familia Bernoull ; comenta que es llamada así en honor a Simeón Denis Poisson, probabilista
francés del siglo XIX. Al respecto, él como Kazmier ( 1967) mencionan que cuando p es pequeña
la aproximación de la binomial a la normal no es satisfactoria, por lo que la distribución de
Poisson deberá usarse como una mejor aproximación.

Este autor comenta que la distribución de Poisson es una distribución discreta de probabilidad muy
útil cuando la variable aleatoria representa el número de eventos independientes que ocurren a una
velocidad constante en el tiempo o en el espacio, y que algunos ejemplos clásicos son el número de
personas que llegan a una tienda de autoservicio en un tiempo determinado; el número de bacterias
en un cultivo; el número de solicitudes de seguro procesadas por una compañía de seguros en un
periodo, etc. (Canavos: 1988; 100) En este caso la probabilidad de 𝑥 eventos en 𝑛 pruebas, cuando
𝑝 es la probabilidad de que suceda dicho evento en una prueba simple viene dada por:
239
(𝑛𝑝)𝑥
𝑃(𝑋) = 𝑒 −𝑛𝑝 ∗
𝑥!
Si 𝜆 = 𝑛𝑝 = 𝑚 = μ entonces
(𝑚)𝑥
𝑃(𝑋) = 𝑒 −𝑚 ∗
𝑥!

𝑒 es la base de los logaritmos naturales = 2.71828

Como en la binomial, la media de la distribución de Poisson es 𝜆 = 𝑛𝑝 = 𝑚, pero su varianza


es 𝑚 por que si: 𝜎 2 = 𝑛𝑝𝑞 y si 𝑞 ≅ 1, entonces 𝜎 2 = 𝑛𝑝 = 𝑚. (Kazmier; 1967). Esta distribución
gráficamente se ve así:

Gráfica V.7
Gráficas de la función de probabilidad de Poisson
𝝀=𝟏 𝝀=𝟐 𝝀=𝟒

Fuente: Canavos (1988: 100).

Ejemplo:

El gimnasio “El atleta mexicano” de la Ciudad de México pide un aparato de ejercicios a


Monterrey; este es enviado con 200 tuercas para ser armado aun cuando sólo requiere 198. Las dos
tuercas adicionales son incluidas como reserva para que en caso de que salieran defectuosas
algunas se pudieran substituir con las dos de repuesto. Las tuercas son hechas por una máquina
automática que produce tuercas defectuosas con una probabilidad de 0.01. ¿Cuál es la
probabilidad de que el comprador no tenga suficientes tuercas no defectuosas para armar el aparato?

Respuesta: en relación a la información disponible, este problema de naturaleza discreta se puede


resolver utilizando es ta distribución, para lo cual es necesario determinar el promedio aritmético (m
), que se obtiene con el producto de la probalilidad de piezas defectuosas ( 0.01) y el número total
de piezas enviadas(n), con lo cual se obtiene m=2. Como se requiere solamente 198 tuercas
entonces el problema se presentará cuando se rengan 3 o más piezas defectuosas, es decir, cuando
la P (X ≥ 3). Ello implicaría acumular las probabilidades de 3, 4,5,………200: lo cual se simplifica
por medio de la probabilidad complemento donde se tiene solamente que calcular las P(X≤ 2) cuya
suma es 0.6767, como se observa en la tabla V.14; esta cantidad se resta a la unidad para obtener

240
el resultado de 0.3232 de que no pueda armar el aparato, porque tiene más de 2 tuercas
defectuosas. Por otra parte, ¿ Cuál es la probabilidad de que si pueda armar el aparato? Es 0.6767.

𝑝 = 0.01
𝑚 = 𝑛𝑝 = 200(0.01) = 2 = µ
𝑛 = número total de tuercas = 200
(𝑚)𝑥
𝑃(𝑋) = 𝑒 −𝑚 ∗
𝑋!
1
𝑒 −2 = = 0.13534
(2.71828)2
Por lo tanto 𝑒 −𝑚 = 0.13534

Tabla V.14
Algoritmo para determinar la probabilidad de que el comprador tenga suficientes tuercas para
armar el aparato
𝑋 𝑃(𝑋)
0 (2)0 0.1353
𝑃(0) = 0.13534 ∗ = 0.1353
0!
1 (2)1 0.2707
𝑃(1) = 0.13534 ∗ = 0.2707
1!
2 (2)2 0.2767
𝑃(2) = 0.13534 ∗ = 0.2767
2!
0.6767
Fuente: Investigación directa con datos hipotéticos.

Luego si 𝑃(𝑥 > 2) = 1.000 − 0.6767. Entonces 𝑃(𝑥 > 2) = 0.3232; este resultado se obtiene
rápidamente usando el Apéndice L de las Tablas Estadísticas.

A fin de condensar lo ya visto y de facilitar la generación de algunos estadísticos, en la siguiente


tabla se tienen las propiedades básicas de la distribución de Poisson así como la obtención de la
media, varianza, coeficiente de asimetría y curtosis relativa por el método directo.

Tabla V.15
Principales propiedades de la distribución poisson y estadísticos básicos
Función de probabilidad Parámetro
−𝜆 𝑥
𝑒 𝜆
𝑝(𝑥; 𝜆) = 𝜆>0
𝑥!
𝑥 = 0,1,2, …
Media Varianza Coeficiente de sesgo Curtosis relativa
1 1
𝜆 𝜆 3+
√𝜆 √𝜆
Fuente: Canavos (1988: 107).

241
V.1.3.1 Generación de la distribución de Poisson con Excel (Ciro Martínez: 2005:93)

Con las referencias anteriores ahora suponga que 𝑥 = 4 y que 𝜇 = 2.

PASOS:

1. Se posiciona el cursor celda A1/clic y se coloca en 𝑓𝑥/clic. En el nuevo cuadro de diálogo


Insertar una función, en el cual se buscará O seleccionar una categoría/clic, se selecciona
Estadísticas/Clic/. En el cuadro de diálogo de abajo se busca la función
POISSON.DIST/clic y se le da Aceptar/clic.
2. En el nuevo cuadro de diálogo: Argumentos de función, se coloca el cursor en X/clic y se
escribe 4, ya que ese es el número de eventos. En el argumento Media/clic se digita el valor
correspondiente al promedio, que en este caso es 2; En cuanto al argumento Acumulado/clic
se escribe FALSO para obtener la probabilidad bruta de 𝑥 = 4. Como se observa en la parte
inferior del cuadro V, el resultado es 𝑃(𝑥 = 4) = 0.09022. Para finalizar se busca
Aceptar/clic.

Cuadro V.6
Argumentos de función de POISSON.DIST CON acumulado FALSO

Fuente: Investigación directa con datos hipotéticos.

3. Si se deseara obtener la lfunción de distribución acumulativa , es decir la suma de las


probabilidades de 𝑃(𝑥 ≤ 4) se siguen las instruucciones del paso 2 con la excepción de
escribir VERDADERO el argumento Acumulado/clic, tal como se muestre en el siguiente
cuadro. Es ese caso el resultado será de 0.947346.

242
V.2 Distribuciones continuas

V.2.1 Principales distribuciones continuas


V.2.1.1 Distribución normal

“La distribución normal o también llamada Gaussiana9, es una variable continua y de acuerdo con
Canavos es indudablemente la más importante y la de mayor uso de todas las distribuciones
continuas de probabilidad. Es la piedra angular en la aplicación de la inferencia estadística en el
análisis de datos, puesto que las distribuciones de muchas estadísticas muestrales tienden hacia la
distribución normal conforme crece el tamaño de la muestra.” (Canavos; 1988:130)

Un gran número de estudios indica que la distribución normal proporciona una adecuada
representación, por lo menos en una primera aproximación, de las distribuciones de una gran
cantidad de variables físicas. Sin embargo debe tenerse cuidado al suponer para una situación dada
un modelo de probabilidad normal sin previa comprobación, ya que suponer de manera errónea una
distribución normal puede llevar a errores muy serios. Es posible que una distribución normal
proporcione de manera razonable una buena aproximación alrededor de una media de una variable
aleatoria; sin embargo, puede resultar no muy conveniente para valores extremos que se encuentren
en cualquier dirección. (Canavos; 1988:131)

Tabla V.16
Propiedades básicas de la distribución normal
Función de densidad de probabilidad Parámetros
1 1 𝑥−𝜇 2
𝑓(𝑥; 𝜇, 𝜎) = 𝑒𝑥𝑝 [− ( ) ], 𝜇, −∞<𝜇 <∞
√2𝜋 𝜎 2 𝜎
𝜎, 𝜎>0
−∞ < 𝑥 < ∞
Desviación Recorrido Recorrido Coeficiente Curtosis
Media Varianza
media intercuartil interdecil de asimetría relativa
µ 𝜎2 0.7979𝜎 1.35𝜎 2.56𝜎 0 3
Fuente: Canavos (1988: 139).

Cabe señalar que su curva tiene las siguientes características:

1. En forma descriptiva se dice, como se observa en la Gráfica V.8 ( Shao, 1967: 308) esta
distribución es continua, tomando la forma de una campana; es simétrica respecto a su
media y es asíntota al eje de las 𝑥: toca al eje de las X´s en ± infinito, o sea que nunca
atraviesa el eje de las 𝑥.
2. El área bajo la curva normal representa al espacio muestral. Su función de densidad está
dada por:

9
También se le conoce como distribución Gaussiana porque Gauss la citó en un artículo que publicó en 1809.
Durante el siglo XIX se empleó de manera extensa por científicos que habían notado que los errores, al llevar
a cabo mediciones físicas, frecuentemente seguían un patrón que sugería la distribución normal. (Canavos;
1988:130)

243
3. En la vida real hay distribuciones de datos con medias iguales y desviaciones estándar
diferentes o con medias diferentes y desviaciones estándar iguales.
4. Para uniformarlas o reducirlas a un patrón único (Hayashi et al, 1974), se hace un cambio
𝑥−𝜇
de variable, que se designa con 𝑍 = 𝜎
y se le llama variable normal estándar, misma que
al ser una desviación de los términos 𝑥 con respecto a su media en forma estandarizada
otros autores la llaman desviación normal estandarizada, la cual tiene una media igual a
cero (𝜇 = 0) y una desviación estándar de uno (𝜎 = 1).

El profesor Hayashi, et al, (1974), lo demuestra de la siguiente manera:

Su promedio es:
𝑥−𝜇

𝑍̅ = 𝜎
𝑁
Como 𝜎 es una constante es posible sacarla de la sumatoria

𝜎 ∑(𝑥 − 𝜇)
𝑍̅ =
𝑁
Puesto que, la suma de la diferencia 𝑥 − 𝜇 = 0, luego

1[0]
𝑍= 𝜎
̅
𝑁
Así se obtiene:
0
𝑍̅ = =0
𝑁
Lo que queda demostrado.

Ahora bien, demostrar que 𝜎𝑍 = 1, sabiendo que:

𝑥−𝜇 2 𝑥−𝜇 2
̅
√∑ ( 𝜎 − 𝑍) √∑ ( 𝜎 − 0)
𝜎𝑍 = =
𝑁 𝑁

𝑥−𝜇 2 (𝑥−𝜇)2 1
∑( ) ∑ ∑ 2(𝑥−𝜇)2
𝜎𝑍 = √ 𝜎
=√ 𝜎2
=√ 𝜎
𝑁 𝑁 𝑁

Al ser  2 una constante se le puede sacar de la sumatoria.

1 ∑(𝑥 − 𝜇)2 1 ∑(𝑥 − 𝜇)2


𝜎𝑍 = √( 2 ) = √
𝜎 𝑁 𝜎 𝑁
Sé sabe que,
∑(𝑥 − 𝜇)2
𝜎=√
𝑁
244
Luego:
1 𝜎
𝜎𝑍 = 𝜎 ∗ 𝜎 = 𝜎 = 1

Al contar con la variable 𝑍, que expresas los valores originales expresados en términos de su
desviación estándar, ahora es posible utilizar los valores de 𝑍 que están en el Apéndice A para
analizar e interpretar cualquier fenómeno económico en términos de sus valores estandarizados.
Esta situación aumenta la capacidad de estudio o caracterización de los fenómenos económicos al
poder ahora el investigador calcular valores esperados, determinar límites de confianza dentro de
los cuales pueda ocurrir un cierto valor, hacer estimaciones e inclusive probar ciertas hipótesis de
interés para el investigador, como se muestra a continuación sabiendo que la normal es una
distribución teórica como la binomial, Poisson e hipergeométrica, pero con datos continuos ayuda a
hacer más análisis económico. Su figura o forma ( Shao, 1975) como se puede observar en la
gráfica V.8 la media aritmética divide a la distribución en dos partes iguales, por consiguiente todo
valor menor o igual que la media tendrá una probabilibad de 0.5 y a la vez, todo valor superior o
igual a la media tendrá el mismo valor de 0.5. También se puede observar que si se suma y resta una
desviación estándar respecto de la media aritmética, el área representa aproximadamente el 68 %%
del total de la curva. Si se toman dos desviaciones estándar a la izquierda y a la derecha respecto de
la media, el área de la curva será de aproximadamente 95% y por último si se toman tres
desviaciones estándar más menos respecto de la media aritmética, el áreas será aproximadamente
de un 99 %.. Estos valores fáciles de memorizar son muy útiles para la economía y los negocios ya
que sin necesidad de utilizar el cálculo integral ni las tablas de áreas de la curva normal, es posible
obtener diversos cálculos complementarios que se desprenden de los indicadores citados; por
ejemplo si se desea conocer cuál es el área que existe a una distancia de una desviación estándar
respecto de la media, mentalmente se puede señalar por dicha simetría que es del 34% tanto aa la
izquierda como a la derecha de la media aritmética; los mismos cálculos se pueden hacer con los
indicadores anteriores dividiendo por dos.

Gráfica V.8
Distribución del área de la normal.

Fuente: Investigación directa con datos hipotéticos.

245
Lo antes dicho con mayor precisión en las abscisas indica áreas bajo la curva; cuyos segmentos de
mayor uso en economía son:

1. El 68.27% de todos los valores se encuentran dentro de una desviación estándar (𝜎) de 𝜇,
simétricamente.
2. El 95.45% de todos los valores se encuentran dentro de dos desviación estándar (2𝜎) de 𝜇,
simétricamente.
3. El 99.73% de todos los valores se encuentran dentro de tres desviación estándar (3𝜎) de 𝜇,
simétricamente.

Construcción de la curva normal

Para la construcción de la curva normal se requiere contar con el tamaño de la población, la media
aritmética y la desviación estándar, así como hacer la transformación de los datos originales a
valores estandarizados (Z), donde la media aritmética es igual a cero y la desviación estándar igual
a 1.

𝑋−𝜇
𝑍=
𝜎
Y utilizar la siguiente fórmula para la obtención de los valores de la ordenada Yx con la siguiente
fórmula
𝑁
𝑌𝑥 = ∗ 𝑓(𝑍)
𝜎
La cual proporciona para cada valor de X su correspondiente valor de Y.f(Z) Esta fórmula sirve
para construir la distribución normal para una población finita. Se puede ver que en el caso teórico
N=1 y la desviación estándar estandarizada también igual a la unidad, con lo cual la f(Z)
proporciona la distribución normal teórica. Esto se observará en el siguiente ejemplo

Por lo regular se pueden utilizar las tablas de valores de que presentan las ordenadas de la curva
normal.

¿Pero cómo se obtiene la curva normal? ¿Cómo se gráfica? ¿De dónde provienen los valores
estandarizados de Z?

Ejemplo 1: Obtención de la curva de la normal en una población finita

¿Cómo se construye la curva normal? Shao (1975) da la respuesta clara, para ello: Supóngase que
una empresa que tiene 15000 trabajadores su salario promedio diario es de $900.00 pesos con una
desviación estándar de $150.00 pesos. Así, si sigue una distribución normal con esos datos
enseguida se construye la distribución normal con las fórmulas siguientes:

𝑋−𝜇
𝑍= 𝜎
y

246
𝑁
𝑌𝑥 = ∗ 𝑓(𝑍)
𝜎
1
Sustituyendo los valores originales con 𝜎 hasta ± 3𝜎, los valores de X por encima de la media
2
aritmética se presentan en la primera columna de la Tabla V.17 con las correspondientes
transformaciones a valores Z, columna 3, y sus correspondientes ordenadas para cada valor de f(Z)
en la columna 4 y con esos valores de las ordenadas para una población finita, columna 5. Los
valores menores que la media que son 825, 750, ……450 se calculan estos valores por simetría
igual que en la columna 3. Dichos valores se ven reflejados en la Gráfica V.9, tanto los teóricos
como los ajustados al ejemplo.

𝑍 es el valor de la abscisa o dicho en otras palabras, es el valor expresado en unidades de desviación


estándar, de cada uno de los valores originales denotados con los símbolos 𝑋𝑖 .

Tabla V.17
Obtención de los valores de 𝑍 a partir de los valores de 𝑋
Inicio de la Ordenadas para
Valores Obtención Determinación de las
conversión a cada valor de Z en
originales de ordenadas para esta
unidades Z 𝑋−𝜇 una población
(𝑋) población finita (𝑌𝑥)
(𝑋 − 𝜇) 𝑍= infinita 𝑓(𝑍)
𝜎
900 0 0.00 0.3989 39.890
975 75 0.50 0.3521 35.200
1050 150 1.00 0.2420 24.190
1125 225 1.50 0.1295 12.950
1200 300 2.00 0.0540 5.400
1275 375 2.50 0.1750 1.750
1350 450 3.00 0.0044 0.440
Fuente: Investigación directa con datos hipotéticos para una población finita .

Tabulaciones:

𝑁
𝑌𝑥 =∗ 𝑓(𝑍)
𝜎
15000
𝑌𝑥 = ∗ 𝑓(𝑍)
150
𝑌𝑥 = 100 ∗ 𝑓(𝑍)

La columna 𝑓(𝑍) se encuentra en las tablas de los apéndice A, buscando primero

𝑋−𝜇
𝑍=
𝜎
Que ya está en la columna tres de arriba.

247
Por ejemplo si 𝑍 = 0 , se busca en la primera columna del apéndice A, una vez encontrado se pasa a
buscar 𝑓(𝑍), que estará en la columna tres de las tablas estadísticas del apéndice A y la columna
cuatro de arriba. Así, la gráfica correspondiente es:

Gráfica V.9
Curva normal de los salarios de 15,000 obreros

Fuente: Investigación directa con datos hipotéticos.

Si bien es importante la construcción de la distribución normal, sus aplicaciones principales están


en el uso de las áreas bajo dicha distribución ya que permiten conocer las cantidades o
probabilidades entre dos valores bajo dicha curva, para esto se tiene que estandarizar dicha
distribución a valores Z como se vio anteriormente con su fórmula correspondiente; determinar el
intervalo de interés y utilizar la formula correspondiente usando las tablas de áreas bajo la curva
normal del Apéndice A. Para casos de mayor precisión se requerirá realizar la integración
correspondiente utilizando la función de distribución de la normal.

Un ejemplo de lo anterior, se presenta cuando se desea determinar un intervalo de la distribución


normal del gasto promedio semanal de 5,000 familias de la colonia la Escondida, la cual tiene una
media de 800 pesos a la semana y una desviación estándar de 40 pesos a la semana. Así, con
desviaciones de 1/2 𝜎 hasta 3 𝜎 de la media:

Un caso puede ser determinar cuántas familias gastan entre 820 y 780 pesos semanalmente. Se
recomienda seguir los pasos siguientes:

1. Ubicar en la gráfica de la normal los valores de 780 y 820. En este caso se observa que
la media de la distribución se halla entre los límites superior e inferior del intervalo,
esto requiere realizar dos cálculos, uno para cada límite, debido a que las tablas del
Apéndice A solo presenta las áreas de la curva normal hacia la derecha de la media.

2. Calcular cada uno de los valores de Z, por ejemplo el valor de Z2 = 0.5, este valor en
las tablas indica un área de 0.1915; el valor de Z1 es 0.5, es el mismo valor pero signo
negativo, que no se localiza en el Apéndice A pero que por la asimetría correspondiente
se determina que su área es igual indicando el signo negativo sólo que se halla a la
izquierda de la media aritmética. La suma de dichas áreas, por consiguiente,
248
corresponde al área del intervalo correspondiente, que es 0.3830, que al multiplicarlo
por el tamaño del total de familias ( 5000) proporciona el número de ellas que gastan
entre 780 y 820 pesos a la semana, es decir, 1915 familias.

3. El gráfico y los cálculos correspondientes se presentan a continuación.

Tabla V.18
Obtención de los valores de 𝑍 a partir de los de 𝑋
Inicio de la Obtención
Valores Ordenadas para cada Determinación de las
conversión a de
originales 𝑋−𝜇 valor de Z en una ordenadas para esta
unidades Z
(𝑋) 𝑍= población infinita 𝑓(𝑍) población finita (𝑌𝑥)
(𝑋 − 𝜇) 𝜎
800 0 0.00 0.3989 49.860
820 20 0.50 0.3521 44.000
840 40 1.00 0.2420 30.240
860 60 1.50 0.1295 16.190
880 80 2.00 0.0540 6.740
900 100 2.50 0.0175 2.190
920 120 3.00 0.0044 0.550
Fuente: Investigación directa con datos hipotéticos.

𝑁 5000
𝑌𝑥 = ∗ 𝑓(𝑍) = ∗ 𝑓(𝑍) = 125 ∗ 𝑓(𝑍)
𝜎 40
Gráficamente se ve así:

Gráfica V.10
Curva normal de 5,000 pilas para tomar fotografías

Fuente: Investigación directa con datos hipotéticos.

a) Determinación de 𝑍1 y 𝑍2 con
𝑋−𝜇
𝑍=
𝜎
780−800
𝑍1 = 40
= −0.5 Unidades de desviación estándar, cuya área es 0.1915.

249
820−800
𝑍2 = 40
= 0.5 Unidades de desviación estándar, cuya área es 0.1915.

Luego entonces,

𝑃{(𝑋)} = El área de 𝑍1 = −0.5 a 𝑍0 más el área de 𝑍0 a 𝑍2 = 0.5


𝑃(𝑋) = 0.1915 + 0.1915 = 0.383

Gráfica V.11
Área bajo la curva de 𝑍1 y 𝑍2

Fuente: Investigación directa con datos hipotéticos.

Para saber cuántas familias son: 5000(0.383) = 1915 familias

Ahora bien si se desea determinar la probabilidad de que una familia gaste 750 pesos o más a la
semana, se sigue el mismo procedimiento anterior sumando el área que corresponde a la media
aritmética y su extremo derecho que representa el 50% de la distribución y se le suma el cálculo
correspondiente a la probabilidad de 750 pesos a la media aritmética, que es igual a una
probabilidad de 0.39435, que en términos porcentuales es 39.435%. Estos cálculos se muestran a
continuación;
𝑋−𝜇 750−800
𝑍= 𝜎
= 40
= −1.25 Unidades de desviación estándar.

𝑃{(𝑋)}: El área de 𝑍1 = −1.25 luego el área correspondiente será de 0.39435.

𝑃(𝑋 ≥ 750) = 0.39435 + 0.5000 = 0.89435

O en su caso, el resultado será 89.435%.

250
Gráfica V.12
Probabilidad de seleccionar una familia que gaste más de 750 pesos a la semana.

Fuente: Investigación directa con datos hipotéticos.

Problema I

En una ciudad se ha determinado que el número de robos que se realizan sigue una distribución
normal. Si se reportaron 200 robos, ¿Cuál es la probabilidad de que no se recuperen los bienes
robados en más de 150 de los delitos?

Si 𝜇 = 160 y 𝜎 = 5.66 entonces:


150−160
𝑍= 5.66
= −1.68 . Por tanto su área es de 0.4535, luego

𝑃(𝑋 ≥ 150) = 0.5000 + 0.4535 = 0.9535

Gráficamente se ve así:

Gráfica V.13
Probabilidad de que no se recuperen los bienes robados de más de 150 de los delitos

Fuente: Investigación directa con datos hipotéticos.

251
Problema II

Suponga que 𝑥 tiene una distribución probabilística binomial, con 𝑛 = 50 y 𝑝 = 0.25 calcule:

La probabilidad de que 𝑥 esté entre 10 y 17 inclusive (10 ≤ 𝑥 ≤ 17).

𝑃(10 ≤ 𝑥 ≤ 17) = 0.29103 + 0.42786 = 0.71889

Gráfica V.14
Probabilidad de seleccionar 10 ≥ 𝑥 ≥ 17

Fuente: Investigación directa con datos hipotéticos.


Problema III

La SHCP en 2013 al hacer la devolución de impuestos federales, detectó que se cometió un error en
el 10% de las devoluciones. Suponga que en 2014 se mantiene en ese porcentaje y se elaboraron 60
devoluciones de impuestos, Cuál es la probabilidad de que cometa más de 7 errores (𝑥 > 7)?

Si
𝜇 = 𝑛𝑝 = 60(0.10) = 6
𝜎 2 = 𝑛𝑝𝑞 = 60(0.9)(0.1) = 5.4
𝜎 = √5.4 = 2.32
7−6 1
Luego 𝑍 = = = 0.43 cuya área es 0.1664, por consiguiente:
2.32 2.32

𝑃(𝑥 > 7) = 0.5000 − 0.1664 = 0.3336

Gráficamente:

252
Gráfica V.15
Probabilidad de que SHCP cometa más de 7 errores.

Fuente: Investigación directa con datos hipotéticos.

V.2.1.1.1 Ejercicios de la distribución normal con Excel (Martínez, 2005: 95)

A. Calcular los valores de Z con los siguientes datos:

𝑋 = 64.8; 𝜇 = 62.3; 𝜎 = 2.4

Pasos:

1. Se posiciona el cursor celda A1/clic y se coloca en 𝑓𝑥/clic. En el nuevo cuadro de diálogo


Insertar una función, en el cual se buscará O seleccionar una categoría/clic, se selecciona
Estadísticas/Clic/. En el cuadro de diálogo de abajo se busca la función
NORMALIZACION/clic y se le da Aceptar/clic.
2. En el nuevo cuadro de diálogo: Argumentos de función, se coloca el cursor en X/clic y se
escribe 64.8. En el argumento Media/clic se digita el valor correspondiente al promedio,
que en este caso es 62.3; En cuanto al argumento Desv_estándar/clic se digita 2.4 .Como se
observa en la parte inferior del cuadro V, el valor de 𝑍 para estos criterios es de
1.041666667, lo cual en tablas se traduce en 𝑍 = 1.04. Para finalizar se busca Aceptar/clic
y el resultado queda plasmado en la celda A1.

253
Cuadro V.7
Argumentos de función NORMALIZACION

Fuente: Investigación directa con datos hipotéticos.

Gráfica V.16
Resultado gráfico del ejercicio a)

Fuente: Investigación directa con datos hipotéticos.

B. Si el objetivo de dicho cálculo es obtener el área bajo la curva normal con una media
de cero y una desviación estándar de uno con los siguientes criterios se realiza lo
siguiente:
Pasos

1. Se posiciona el cursor celda A2/clic y se coloca en 𝑓𝑥/clic. En el nuevo cuadro de diálogo


Insertar una función, en el cual se buscará O seleccionar una categoría/clic, se selecciona
Estadísticas/Clic/. En el cuadro de diálogo de abajo se busca la función
DIST.NORM.ESTAND.N/clic y se le da Aceptar/clic.

2. En el nuevo cuadro de diálogo: Argumentos de función, se coloca el cursor en 𝑍/clic y se


digita el valor de 𝑍 del cual se desee obtener la probabilidad, en este caso se escribirá 1.04.
En el argumento ACUMULADO/clic se escribe FALSO para obtener la función de densidad
de 𝑍. El valor de la ordenada bajo la curva normal del valor de 𝑍 = 1.04 es 0.2322. Para
finalizar se busca Aceptar/clic y el resultado queda plasmado en la celda A2.
254
Cuadro V.8
Argumentos de la función DIST.NORM.ESTAND.N con acumulado FALSO

Fuente: Investigación directa con datos hipotéticos.

3. En la gráfica se ilustra el resultado de la ordenada de 𝑍 = 1.4.

Gráfica V.17
Resultado gráfico del ejercicio b)

Fuente: Investigación directa con datos hipotéticos.

4. Si se deseara obtener la probabilidad la función de distribución acumulativa de 𝑍 ≤ 1.04 se


siguen las instruucciones del paso 2 con la excepción de escribir VERDADERO el
argumento Acumulado/clic. Es ese caso el resultado será de 0.8508. Lo cual gráficamente se
espresa en la gráfica V.

255
Cuadro V.9
Argumentos de la función DIST.NORM.ESTAND.N con acumulado VERDADERO

Fuente: Investigación directa con datos hipotéticos.

Gráfica V.18
Resultado gráfico del ejercicio c)

Fuente: Investigación directa con datos hipotéticos.

C. Para hallar el área bajo la curva normal de un valor de 𝒁, media y desviación


estándar específicos como los siguientes, se realiza lo siguiente:

𝑋 = 64.8; 𝜇 = 62.3; 𝜎 = 2.4

1. Se posiciona el cursor celda A3/clic y se coloca en 𝑓𝑥/clic. En el nuevo cuadro de diálogo


Insertar una función, en el cual se buscará O seleccionar una categoría/clic, se selecciona
Estadísticas/Clic/. En el cuadro de diálogo de abajo se busca la función
DIST.NORM.N/clic y se le da Aceptar/clic.

2. En el nuevo cuadro de diálogo: Argumentos de función, se coloca el cursor en 𝑋 /clic y se


digita el valor de 64.8. En el argumento Media/clic se escribe 62.3 y en el argumento
Desv_estándar/clic se digita 2.4. En cuanto al argumento ACUMULADO/clic se escribe
FALSO para obtener la función de densidad de probabilidad. En la parte inferior de cuadro
Argumentos de función el resultado de la fórmula arroja una probabilidad de 𝑃(𝑋 =
64.8) = 0.0966. Para finalizar se busca Aceptar/clic y el resultado queda plasmado en la
celda A3.
256
Cuadro V.10
Argumentos de la función DIST.NORM.N con acumulado FALSO

Fuente: Investigación directa con datos hipotéticos.

3. Si se deseara obtener la probabilidad la función de distribución acumulativa bajo estos


mismo criterior se siguen las instruucciones del paso 2 con la excepción de escribir
VERDADERO el argumento Acumulado/clic. Es ese caso el resultado será 𝑃(𝑥 < 64.8) =
0.8512 del área bajo la curva.

Cuadro V.11
Argumentos de función de DISTR.NORM.N con acumulado VERDADERO

Fuente: Investigación directa con datos hipotéticos.

D. Otro procedimiento que es posible realizar conociendo la probabilidad


correspondiente al área bajo la curva normal, además de la media y desviación
estándar, es determinar el valor 𝑿. Esto utilizando los resultados del ejemplo anterior:
𝑃(𝑋) = 0.851268; 𝜇 = 62.3; 𝜎 = 2.4

Pasos:

1. Se posiciona el cursor celda A4/clic y se coloca en 𝑓𝑥/clic. En el nuevo cuadro de diálogo


Insertar una función, en el cual se buscará O seleccionar una categoría/clic, se selecciona
Estadísticas/Clic/. En el cuadro de diálogo de abajo se busca la función INV.NORM/clic y
se le da Aceptar/clic.

257
2. En el nuevo cuadro de diálogo: Argumentos de función, se coloca el cursor en
Probabilidad/clic y se digita el valor de 0.851268. En el argumento Media/clic se escribe
62.3 y en el argumento Desv_estándar/clic se digita 2.4. En la parte inferior de cuadro
Argumentos de función el resultado de la fórmula arroja un valor de 𝑋 = 64.8, obteniendo
el valor de 𝑋 con el cual se realizó el ejercicio pasado. Para finalizar se busca Aceptar/clic y
el resultado queda plasmado en la celda A4.

Cuadro V.12
Argumentos de la función INV.NORM

Fuente: Investigación directa con datos hipotéticos.

Algo similar se puede realizar para determinar el valor de Z, digitando el valor


correspondiente de la probabilidad conocida con una media de cero y una desviación
estándar de uno.

Pasos

1. Se posiciona el cursor celda A5/clic y se coloca en 𝑓𝑥/clic. En el nuevo cuadro de diálogo


Insertar una función, en el cual se buscará O seleccionar una categoría/clic, se selecciona
Estadísticas/Clic/. En el cuadro de diálogo de abajo se busca la función
INV.NORM.ESTAND/clic y se le da Aceptar/clic.

2. En el nuevo cuadro de diálogo: Argumentos de función, se coloca el cursor en


Probabilidad/clic y se digita el valor de 0.851268. En la parte inferior de cuadro
Argumentos de función el resultado de la fórmula arroja un valor de 𝑍 = 1.0418,
obteniendo el valor de 𝑍 el cual se obtuvo en el primer ejercicio. Para finalizar se busca
Aceptar/clic y el resultado queda plasmado en la celda A5.

258
Cuadro V.13
Argumentos de la función de INV.NORM.ESTAND

Fuente: Investigación directa con datos hipotéticos.

V.2.1.1.2 Grados de libertad

Para la definición y el empleo de las siguientes distribuciones Ji-cuadrada (𝑥 2 ), 𝑡 de Student y 𝐹 de


Fisher, es importante definir el concepto de grados de libertad, ya que todas estas distribuciones
los usan, como lo indica Chou (1977; 275).

Así, de acuerdo con Ya-Lun Chou (1977; 276), el concepto de grados de libertad es un concepto
matemático dado al número de observaciones linealmente independientes que ocurren en una suma
de cuadrados.

Para entender mejor lo anterior, piénsese que cuando se calcula la varianza de la muestra en
términos de desviaciones medidas partiendo de la media de la muestra , 𝑥̅ , se obtiene la suma de 𝑛
desviaciones al cuadrado ∑𝑖(𝑥𝑖 − 𝑥̅ )2 , que debe obedecer la relación secundaria o restricción
∑𝑖 𝑥𝑖 = 𝑛𝑥̅ . Esto implica que si se tiene la base 𝑥̅ , y cualesquiera desviaciones 𝑛 − 1 de ella, la
desviación n-enésima es determinada automáticamente. Es linealmente dependiente de otras y, por
lo tanto, no es “libre” para variar. Si las desviaciones hubieran tomado una 𝜇 conocida la n-ésima
desviación seguirá siendo linealmente independiente de las otras 𝑛 − 1 observaciones. En
consecuencia, una muestra de 𝑛 desviaciones al cuadrado tomada alrededor de 𝑥̅ proporciona menos
información útil que el mismo número de desviaciones a partir de 𝜇. (Chou; 1977; 276). Comenta
Richmond (1964; 185) que se usan en muestreo para mejorar la estimación de un parámetro
desconocido (𝜎 2 ) con un valor muestral (𝑆 2 ), decreciendo su denominador en lugar de 𝑛; la
estadística resultante 𝑆̂ 2 es un estimador insesgado de 𝜎 2 .

El número de grados de libertad, el cual es representado con la letra griega 𝛿, puede considerarse
como uno los elementos que pueden escogerse libremente; o como el número de variables que
pueden variar libremente. Aquí la independencia es funcional, no estadística. Dado el tamaño de la
muestra, el número de grados de libertad es 𝛿 = 𝑛 − 𝑘, donde 𝑘 es el número de restricciones para
los cálculos de una estadística 𝜃 que abarca la suma de cuadrados, y las restricciones pueden ser,
por ejemplo el número de estimadores requeridos para calcular la 𝜃 en cuestión. (Chou; 1977; 276).

259
V.2.1.2. Distribución 𝒕 de Student

La distribución de 𝑡 de Student es una distribución de probabilidad continua que fue desarrollada


por W. S. Gosset, quién en 1908. Es simétrica respecto de su media aritmética muy parecida a la
distribución normal pero más achatada. Es utilizada generalmente cuando se trabaja con muestras
pequeñas o cuando se desconoce la varianza poblacional.

Chou (1977) describe la distribución de la siguiente forma:” Si 𝑋1 , 𝑋2 , 𝑋3 , … 𝑋𝑛 son 𝛿 + 1 variables


normales estándares independientes, la estadística:

𝑋0
𝑡𝛿 =
√1 (𝑋12 + 𝑋22 + ⋯ 𝑋𝛿2 )
𝛿

Se dice que tiene una distribución 𝑡 de Student, o simplemente 𝑡, con 𝛿 grados de libertad.
Adviértase que la variable 𝑡 es una razón de la variable normal estándar a la raíz cuadrada de una
variable Ji-cuadrada dividida por su número de grados de libertad. Es decir, que la ecuación anterior
(donde su numerador y denominador son independientes) es equivalente a:
𝑧
𝑡𝛿 =
2
√𝑥
𝛿
Hay una distribución 𝑡 correspondiente a cada entero positivo. La función de densidad para 𝑡𝛿 es:

𝛿+1 −
𝛿+1
1 Γ( ) 𝑡2 2
𝑓(𝑡) = ( )[ 2 ] (1 + ) , −∞ ≤ 𝑡 ≤ ∞
√𝛿𝜋 𝛿 𝛿
Γ (2)

Principales características de la distribución 𝑡 de Student:

1. Como una variable normal, una variable 𝑡 varía de valor de −∞ a ∞.

2. Una distribución t es simétrica con:


𝐸(𝑡) = 0 𝑝𝑎𝑟𝑎 𝛿 > 1
𝛿
𝑉𝐴𝑅(𝑇) = 𝑝𝑎𝑟𝑎 𝛿 > 2
𝛿−2
Así, una distribución 𝑡 no posee media cuando 𝛿 = 1 y no posee varianza cuando 𝛿 ≤ 2.

3. Una distribución 𝑡 es similar a la distribución de una normal estándar porque ambas varían
en valor de −∞ a ∞, ambas son simétricas y ambas tienden a media cero; sin embargo,
una distribución 𝑡 tiene mayor dispersión que la distribución normal estándar.

𝛿
4. Esta propiedad puede verse fácilmente en la desviación estándar de 𝑡𝛿 , que es √(𝛿) − 2.
Esta cantidad es siempre 𝛿. En la práctica, se puede tratar a 𝑡𝛿 como 𝑛 (0,1) cuando
260
𝛿 > 30. A medida que se aumentan los grados de libertad de 𝑡 (Tal como se muestra en las
siguientes gráficas), la curva de densidad de 𝑡(𝛿) se parece más a la curva de densidad de
una normal estandarizada 𝑁(0,1). Este es así porque, a medida que aumenta el tamaño de la
muestra, la estimación de 𝜎 a partir de 𝑠 se va haciendo más preciso. Por tanto, la 𝑠 en lugar
de 𝜎 causa poca variación adicional cuando la muestra es grande. Para formular inferencias
con respecto a 𝜇 cuando el muestreo se lleva a cabo sobre una distribución normal con
𝑆
media y varianza desconocidas, se necesita determinar la distribución de (𝑋̅ − 𝜇)/( ).
√𝑛
𝜎
Cuando se muestrea una distribución 𝑁(𝜇, 𝜎) se sabe que la distribución de (𝑋̅ − 𝜇)/( 𝑛)

es 𝑁(0,1). Para la misma condición, se sabe que, la distribución de (𝑛 − 1)𝑆 2 /𝜎 2 es una
Ji-cuadrada con 𝑛 − 1 grados de libertad. K

Gráfica V.19
Distribución 𝑡 de student (azul) transpuesta con una distribución normal (rojo)

Fuente: Investigación directa con datos hipotéticos.

V.2.1.3 Distribución Ji ((𝝌𝟐 ) )

La distribución de probabilidad (𝝌𝟐 )2 conocida también como Ji cuadrada fue descrita por Karl
Pearson a principios del siglo XX. Es una variable aleatoria y estadístico de contraste que tiene
principalmente tres aplicaciones: pruebas de bondad de ajuste, pruebas de tablas de contingencia y
pruebas de varianza. Se puede considerar como dice Chao ( 1975: 235) de amplia utilidad como la
distribución normal. Es una distribución continua, es asimétrica positiva y tiende a la simetría a
medida que aumentan sus grados de libertad como se aprecia en la siguiente gráfica

Es una distribución continua, es asimétrica positiva y tiende a la simetría a medida que aumentan
sus grados de libertad como se aprecia en la siguiente gráfica

261
Gráfica V.20
Distribuciones ji cuadrada con 1, 5 y 10 grados de libertad

Fuente:Lincon Chao 1974; 238.

Ahora bien, s i 𝑋1 , 𝑋2 … 𝑋𝛿 son variables normales estándar independientes, la suma de los


cuadrados de estas variables se dice que es una variable (𝝌𝟐 ) , la cual tiene 𝛿 grados de libertad
(Chou, 1977; 277). Es decir:

𝜒𝛿2 = 𝜒12 + 𝜒22 + ⋯ + 𝜒𝛿2

Su función de densidad es:

𝑣
( )−1 −𝑥 2 /2
𝑓(𝑥 2 ) = 𝑘(𝑥 2 )2 𝑒 para 𝑥 2 > 0

Donde e = 2.71828
v = el número de grados de libertad
k = constante que solo depende de v

𝐸(𝜒𝛿2 ) = 𝜇 = 𝛿

𝑉(𝜒𝛿2 ) = 𝜎 2 = 2𝛿

262
Gráfica V.21
Distribución gráfica de Ji-cuadrada
0.35
0.30
0.25
0.20
0.15
0.10
0.05
0.00
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
Grados de Libertad
gl=2 gl=4 gl=8 gl=16 gl=32

Fuente: Investigación directa con datos hipotéticos.

V.2.1.4. Distribución 𝑭

La distribución de probabilidad F es una distribución continua de asimetría positiva como se puede


observar en la gráfica V.20. Su nombre es en honor de R. A. Fisher que fue su creador. Es usada
para probar las hipótesis concernientes a la igualdad de dos varianzas poblacionales y la igualdad
de tres o más medias poblacionales estimadas.

Características de la distribución 𝐹:

1. El recorrido de los valores de 𝐹 es de 0 a infinito. El valor de 𝐹 no puede ser negativo,


puesto que ambos términos de la razón de 𝐹 son valores al cuadrado.
2. Hay una distribución 𝐹 por cada par de enteros positivos 𝛿1 y 𝛿2 .
3. La media y la varianza de 𝐹 son:
𝛿1
𝐸(𝐹) = , 𝑝𝑎𝑟𝑎 𝛿2 > 2;
𝛿1 − 2

𝛿22 (𝛿1 + 𝛿2 − 2)
𝑉𝐴𝑅(𝐹) = , 𝑝𝑎𝑟𝑎 𝛿2 > 4;
𝛿1 (𝛿2 − 2)2 (𝛿2 − 4)

Estas ecuaciones implican que una variable 𝐹 no tiene media cuando 𝛿2 ≤ 2 y que no posee
varianza cuando 𝛿2 ≤ 4.
4. Como la distribución Ji-cuadrada, una distribución 𝐹 es positivamente asimétrica, Su
asimetría se reduce con los aumentos de 𝛿1 y 𝛿2 . (Chou; 1977; 279).
5. Para el mismo valor de probabilidad, tal como 5%, el valor critico de 𝐹 para el área más
baja es el reciproco de 𝐹 para el área superior con 𝛿1 y 𝛿2 intercambiados.

263
Gráfica V.22
Distribuciones de 𝐹 para diferentes grados de libertad

Fuente: Investigación directa

V.3 Práctica VII

Ejercicio Nº 1.

Nombre _______________________________________________________
No de Cta.______________________ Grupo____________
Problema 1

Con 𝑟 = reprobado y 𝑛𝑟 = no reprobado, se sabe que la probabilidad (𝑝) de reprobar en el examen


de Estadística es de 0.4, (es decir 𝑟).Si se toma una muestra de aleatoria de 4 alumnos, obtenga:

1. La distribución probabilística correspondiente con el método de la expansión del binomio;


2. Interprete los coeficientes y los exponentes de cada uno de sus términos;
3. Su media aritmética y desviación estándar, con cualesquiera de los métodos conocidos;
4. Su gráfica e indique si es una distribución simétrica, ¿Por qué?
5. Transforme los datos discretos en continuos.
6. ¿Cuál es la probabilidad de que ningún alumno repruebe la materia?
7. ¿Cuál es la probabilidad de que dos o más reprueben?
8. ¿Cuál es la probabilidad de que cuatro reprueben;
9. ¿Cuál es la probabilidad de que uno repruebe?
10. Obtenga la esperanza matemática de la distribución.

264
Problema 2

La calificación de 200 estudiantes del curso de Estadística está normalmente distribuida con media
igual a 7 y desviación estándar de 0.2, en una escala de 0 a 10. Con esos datos.

1. Construya gráficamente la curva normal correspondiente con intervalos de una desviación


estándar hasta tres desviaciones estándar.
2. ¿Cuántos estudiantes tienen entre 6.5 y 7.5 de calificación?
3. ¿Cuál es la probabilidad de que un estudiante tenga más de 7.5 de calificación?
4. ¿Cuál es la probabilidad de que un estudiante tenga entre 6.4 y 6.2 de calificación?
5. ¿Cuál es la probabilidad de que un estudiante tenga entre 6.2 y 7.8 de calificación?
Problema 1 (Solución)

1) Con (𝑞 + 𝑝)4 Se tiene: 𝑞 4 + 4𝑞 3 𝑝 + 6𝑞 2 𝑝2 + 4𝑝𝑞 3 + 𝑝4 k

Como 𝑞 = 0.6 y 𝑝 = 0.4.


= (0.6)4 + 4(0.6)3 (0.4) + 6(0.6)2 (0.4)2 + 4(0.6)(0.4)3 + (0.4)4
= 0.1296 + 0.3456 + 0.3456 + 0.153 + 0.0256 = 1.000

2) Interpretación de exponentes y coeficientes: hay 16 resultados posibles (Ver coeficientes),


donde:

𝑞 4 : Hay una manera de obtener 4q’s;


4𝑞 3 𝑝: Hay 4 formas de obtener 3q’s y una p;
6𝑞 2 𝑝2 Hay 6 formas de obtener 2q’s y 2p’s;
4𝑝𝑞 3Hay 4 formas de obtener una q y 3 p’s; y
𝑝4 : Hay una forma de obtener 4p’s.

3) Para obtener su media y su desviación estándar se calcula:

Tabla V.19.
Obtención de la media y la desviación estándar del Problema 1
(𝑋 − 𝜇) ∗
𝑋 𝑃(𝑋) 𝑋𝑃(𝑋) 𝑋−𝜇 (𝑋 − 𝜇)2 (𝑋 − 𝜇)2 ∗ 𝑃(𝑋)
𝑃(𝑋)*
0 0.1296 0.0000 -1.6 2.56 0.3318 -0.2074
1 0.3456 0.3456 -0.6 0.36 0.1244 -0.2074
2 0.3456 0.6912 0.4 0.16 0.0553 0.1382
3 0.1536 0.4608 1.4 1.96 0.3011 0.2150
4 0.0256 0.1024 2.4 5.76 0.1475 0.0614
𝜇= 1.6000 0.96 0.0000
Fuente: Investigación directa con datos hipotéticos.

*Primera propiedad de 𝜇.

265
𝜇 = ∑ 𝑋𝑃(𝑋) = 1.5998 = 𝑛𝑝 = 4(0.4) = 1.6 = 𝐸(𝑋)

𝜎 = √𝑛𝑝𝑞 = √4(0.4)(0.6) = √0.96 = 0.96 = √(𝑋 − 𝜇)2 𝑃(𝑋)


4) Su gráfica.
Gráfica V.23
Probabilidad de 𝑋 del Problema 1
0.40
0.3456 0.3456
0.35
0.30
0.25
P(x)

0.20
0.1536
0.15 0.1296

0.10
0.05 0.0256
0.00
0 1 2 3 4
X

Fuente: Investigación directa con datos hipotéticos.


No es simétrica porque 𝑝 = 0.4 y 𝑞 = 0.6. Es decir 𝑝 ≠ 𝑞.

5) Se transforma 𝑋 en 𝑍: Datos discretos en continuos.

Tabla V.20
Transformando a 𝑋 en 𝑍 del Problema 1
𝑋 𝑋−𝜇 𝑋𝑖 − 𝜇
𝑍=
𝜎
0 -1.6 -1.67
1 -0.6 -0.63
2 0.4 0.41
3 1.4 1.45
4 2.4 2.50
Fuente: Investigación directa con datos hipotéticos.

6) 𝑃(𝑥 = 0) = 0.1296
7) 𝑃(𝑥 ≥ 2) = 0.3456 + 0.1536 + 0.0256 = 0.5246
8) 𝑃(𝑥 = 4) = 0.0256
9) 𝑃(𝑥 = 1) = 0.3456
10) 𝐸(𝑋) = 𝜇 = 1.6

Problema 2 (Solución)

Con 𝑁 = 200, 𝜇 = 7 𝑦 𝜎 = 0.2

266
1) Construya la curva normal

Tabla V.21
Transformando a 𝑋 en 𝑍 del Problema 2
𝑋 𝑋−𝜇 𝑋𝑖 − 𝜇 Ordenada de 𝑓(𝑍) Ordenada población finita
𝑍= 𝑁
𝜎 Población infinita 𝑌𝑍 = 𝜎 𝑓(𝑍)
7 0 0 0.398 398
7.2 0.2 1 0.241 241
7.4 0.4 2 0.054 54
7.6 0.6 3 0.0004 4
Fuente: Investigación directa con datos hipotéticos de una población finita.

Gráfica V.24
Distribución de 𝑋 y 𝑍 junto con sus literales del Problema 2

Fuente: Investigación directa con datos hipotéticos.

2) ¿Cuántos estudiantes tienen entre 6.5 y 7.5 de calificación

6.5−7 −0.5
𝑍1 = 0.2
= 0.2
= −2.5; Su área es de 0.494.

7.5−7 0.5
𝑍2 = 0.2
= 0.2 = 2.5; Su área es de 0.494.

𝑃(6.5 ≤ 7 ≤ 7.5) = 0.494 + 0.494 = 0.988

Luego 200(0.988) ≈ 200 estudiantes. Gráficamente:

267
Gráfica V.25
Probabilidad de que los estudiantes obtengan entre 6.5 y 7.5 de calificación

Fuente: Investigación directa con datos hipotéticos.

3) ¿Cuál es la probabilidad de que un estudiante tenga más de 7.5 de calificación?

Como 𝑍2 = 2.5 y su área es de 0.494, la respuesta es 0.5000 − 0.494 = 0.006.

Gráficamente:

Gráfica V.26
Probabilidad de que los estudiantes obtengan más de 7.5 de calificación

Fuente: Investigación directa con datos hipotéticos.

4) ¿Cuál es la probabilidad de que un estudiante tenga entre 6.4 y 6.2 de calificación?

6.2−7 −0.8
𝑍1 = 0.2
= 0.2
= −4; Su área es de 0.4990.

6.4−7 −0.6
𝑍2 = 0.2
= 0.2
= −3; Su área es de 0.4887.

𝑃(6.2 ≤ 𝑥 ≤ 6.4) = 0.4990 + 0.4887 − 1 = 0.0103

Gráficamente:

268
Gráfica V.27
Probabilidad de que los estudiantes obtengan entre 6.4 y 6.2 de calificación

Fuente: Investigación directa con datos hipotéticos.

5. ¿Cuál es la probabilidad de que un estudiante tenga entre 6.2 y 7.8 de calificación?


6.2−7 −0.8
𝑍1 = 0.2
= 0.2
= −4; Su área es de 0.4990

7.8−7 0.8
𝑍2 = = = 4; Su área es de 0.4990.
0.2 0.2

𝑃(6.2 ≤ 𝑥 ≤ 7.8) = 0.4990 + 0.4990 = 0.998


Gráficamente:

Gráfica V.28
Probabilidad de que los estudiantes obtengan entre 6.2 y 7.8 de calificación

Fuente: Investigación directa con datos hipotéticos.

Ejercicio No. 2, para resolver

INSTRUCCIONES: Resuelva los problemas siguientes, anotando el desarrollo de las principales


operaciones y fórmulas empleadas e interprete los resultados de cada uno de ellos según su
naturaleza.

1. En una fábrica el 50% de los trabajadores son casados, con una muestra de tres empleados,
¿cuál es la probabilidad de que:

269
a) Los tres son casados
b) Uno de ellos sea casado
c) Ninguno sea casado

2. En una localidad el porcentaje de votantes por el candidato A es de 60% se toma una


muestra al azar de 5 personas, ¿cuáles son las probabilidades de que en dicha muestra,
voten por el candidato mencionado?
a) Ninguna persona
b) Más de 3 personas
c) Cuando menos 3 personas

3. El 3% de los tornillos que produce una máquina son defectuosos, ¿cuál es la probabilidad
que de 100 tornillos escogidos al azar cuando mucho haya dos defectuosos?

4. Se ha comprobado que el 2% de una caja que contiene 200 pilas, son defectuosas ¿cuál es la
probabilidad que exactamente 3 de ellas sean defectuosas?

5. La media de los diámetros interiores de una muestra de 200 rondanas, producidas por una
máquina es de 0.502 pulgadas y su desviación estándar de 0.008 pulgadas, el propósito
para que se destinan estas rondanas permite una tolerancia máxima en el diámetro de 0.496
a 0.508 pulgadas. De otra manera las rondanas se consideran defectuosas.
a) Si los diámetros se distribuyen normalmente construye la gráfica representativa con
intervalos de 1/2 de desviación estándar hasta tres desviaciones estándar.
b) Determinar el tanto por ciento de rondanas defectuosas producidas por la máquina.
c) ¿Cuál es la probabilidad de que al seleccionar una rondana, su diámetro sea
mayor que 0.510 pulgadas?

6. El tiempo de duración de 5,000 pilas secas para focos fotográficos producidos por una
compañía esta normalmente distribuidos con media igual a 800 minutos y desviación
estándar igual a 40 minutos.
a) Construya gráficamente la curva normal correspondiente con intervalos de 1⁄2 de
desviación estándar hasta tres desviaciones estándar.
b) ¿Cuántas pilas duran entre 780 y 820 minutos?
c) ¿Cuál es la probabilidad de que al seleccionar una pila esta dure cuando menos 750
minutos?

270
CAPÍTULO VI. CONCEPTOS BASICOS DE MUESTREO Y DISTRIBUCIONES EN EL
MUESTREO

Importancia: Una vez que se define, se explica y se ilustra el concepto de probabilidad, el cual
constituye el eje rector para hacer análisis económico ampliado a partir de la estadística descriptiva
que es el sustento de la estadística inferencial, se dice que con ella se sientan las bases para
introducirse y profundizar usando ahora los métodos de la inferencia estadística (que se basa en el
análisis de una muestra para inferir las características de la población de la que proviene). Lo
anterior es muy valioso porque a partir de la naturaleza y número de resultados posibles que se
generan en un experimento, es posible constituir el marco muestral de los mismos, con el que se
puede calcular la probabilidad de ocurrencia de cada uno de ellos, al igual que la probabilidad de
ocurrencia de un número determinado de ellos. También al contar con el marco muestral es posible
decidir cómo agruparlos, (con las fórmulas de las permutaciones y de las combinaciones) sobre todo
cuando son muchos y ya no es fácilmente visible el marco muestral. Este agrupamiento constituye
la base para que el investigador diseñe el método de muestreo (selección de la muestra) que le
permita captar datos que cumplan con los objetivos de su estudio. En este contexto, es que también
al saber cómo se pueden relacionar o agrupar a partir del análisis combinatorio: con sus fórmulas, se
pueden crear distribuciones probabilísticas discretas y continuas, cuya tipificación estadística
fundamenta el rigor técnico con que se puede usar la inferencia estadística, así como para visualizar
en que variables económicas son susceptibles de aplicar cada una de las propiedades de ellas
(binomial, poisson, normal, etc). El entendimiento de los conceptos anteriores ahora permite
introducirse en el muestreo probabilístico, cuyas muestras se obtendrán de poblaciones finitas e
infinitas. Motivo por el cual es conveniente introducir de manera formal la definición de los
siguientes conceptos:

VI.1 Concepto de universo y muestra:

UNIVERSO O POBLACIÓN ESTADISTICA: Se define como el conjunto de elementos que


poseen la característica que el investigador desea estudiar o simplemente como la suma de las
unidades elementales.

Si el número de unidades elementales es igual al número de observaciones; se dice que la población


es la suma de las observaciones.

Por ejemplo: Si hay 600 personas e interesa conocer su peso en kgs., cada persona es una unidad
elemental y por lo tanto la población son las 600 personas.

El tamaño de una población se representa generalmente por 𝑁. Luego, una población en sentido
estadístico es un conjunto de elementos (generalmente definida) que puede conocerse por medio de
un análisis completo y exhaustivo.

La población puede ser: finita o infinita.

271
El ejemplo de las 600 personas previamente descritas ilustra una población FINITA; una población
infinita puede ser por ejemplo el número de moscos que hay en el mundo entero. Cada una de sus
unidades elementales, tiene varias características identificables y numerables; es decir que cada
característica puede representarse por un número.

Ejemplo: Si la población es de animales, sus características pueden ser:

 Su peso;
 La dieta a que están sujetos;
 Su producción (según su clase: vacas, gallinas, etc.).

En la teoría de la probabilidad moderna, una población se representa gráficamente en la siguiente


forma:

Cuadro VI.1
Representación gráfica de una población

Fuente: Investigación directa

Muestra, se le define como una porción de la población estadística que es seleccionada para
estudiarla y de ella inducir (Inferir) las características que puede tener la población. Gráficamente
así se ve:

Cuadro VI.2
Representación de población y muestra

Fuente: Investigación directa

El tipo de muestra y representatividad de sus datos de los del universo que se obtiene con ella
depende de la forma en que haya sido extraída la muestra de la población. Así se habla de
procedimientos empíricos “dirigidos” (también conocidos como piloto) o de métodos de selección
probabilística como el muestreo simple aleatorio, de muestreo sistemático, de muestreo
estratificado, por conglomerados, etcétera.

272
Dentro de los primeros se habla de una muestra no aleatoria, que es la parte de la población que el
investigador selecciona a juicio para estudiar a partir de ella a la población.

Cuando se utilizan los segundos métodos se habla de una muestra aleatoria y se dice que tienen en
común el hecho de que se selecciona la muestra al azar, además de que cada elemento de la
población tiene la misma probabilidad de ser incluido en la muestra, que se conoce como muestra
probabilística y tiene características importantes que más adelante se describirán.

METODOLOGÍA DEL MUESTREO ESTADÍSTICO.

VI.2.1. Métodos de muestreo

Como se indicó, existen: el muestreo el no probabilista y el probabilístico. El primero, suele usarse


cuando se tiene un amplio conocimiento del fenómeno que se investigará y cuando existen estudios
previos al respecto; tal que el investigador tiene antecedentes y el costo para la investigación es
reducido. Este tipo de muestreo se recomienda cuando no se desea un análisis profundo y preciso
sobre las características del universo que se estudia. Este método resulta en ocasiones bueno, ya
que capta con relativa facilidad las características de la población en estudio. Como podrá notarse,
no es del todo científico y no permite por sí mismo llegar a estimaciones precisas, resultando difícil
realizar inferencias en la estimación, es más, no deben hacerse.

El método probabilístico -por el contrario- proporciona una medida de la magnitud del error y de la
confianza con que se pueden tomar los resultados. Generalmente suele ser más costoso y quizás
tome un poco más de tiempo el realizarlo, en especial cuando hay problemas de información sobre
el número de unidades que integran el universo y algunas otras características que no permiten el
cálculo rápido del tamaño de la muestra.

Es recomendable, idealmente, usar siempre el método probabilístico para dotar a los datos
muestrales de seguridad matemática, es decir, del conocimiento cuantitativo de la diferencia entre el
valor obtenido con su muestra (𝑥̅ ) y el valor real en el universo estadístico (𝜇), aun cuando se
tengan que hacer esfuerzos extraordinarios para conseguir los recursos monetarios necesarios.

En otras palabras, estos términos no son otra cosa más que sinónimos de una selección aleatoria de
la muestra y una selección arbitraria de la misma, respectivamente.

Así, un muestreo probabilístico es aquel cuyo error de muestreo es calculado, condición que existe
solo cuando se usa la selección aleatoria. Al respecto, el error de muestreo es la diferencia entre el
valor real de la variable en el universo, y su valor estimado obtenido con la muestra.

La palabra "aleatoria" se refiere al método de seleccionar una muestra, más bien que a la muestra
particular elegida. Cualquier muestra posible puede ser al azar o aleatoria, por muy poco
representativa que pueda ser de la población, con tal que haya sido obtenida siguiendo la regla de
dar una probabilidad igual a las unidades elementales del universo de ser incluidas en la muestra.

273
Por otra parte, una muestra empírica, arbitraria o a criterio, es aquella cuyo error de muestreo no es
determinado ni asignada ninguna probabilidad de selección a los elementos o unidades que la
componen.

Otra razón por la que se recomienda el uso del muestreo probabilístico, es que por lo regular el
investigador tiene a su disposición muchas muestras con composiciones diferentes, (recuerde las
combinaciones y permutaciones) de manera que según la muestra utilizada puede haber errores o
diferencias entre los valores de los parámetros y de sus estimadores correspondientes. Dichos
errores no se pueden evitar en una selección aleatoria pero si cuantificar a priori cuando se
determina matemáticamente el tamaño de la muestra, es decir, durante la planeación de la
investigación por muestreo se conoce el error de muestreo (que debe ser igual o menor al error
permitido), así como el nivel de confiabilidad de los “estadísticos” muestrales.

VI.2.1 Errores de muestreo y de no muestreo.

La exactitud o confiabilidad de los datos de una muestra, depende de dos tipos básicos de errores:
errores de muestreo, que se reflejan en estimaciones matemáticas de la precisión de los estimadores
provenientes de muestras particulares, y se manifiestan en diferentes formas clasificadas bajo la
notación de sesgos o distorsiones. (Aquí se les llama diferencias entre el valor del parámetro
poblacional y su estimador muestral).

Los errores de muestreo se miden a través de las llamadas fórmulas de error estándar. De acuerdo
con estas fórmulas, se hacen estimaciones de la precisión de estimadores muestrales particulares y
siguiendo el procedimiento apropiado estas mismas fórmulas sirven de base para determinar el
tamaño de la muestra requerida, de acuerdo con una precisión especificada (probabilidad)
previamente. Las fórmulas del error estándar han sido desarrolladas para una gran variedad de
diseños muestrales y en la actualidad es una cuestión rutinaria su aplicación a cada uno de los casos.

Los errores de muestreo surgen de la variación en los estimadores provenientes de distintas


muestras del mismo tamaño. El valor de los errores determina la precisión con que los valores
muestrales (𝑥̅𝑖 ) estiman a los parámetros poblacionales (𝜇).

La probabilidad de que un parámetro esté contenido dentro de un cierto rango construido alrededor
de los diferentes estimadores muestrales, se obtiene por medio de la teoría de la probabilidad para
distintos diseños muestrales.

Así, con base en esta teoría, el margen de error -o error de muestreo- que se puede esperar con un
diseño de muestreo y tamaño de muestra determinados, se puede calcular a diferentes niveles de
precisión bajo el supuesto de una selección aleatoria, la cual requiere que cada miembro de la
población tenga la misma probabilidad de ser seleccionado para incluirse en la muestra. Luego, una
vez que se conocen el error estándar y la precisión buscada, se puede hacer la planeación de la
investigación o de la encuesta, así como de la determinación de su costo y tiempo que requiere para
hacerse.

274
Contrariamente, el tema de los errores de no muestreo es a la fecha un tema que requiere una vasta
experiencia y la cual es ajena a la disciplina matemática.

Incluidas en el concepto de errores no de muestreo, están las innumerables influencias que tienden
a distorsionar o sesgar los valores de los estimadores provenientes de la muestra: la selección
arbitraria de los miembros de la muestra, fraseo perjudicial en las preguntas, actitudes
preconcebidas por el entrevistador y muchos otros factores que pueden producir valores
muestrales que no representaran a los valores de los parámetros de la población, no importa que tan
grande sea la muestra.

Distintos a los errores de muestreo, éste tipo de sesgo es independiente del tamaño de la muestra.

VI.2.2 Selección de la unidad de muestreo.

La aplicación de los métodos de muestreo estadístico tiene por objeto seleccionar algunos
elementos del universo que se trata de estudiar, para poder hacer inferencias sobre sus
características. La selección de las unidades de muestreo se hace a partir de una lista, mapas,
croquis, directorios -o una combinación de estos elementos informativos-, los que deben contener
todas las unidades de interés y permitir determinar la probabilidad de su inclusión; así mismo, que
en el momento de levantar la encuesta, la identificación de cada unidad en la muestra sea hecha sin
ninguna ambigüedad.

De acuerdo a la forma de seleccionar (método de muestreo utilizado) estas unidades se pueden dar
las siguientes maneras de hacerla:

Reemplazo:

Las selecciones sucesivas de una muestra probabilística pueden hacerse con o sin reemplazo de las
unidades obtenidas en las selecciones previas; por ello al primer procedimiento se le llama muestreo
con reemplazo y al segundo sin reemplazo.

En el muestreo con reemplazo, si una unidad fue seleccionada para ser incluida en la muestra, puede
regresarse al universo estadístico y volver a ser seleccionada para ser incluida en la muestra. En el
muestreo sin reemplazo concursa una solo vez.

Etapas de selección:

Las unidades que tengan que investigarse a través del cuestionario, posiblemente convenga
agruparlas y estos grupos a su vez se vuelvan a agrupar y así sucesivamente. Dependiendo del
número de agrupamientos de las unidades de interés -o últimas unidades de muestreo-, es el nombre
que se le da. Si el marco muestral no presentó agrupamientos, el muestreo se llamará monoetápico -
selección directa de las unidades de interés-; Si el marco muestral presenta agrupamientos de un
sólo orden se llamará bietápico, o lo que es lo mismo se seleccionarán primero los grupos de
unidades -de primera etapa- y finalmente se seleccionarán los de interés o de segunda etapa, y así
sucesivamente se tendrá el muestreo trietápico, tetraetápico, etc.
275
Probabilidad:

Si las unidades de muestreo en cada etapa son seleccionadas con la misma probabilidad, el muestreo
se llamará equiprobable; en el caso contrario se dice que es de probabilidades variables de
selección en la o las etapas que correspondan.

Estratos:

La precisión al hacerse las estimaciones básicamente depende de dos factores:

a) Del tamaño de la muestra; y


b) De la variabilidad o heterogeneidad de la población.

Es evidente que mientras más grande sea la muestra, representará más fielmente a la población, tal
que se pueden mejorar las estimaciones aumentando el tamaño de la muestra. En cuanto al segundo
factor para aumentar la precisión, puede dividirse el marco muestral, -Si es que se dispone de los
medios necesarios- en clases homogéneas llamados estratos y seleccionar separadamente en cada
estrato una muestra, garantizando con esta forma cualquier representación deseada de todos los
estratos de la población. La denominación de un método de muestreo se forma indicando estos
conceptos: Etapa, probabilidad y con o sin reemplazo. Al constituir los estratos con elementos
cuyos valores son cercanos entre sí, se garantiza que la variabilidad entre ellos sea reducida y por
consiguiente, que el error de muestreo que se obtiene con este método sea el menor con respecto a
otros métodos de muestreo utilizados; Esto se demuestra en las siguientes secciones.

VI.2.3 Manejo de las tablas de números aleatorios

La selección de las unidades de muestreo debe hacerse basándose en las leyes del azar; esto es,
debe asignarse a cada unidad del marco muestral una probabilidad de inclusión en la muestra. Con
este método la muestra se obtiene en selecciones sucesivas de una unidad, cada una con una
probabilidad asignada de antemano, según sea el modelo de muestreo que se utilice, hasta
completar el número de unidades que deben incluirse en la muestra para cada etapa. Un
procedimiento práctico para seleccionar las unidades, es utilizando una tabla de números aleatorios
como la que aparece en el apéndice 𝑁 de la sección de tablas estadísticas.

Construcción de las tablas de las tablas de números aleatorios

Conviene destacar que estas tablas sirven para asegurar que todos los elementos del universo tengan
la misma probabilidad de ser seleccionados aleatoriamente como parte de la muestra que se extraiga
de la población.

Estas tablas están constituidas por arreglos de dígitos ordenados de manera tal que cada uno de
ellos represente a un elemento de la población e indica que dicho elemento tiene la misma
probabilidad que el resto de ser seleccionado aleatoriamente como integrantes de la muestra. Estas
tablas se construyen de diferentes maneras (Ferber et al, 1964):

276
 Usando la computadora de manera similar al proceso de la ruleta.
 Usando ciertas funciones matemáticas; o
 Usando instrumentos mecánicos basados esencialmente en el principio de la ruleta.

El uso de las tablas de números aleatorios puede ilustrarse con el siguiente ejemplo, relativo a la
selección aleatoria de la muestra.

Supóngase que se van a seleccionar 3 escuelas de Medicina Veterinaria y Zootecnia para ser
consideradas como muestra de un estudio de las 18 escuelas de Medicina Veterinaria y Zootecnia
existentes en el país:

Si 𝑛 = 3 y 𝑁 = 18. Se dice que el universo está constituido por dos dígitos; si 𝑁 fuera 4327, se
diría que está constituido por cuatro dígitos; El número de dígitos del universo es el límite máximo
para trabajar dichas tablas. Así, en este ejemplo, se hace la relación o numeración de las escuelas
que integran universo: a cada uno de las 18 Escuelas se le asigna un número de dos dígitos:
01, 02, 03, . . . , 18.

En seguida se seleccionan pares de números de la tabla de manera consistente. Por ejemplo: La


selección podría empezar en la parte superior de la tabla, -primera columna-, la siguiente columna,
etc. Esto produce los siguientes pares de dígitos: 01, 04, 06.

Estos dígitos identifican la escuela en la población que será considerada como elemento de la
muestra.

Si el número par al azar excede el número de unidades posibles de muestreo (𝑁 = 18) como el
número 31, el número es ignorado y se selecciona el siguiente número, 16 -por ejemplo- y al
seguir seleccionando para completar el tamaño de la muestra y ésta vuelve a aparecer, en este caso
también se ignora y se continúa buscando un número distinto a 16 y no mayor que 18.

De esta manera se obtienen las tres escuelas que formarán la muestra. Ésta no es la única manera
para seleccionar pares de dígitos en la tabla de manera horizontal, diagonal, en zig-zag, etc. Lo
importante es que el procedimiento sea consistente.

El segundo medio de selección probabilística, el sistemático, es en esencia una simple variante del
procedimiento anterior. Implica la selección de las unidades de la muestra de manera sistemática
empezando con uno de los dígitos, dicho en otras palabras, la selección de cada uno de los
elementos de la muestra es a intervalos regulares, una vez que fue escogida la primera de 𝑛
unidades que constituirán la muestra.

𝑁
Esto es, si hay 𝑁 unidades muestrales en la población, y se desean 𝑛 para la muestra, cada 𝑛
unidad
es seleccionada, empezando con un número aleatorio. Así usando el ejemplo anterior cada sexta
𝑁 18
unidad será seleccionada: ( 𝑛 ) = 6
= 6 empezando con un número aleatorio entre 1 y 6 inclusive.
Este número aleatorio se puede obtener también de la tabla de números aleatorios.
277
Métodos de muestreo

Los métodos de muestreo tienen por objeto indicar la forma como se seleccionará el número de
unidades que deben incluirse en la muestra. Dependiendo de la forma en que estas se seleccionan,
de la confianza estadísticamente hablando que se requiera al hacer las inferencias de los resultados
muestrales como estimadores de los valores poblacionales y del error de muestreo que se determine
en relación al error permitido, es como se denomina el método de muestreo a utilizar en la
realización del estudio.

VI.2.4 Muestreo simple aleatorio

Recordando que por muestreo probabilista se entiende un método de muestreo en el que cada
miembro de la población tiene una probabilidad conocida de ser incluida en la muestra, se dice que
cuando todos los miembros de la población tienen la misma probabilidad de ser seleccionados se
denomina muestreo simple aleatorio.

Ejemplo: Si una caja contiene seis pedacitos de papel numerados del 1 al 6; si se desea elegir una
muestra de la caja de tamaño 3, sin reemplazo, el muestreo simple aleatorio indica que la
1
probabilidad de cada uno de los 6 papelitos es 6. Al extraer el segundo, la probabilidad de cada uno
1
es 5 y así sucesivamente. En este caso cada número dentro de la caja tiene la misma probabilidad de
ser seleccionado.

En general, se puede decir que si el tamaño de la muestra es 𝑛 y el de la población 𝑁, en el


muestreo simple aleatorio, cada miembro de la población tiene una probabilidad de encontrarse en
𝑛
la muestra de 𝑁.

Por ejemplo: Si de entre 120 estudiantes se seleccionan 10 al azar y todos tienen la misma
10
probabilidad de ser elegidos, cada uno de los 120 estudiantes, tiene una probabilidad de de ser
120
incluido en la muestra.

Ahora ¿cuál es la probabilidad de seleccionar una muestra de tamaño 𝑛 a partir de una población de
tamaño 𝑁 en un muestreo sin remplazo?

Suponiendo de 𝑁 = 6 y 𝑛 = 3:

𝑁 6 6! 6!
( ) = ( ) = 3!(6−3)! = 3!∗3! = 20 Muestras posibles
𝑛 3

Respuesta: Cuando se adopta el muestreo aleatorio simple cada muestra tiene igual probabilidad de
1
ser seleccionada y es de 20.

278
En general, se dice que cuando se selecciona una muestra de tamaño 𝑛, a partir de una población de
tamaño 𝑁 por muestreo simple aleatorio la probabilidad de que se seleccione una cualquiera de las
𝑁 1
( ) muestras posibles será: 𝑁 .
𝑛 ( )
𝑛

Lo anterior se refiere a los casos en que el muestreo se realizó sin reemplazo. Lo mismo sucede
cuando se realiza con reemplazo, aunque en la práctica se utiliza generalmente el muestreo sin
reemplazo.

VI.2.5 Muestreo estratificado

De acuerdo con este método, la población se divide en estratos basados en características


consideradas relevantes para el sujeto bajo estudio, y se seleccionan las unidades de muestreo de
cada uno de los estratos.

Por ejemplo: Investigando tiendas al menudeo en la ciudad de Cuernavaca, las tiendas en la ciudad
podrán clasificarse primero por tipo de tienda (Abarrotes, farmacias, etc.) y luego por tamaño de
tienda. Para cada estrato, tipo o tamaño de tienda, se puede estimar el número de tiendas y
calcularse cuántas de estas tiendas -unidades de muestreo- deben incluirse en la muestra. Es común
en tales casos, seleccionar la mayoría de las unidades de muestreo de los estratos conteniendo las
tiendas grandes y sólo una pequeña proporción de unidades de muestreo de los estratos que
contienen relativamente pocas tiendas.

Para que sea útil el muestreo estratificado (Ferbet et al, 1964) se deben reunir las siguientes tres
condiciones:

1) Deben conocerse ciertas características relevantes que influencian fuertemente el fenómeno


bajo estudio.
2) Que la población sea susceptible de dividirse de acuerdo con las características relevantes.
3) La división relativa de la población debe conocerse con cierto grado de precisión. Una
muestra estratificada puede obtenerse aun cuando no se pudieran identificar los elementos
del estrato, siempre y cuando se conozca después de haberse seleccionado la muestra. El
problema sin embargo, es que los errores de muestreo de las estimaciones resultan mayores
que si se hubiera estratificado antes.

Si el número de unidades de muestreo seleccionadas de cada estrato es proporcional al tamaño


relativo del estrato en la población, el resultado es una muestra estratificada proporcional, lo
contrario es una muestra estratificada no proporcional. Esto último es preferible si los diversos
estratos no son homogéneos con respecto a la característica bajo estudio.

El error de muestreo de una muestra estratificada puede considerase menor que el de una muestra
simple aleatoria del mismo tamaño. Lo anterior se debe a que el diseño de estratificaciones hace
uso de información homogénea en el estrato, considerando la división de la población de acuerdo
con las características relevantes y sirve para reducir el margen de error de muestreo.
279
El problema con este método, es que aun cuando se conocen las características relevantes y en base
a ellas se estratifica, el tamaño relativo de los estratos en la población no siempre se conoce con
gran exactitud.

Debido a esta escasez de información, las ventajas obtenidas con la estratificación se pierden con
las variaciones introducidas por la información incorrecta referente al tamaño de los estratos en la
población, elemento que desafortunadamente se subestima frecuentemente.

Los diseños de estratificación antes explicados se pueden combinar con otras como por ejemplo:

 Muestreo por área; y


 Los esquemas de muestreo por conglomerados o racimos.

Ejemplo de la situación anterior podría ser el siguiente: Digamos que México podría subdividirse en
estratos regionales, tales como:

 Norte;
 Sur;
 Este: y
 Oeste.

Con áreas seleccionadas dentro de cada uno de estos estratos o regiones y con miembros de la
muestra seleccionados al interior de cada una de estas áreas, en grupos o “racimos”. Similarmente,
la selección de los miembros de una muestra estratificada podría realizarse, ya sea usando
procedimientos aleatorios o arbitrarios.

VI.2.6 Muestreo polietápico

Este método requiere la selección de las unidades de muestreo en diferentes etapas, existiendo
unidades de primera, segunda, etc. Etapa en un diseño muestral.

Por ejemplo: Si el interés es conocer la opinión de los médicos veterinarios zootecnistas sobre los
programas de estudio de las diferentes escuelas y facultades de Medicina Veterinaria y Zootecnia y
si para ello se decide realizar la investigación en la ciudad de México, entonces la clasificación de la
ciudad en distritos permite obtener la unidad de primera etapa; la clasificación en colonias es la
unidad de la segunda etapa; la selección de las manzanas a muestrear es la unidad de tercera etapa;
y la selección aleatoria de los médicos residentes en las manzanas previamente seleccionadas,
constituyen la unidad de cuarta etapa.

VI.2.7 Muestreo por áreas

Cuando la población se distribuye sobre un área muy grande, la selección de los elementos de la
muestra de toda el área puede resultar un procedimiento ineficiente y costoso. Estos es
particularmente cierto, si a las personas que entrevistan se les paga por hora y la mayor parte del

280
tiempo se va en viajar. El muestreo por áreas fue diseñado (Ferber, et al, 1964) para resolver este
problema. Se basa en una subdivisión a priori de la población en áreas; la selección de algunas de
estas áreas con la ayuda de los métodos de muestreo aleatorio y la restricción a la selección de las
unidades que integrarán la muestra, solamente en esas áreas.

La restricción geográfica sirve para concentrar los esfuerzos de trabajo en ciertas regiones,
provocando reducciones sustanciales en el costo del trabajo de campo en comparación a una
muestra del mismo tamaño proveniente de un diseño distinto al de áreas.

Esta técnica de muestreo puede usarse para trabajar con muestras irrestrictas y estratificadas. De
hecho en investigaciones de gran escala la técnica de estratificar áreas es generalmente la regla,
porque asegura la representatividad de todos los segmentos relevantes de la población a costos
bajos.

En cada investigación el diseño de áreas se realiza en varias etapas; cada etapa sirve para restringir
el área geográfica de la cual se seleccionarán las unidades de la muestra.

Muestreo por conglomerados. Con este método se distribuyen los elementos de la población
estadística en varios grupos o conglomerados, de manera que cada uno de estos grupos tenga un
número de cuentas con diferentes valores; ello con objeto de que cada grupo sea una réplica del
universo o la población estadística. Una vez realizado el agrupamiento de datos, se procede a
enumerar los grupos o conglomerados constituidos y de ellos se selecciona uno al azar para que
constituya la muestra que servirá para realizar la investigación deseada.

VI.3 Aplicaciones

Sabiendo que una encuesta es una investigación que realiza el experto para obtener datos de interés
específico sobre un tema determinado, a continuación se expone cómo se realiza dicha
investigación ilustrando la manera cómo obtener los datos utilizando algunos métodos de muestreo,
como los siguientes:

VI.3.1 Aplicación del muestreo simple aleatorio

Ejemplo 1:

Aun cuando este método es el más simple de los clasificados como probabilísticos, su sencillez no
deja de ser útil para ilustrar las ventajas que se derivan de la aplicación de esta metodología al
análisis de fenómenos económicos; al igual que los demás métodos de muestreo estadístico, se
caracteriza por proporcionar estimadores de los parámetros de la población.

Se asigna igual probabilidad de selección a cada unidad perteneciente a la población. Si 𝑁 es el


1
número de unidades, la probabilidad de selección de cualesquiera de ellas es: 𝑁.

281
En un muestreo sin reemplazo el número de muestras distintas de tamaño 𝑛, sacadas de las 𝑁
unidades de la población está dado por:

𝑁 𝑁!
( )=
𝑛 𝑁! (𝑁 − 𝑛)!

Los estimadores obtenidos con la muestra que se use serán insesgados cuando su esperanza
matemática sea igual al parámetro poblacional:

𝐸(𝑦̅) = 𝑌̅

1
Demostración: 𝑦̅ = 𝑛 ∑ 𝑦𝑖

∑(𝑦1 + 𝑦2 + ⋯ + 𝑦𝑛 ) 𝐸(𝑦1 ) + 𝐸(𝑦2 ) + ⋯ + 𝐸(𝑦𝑛 ) 𝑛𝑌̅


𝐸(𝑦̅) = = = 𝐸(𝑦̅) = = 𝑦̅
𝑛 𝑛 𝑛

Por lo tanto 𝐸(𝑦̅) = 𝑌̅, ahora bien

El estimador del total de la población definido por 𝑌̂ = 𝑁𝑦̅ es insesgado porque:

𝐸(𝑌̂) = 𝐸(𝑁𝑦̅) = 𝑁𝐸(𝑁𝑦̅) = 𝑁𝑦̅ = 𝑌 = 𝑃𝑎𝑟á𝑚𝑒𝑡𝑟𝑜 𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙

Aplicaciones: Para ello se supone que se conoce el tamaño de la muestra requerida, el cual se
estudiará posteriormente en detalle.

Objetivo: Se desea estimar el total de familias en la localidad "" con una muestra simple aleatoria
cuyo tamaño está dado por cuatro manzanas.

Notación:
𝑛
𝐹 = 𝑁 = Fracción de muestreo
𝑁 = 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑚𝑎𝑛𝑧𝑎𝑛𝑎𝑠 𝑒𝑛 𝑙𝑎 𝑙𝑜𝑐𝑎𝑙𝑖𝑑𝑎𝑑.
𝑌̂ = 𝑃𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 𝑡𝑜𝑡𝑎𝑙 𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑎
𝑦̅ = 𝑃𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑑𝑒 𝑓𝑎𝑚𝑖𝑙𝑖𝑎𝑠 𝑝𝑜𝑟 𝑚𝑎𝑛𝑧𝑎𝑛𝑎 𝑒𝑛 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎
𝑚 = 𝑃𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑑𝑒 𝑝𝑒𝑟𝑠𝑜𝑛𝑎𝑠 𝑝𝑜𝑟 𝑓𝑎𝑚𝑖𝑙𝑖𝑎.

El mapa de la localidad revela la siguiente distribución de las manzanas.

282
Cuadro VI.3:
Mapa de localidad de la distribución de las manzanas

Fuente: investigación directa con datos hipotéticos

Las manzanas se numeran siguiendo un orden determinado: ascendente o descendente en este


caso, resultaron ser 16 en total.

Conociendo 𝑁 = 16 y 𝑛 = 4 se seleccionará la muestra con la tabla de "números aleatorios".


Suponiendo que las manzanas seleccionadas son:

Los números 16, 3, 9 𝑦 11.

En seguida, se hace un listado de las manzanas seleccionadas registrando el número de familias que
existen en cada una de ellas. Los resultados son:

Cuadro VI.4:
Número de familias en las manzanas 16, 3, 9 y 11
La manzana 16 tiene 4 familias
La manzana 3 tiene 9 familias
La manzana 9 tiene 9 familias
La manzana 11 tiene 10 familias

Fuente: Investigación directa con datos hipotéticos


Recordando que el total de familias se estima por:

1 1 32
𝑌̂ = 𝑁𝑦̅; si 𝑁 = 16 y 𝑦̅ = 𝑛 ∑ 𝑦𝑖 = − 4 (4 + 9 + 9 + 10) = 4 = 8

Se tendrá que 𝑌̂=16(8); Y =128 familias en la localidad.

Se puede estimar que el cálculo del total de las familias en la localidad tenga un 95% de
probabilidad de haber caído en el intervalo de confianza con la siguiente fórmula:

𝑡𝑁𝑠 𝑡𝑁𝑠
𝑁𝑦̅ − ∗ √1 − 𝐹 ≤ 𝑌̂ ≤ 𝑁𝑦̅ + ∗ √1 − 𝐹
√𝑛 √𝑛

Donde 𝑡 es el valor de la normal desviada correspondiente a la confianza de probabilidad deseada


cuando 𝑛 es menor que 30 y 𝑠 2 es la varianza muestral.

283
Como se recordará:

Con 𝛼 = 5% y un número infinito de grados de libertad se halla en tablas 𝑡𝛼 = 1.96; se sabe que:

2
∑(𝑦𝑖 − 𝑦̅)2 ∑ 𝑦𝑖2 278
𝑆 = = − (𝑦̅)2 = − 8 = 5.5
𝑛 𝑛 4

Como 𝑆 = √𝑆 2 = √55 = 2.3 y 𝑡𝛼 = ∓1.96se tiene

16(32) (1.96)(16)(2.3) 4
𝐿í𝑚𝑖𝑡𝑒𝑠 𝑑𝑒 𝑐𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎 = ∓ ∗ √1 − = 125 𝑎 131
4 √4 16

El total estimado de familias (128) se halla entre 125 y 131 con una seguridad o confianza del 95%.

El número total de habitantes se puede saber multiplicando el total estimado(𝑌̂) por el promedio de
personas por familia (m).

Si 𝑚 = 5.4; 𝑌̂ = 128.

𝑌̂ = 5.4(128) = 691 habitantes en la localidad “gama”

VI.3.2 Muestreo por áreas, combinado con el simple aleatorio y el estratificado.

Por ejemplo: Considérese el siguiente diseño muestral hecho para captar las características del gasto
familiar en consumo en 2013 y 2014.

Se diseñó una muestra probabilística multietápica del país que fue dividido en áreas. En un
muestreo multietápico, cada persona (y familia) en el universo bajo estudio, tiene una probabilidad
de ser incluida en la muestra, la cual está asociada con las probabilidades de selección de la unidad
de muestreo en la cual se localiza la persona, en cada una de las etapas.

Lo primero que se hizo fue seleccionar con números aleatorios a las unidades de muestreo de la
primera etapa que eran de dos tipos; áreas urbanas y áreas rurales. En la segunda etapa, con
números aleatorios se seleccionaron áreas más pequeñas o manzanas dentro de las unidades de la
primera etapa, seleccionadas previamente. La tercera etapa consistió en la división de las manzanas
en áreas más pequeñas llamadas segmentos; con números aleatorios se seleccionaron los segmentos
donde el entrevistador debía tener la información de cada una de las familias que lo integraban.
Finalmente dentro de cada familia todos los adultos más uno de cada tres adolescentes
seleccionados aleatoriamente, contestaron el cuestionario.

En este caso particular el modelo muestral comprendió tres etapas. La estratificación en el muestreo
por áreas se hace generalmente en la primera etapa (es decir, las áreas se integran en estratos), ya
que a partir de ella la población debe dividirse en forma tal, que se asegure la representatividad de
los estratos. En el ejemplo que se ilustra, todas las unidades de muestreo de la primera etapa, áreas
284
urbanas y rurales, fueron agrupadas en estratos de acuerdo con ciertos criterios para minimizar la
variabilidad dentro de los estratos. Los criterios usados fueron flexibles ya que el propósito
principal era obtener hasta donde fuera posible homogeneidad en las unidades de muestreo en la
primera etapa de cada una de los estratos, así como la integración de estos últimos con un número
aproximadamente igual de familias. Se seleccionaron automáticamente 14 áreas urbanas, porque
contenían un número de familias mayor que el establecido por estrato.

Del resto de las áreas urbanas, se seleccionó una de cada estrato, con probabilidad proporcional a su
tamaño. Similarmente en los estratos rurales, un pueblo o área fue seleccionado con probabilidad
proporcional a su tamaño.

En total, se seleccionaron 103 unidades de la primera etapa, conteniendo 191 poblaciones. De las
103 unidades de la primera etapa; 49 eran urbanas y 54 rurales.

Una vez que se han diseñado las áreas y agrupado en estratos, en cada estrato se seleccionan ciertas
áreas usando algún criterio, generalmente se aplica el llamado “probabilidad proporcional al
tamaño", con el cual cada área tiene una probabilidad (Proporcional) de ser seleccionada de acuerdo
a su tamaño o significación dentro del estrato. Por ejemplo: Suponga que se desea seleccionar con
probabilidad proporcional a su tamaño una de las siguientes cinco ciudades que integran un estrato:

Tabla VI.1
Probabilidad proporcional en las 5 ciudades
Población acumulación Dígitos
Ciudad Población Probabilidad
(en miles) (aleatorios)
10
A 100,000 100 01 - 10
35
4
B 40,000 140 11 - 14
35
6
C 60,000 200 15 - 20
35
7
D 70,000 270 21 - 27
35
8
E 80,000 350 28 - 35
35
Total 35
350,000
estratos 35
Fuente: Investigación directa con datos de Ferber et al, 1964.

Un procedimiento es la selección de un número aleatorio formado por dos dígitos de cualquier tabla
de números aleatorios, y luego seleccionar la ciudad cuyo rango de dígitos incluye los números
aleatorio. Si el número aleatorio es mayor que 35, nuevamente se seleccionan otros números hasta
obtener uno que sea igual a 35 o menos.

Por ejemplo: Si el número aleatorio es el número 22 se selecciona la ciudad D como la muestra del
estrato, porque de acuerdo con la penúltima columna del cuadro anterior, el 22 es uno de los siete
dígitos que representan la ciudad D: Si fuera 06, la muestra contendría la ciudad A.
285
En esencia, se sigue el mismo procedimiento para seleccionar las manzanas de la segunda y las
familias de la tercera etapa del muestreo por áreas, ya que por lo general no se requieren
estratificaciones adicionales. Así, si la ciudad A es seleccionada en la muestra podría dividirse en
manzanas y seleccionarse con probabilidad proporcional unas cuantas de estas con la ayuda de la
tabla de los números aleatorios.

Una vez seleccionadas las manzanas, las familias se listarán en cada manzana y el número requerido
de ellas se obtendría usando una vez más la tabla de números aleatorios.

Obsérvese que en poblaciones grandes y dispersas este procedimiento resulta ventajoso no sólo en
la fase de la entrevista, sino también en la fase de preparación del marco muestral, ya que las
definiciones y listados de las familias solo se hacen para las unidades de la primera etapa que caen
en la muestra y los listados de familias se requieren solamente de aquéllas manzanas consideradas
en la muestra.

VI.3.3 Muestreo por racimos o conglomerados

Este método, que es en esencia una extensión del muestreo por áreas, consiste en la aplicación
uso de las últimas unidades del muestreo en localidades adyacentes en lugar de permitir su
dispersión en todas las áreas que comprenden la muestra (Ferber et al, 1964).

Por ejemplo: Una muestra de 300 familias podría obtenerse seleccionando 60 grupos de 5
manzanas en lugar de seleccionar individualmente a 300 familias.

Esta concentración de las unidades de muestreo reduce considerablemente el tiempo y dinero


estimados para el llenado del cuestionario, por lo que se aconseja cuando el entrevistador tenga que
cubrir una gran área como en el caso del muestreo en áreas rurales. Sin embargo con este se
pierde cierta representatividad de la muestra de las características del universo.

Esta pérdida se deriva de la tendencia que tienen por vivir como vecinos las personas con iguales
características, actitudes o aún hábitos de consumo. Así, una persona de altos ingresos es más
probable que este al lado de otra de igual nivel; y no de una de bajos ingresos, lo que ocasiona que
las unidades de muestreo en lugar de ser independientes estén correlacionadas. Mientras más alta
sea la correlación positiva, menor será la eficiencia de la muestra obtenida con el método por
racimos en la representación de las características del universo; en consecuencia, la ineficiencia
resulta de la reducción en la precisión de los estimadores muestrales, dado que representarán sólo a
una parte del universo.

VI.3.4 Muestreo replicado

Hasta el momento, se han ilustrado métodos que requieren la selección de una sola muestra de la
población. Un procedimiento alternativo es dividir la muestra en un número igual de sub-muestras y
seleccionar cada una de las sub-muestras de la población como si cada una de ellas fuera la única
muestra a seleccionar.

286
La muestra total, consiste en un número de sub-muestras replicadas, cada una de ellas tratando de
proporcionar en su área de influencia una imagen completa del universo. Si se desean entrevistar
10 000
400 personas en un área de 10,000 personas, cada: 25 ( 400
= 25) sería entrevistado comenzando
con un número aleatorio entre 01 y 25.

Si se decide seleccionar 5 en lugar de una muestra cuyo tamaño total sea de 400 personas, cada una
de las cinco sub-muestras deberá contener 80 unidades de muestreo. Para ello se puede dividir a la
10 000
población en 125, ( 80
= 125). Son así iguales cada una conteniendo 80 unidades de muestreo;
luego se seleccionan 5 números aleatorios entre 01 y 125 que se consideran, cada uno como punto
de arranque o primer unidad de muestreo que faltan en cada sub-muestra, se seleccionan
progresivamente cada 125 familias. El resultado, son 5 sub-muestras replicadas o interpenetrantes
con 80 unidades cada una, que agregadas suman una muestra con 400 unidades de muestreo.

VI.4 Definiciones básicas


( Sánchez et al ,1974)

Error de muestreo:

Sea 𝜇 el valor de un parámetro de la población que se estudia mediante el muestreo, y 𝑥̅ una


función definida mediante la muestra, que estima el valor de 𝜇.

Error de muestreo = |𝜇 − 𝑥̅ | que debe ser menor o igual al máximo error de variación permitido
𝜀|𝜇|; es decir 𝜀|𝜇| ≥ |𝜇 − 𝑥̅ |.

VI.4.1 Límites de confianza

Cuando no se conocen los parámetros (𝜇 𝑦 𝜎) de la población se pueden estimar recurriendo a


muestras que permiten calcular intervalos entorno a 𝑥̅ dentro de los cuales puede estar contenido el
valor del parámetro 𝜇𝑥 . Estos intervalos se llaman intervalos de confianza y sus extremos se llaman
límites de confianza.

El grado de confianza de que el parámetro está contenido en el intervalo se determina por el


número de errores estándar a los cuales les corresponde un área bajo la curva que se denomina
"coeficiente de confianza" (𝛽). Al riesgo de que el valor estimado de  no se encuentre dentro
del intervalo de confianza construido alrededor de la media de la muestra, se le llama “nivel de
significación” (𝛼) y es el área o probabilidad complementaria del coeficiente de confianza.

De esta manera el intervalo de confianza se determina con:

𝑙í𝑚𝑖𝑡𝑒𝑠 𝑑𝑒 𝑐𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎 = 𝑥̅ ± 𝑍𝛼 𝜎𝑥̅ … … … (1)


Donde:
𝑥̅ = 𝑀𝑒𝑑𝑖𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙;
𝑍 = 𝑉𝑎𝑙𝑜𝑟 𝑒𝑠𝑝𝑒𝑐í𝑓𝑖𝑐𝑜 𝑑𝑒 𝑍 𝑒𝑛 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎 𝑑𝑒 𝑙𝑎 𝑛𝑜𝑟𝑚𝑎𝑙 , 𝑎𝑠𝑜𝑐𝑖𝑎𝑑𝑜 𝑐𝑜𝑛 𝑑𝑒𝑡𝑒𝑟𝑚𝑖𝑛𝑎𝑑𝑜 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝛼 𝑦 𝜀;

287
𝜎
𝜎𝑥̅ = = 𝐸𝑟𝑟𝑜𝑟 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 𝑝𝑎𝑟𝑎 𝑢𝑛𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 𝑖𝑛𝑓𝑖𝑛𝑖𝑡𝑎;
√𝑛
𝑛 = 𝑇𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎;
𝜎 = 𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛.

VI.4.2 Distribuciones de medias y proporciones muestrales

De muestras (de medias y de proporciones)

Por analogía, la distribución de muestreo que se deriva del universo, con determinado tamaño de
𝜎2
muestra 𝑛 y 𝜎𝑥̅ , tendrá 𝜇𝑥̅ = 𝐸(𝑥̅ ) y una varianza (𝑥̅ ) = para una población infinita y varianza
𝑛
𝜎2𝑁−𝑛
(𝑥̅ ) =
𝑛 𝑁−1
para una población finita donde 𝜎 2 = 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑒𝑙 𝑢𝑛𝑖𝑣𝑒𝑟𝑜. La varianza de 𝑥̅ se
representa con 𝜎𝑥̅2 , cuya raíz cuadrada 𝜎𝑥̅ se denomina error estándar de estimación para distinguirla
de 𝜎 = 𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 𝑑𝑒𝑙 𝑢𝑛𝑖𝑣𝑒𝑟𝑠𝑜 o raíz cuadrada de 𝜎 2 . Luego en una distribución de
𝜎
muestreo 𝜇𝑥̅ = 𝐸(𝑥̅ ) y 𝜎𝑥̅ = 𝑛.

Ejemplo: Supóngase la población 𝑁 = 3 con los términos 𝑥𝑖 = 1, 2 𝑦 3, (Yamane: 1974)

∑ 𝑥𝑖 1+2+3
Su 𝜇 = 𝑁
= 3
=2
∑(𝑥𝑖 −𝜇)2 (1−2)2 +(2−2)2 +(3−2)2 2
Su 𝜎 = √ =√ = √ = 0.81
𝑁 3 3
Cuyos valores son fijos

𝑁 𝑁!
Si se toman muestras de tamaño 2, esto es 𝑛 = 2 de 𝑁 = 3 sin reemplazo, habrá ( ) = (𝑁−𝑛)!𝑛! =
𝑛
3∗2∗1 3∗2∗1 6
(3−2)!2!
= 1!(2∗1) = 2 = 3

Interpretación: Hay 3 muestras de tamaño 2, cuya composición de cada una es: 1, 2; 1, 3; 3, 2.

Estandarizando la nueva variable aleatoria 𝑋̅, se tiene:

Tabla VI.2
Estandarización de la variable aleatoria 𝑋̅
𝑍𝑖
No. de Composición de la 𝑋̅𝑖 − 𝜇 Área bajo la
𝑋̅𝑖 𝑋̅𝑖 − 𝜇 Ordenada 𝑌𝑖
muestra muestra = curva
𝜎𝑥̅
1 1, 2 1.5 -0.5 -1.25 0.18265 0.394
2 1, 3 2 0 0 0.39894 0
3 2,3 2.5 0.5 1.25 0.18265 0.394
Fuente: Investigación directa con datos hipotéticos.

𝜎 𝑁 − 𝑛 0.81 3 − 2 0.81 1
𝜎𝑥̅ = √ = √ = √
√𝑛 𝑁 − 1 √2 3 − 1 1.41 2
288
𝜎𝑥̅ = (0.57)(0.70) = 0.40

Que sirve para graficar los valores estandarizados de las tres 𝑋̅: 1.5, 2.0 𝑦 2.5, obteniendo:

Gráfica VI.1
Valores estandarizados de 𝑋̅

1.25 1.25

Fuente: Datos de la tabla VI.5

Observe que aun cuando 𝑁 = 3, es demasiado pequeña, esta distribución tiende a la normal por el
teorema del límite central. Donde:

𝑋̅𝑖 = 𝑉𝑎𝑙𝑜𝑟𝑒𝑠 𝑜𝑟𝑖𝑔𝑖𝑛𝑎𝑙𝑒𝑠


𝑍𝑖 = 𝑉𝑎𝑙𝑜𝑟𝑒𝑠 𝑜𝑟𝑖𝑔𝑖𝑛𝑎𝑙𝑒𝑠 𝑒𝑥𝑝𝑟𝑒𝑠𝑎𝑑𝑜𝑠 𝑒𝑛 𝑢𝑛𝑖𝑑𝑎𝑑𝑒𝑠 𝑑𝑒 𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟
𝜇 = 𝑀𝑒𝑑𝑖𝑎 𝑑𝑒𝑙 𝑢𝑛𝑖𝑣𝑒𝑟𝑠𝑜
𝐸(𝑋̅) = 𝐸𝑠𝑝𝑒𝑟𝑎𝑛𝑧𝑎 𝑚𝑎𝑡𝑒𝑚á𝑡𝑖𝑐𝑎 𝑑𝑒 𝑙𝑎𝑠 𝑋̅

Luego usando la distribución de muestreo se ve que hay tres medias muéstrales (1.5, 2.0 y 2.5)
llamadas "ESTADÍSTICAS", que cada una de ellas puede estimar el valor verdadero del parámetro
𝜇𝑥 que generalmente se desconoce su valor en la vida real, el cual puede diferir de 𝑋̅𝑖 en el rango
|𝜇𝑥 − 𝑋̅| = 𝐸𝑟𝑟𝑜𝑟 𝑑𝑒 𝑚𝑢𝑒𝑠𝑡𝑟𝑒𝑜, con cierto grado de confianza o probabilidad.

El error de muestreo ( Ferber et al, 1964) o precisión en la estimación se mide y se calcula con las
fórmulas del error estándar (en términos de probabilidad) de la media o de la proporción según sea
el caso, de estadística de variables o de atributos.

Ejemplo: Suponga que desea estimar el valor de 𝜇𝑥 , para ello se selecciona aleatoriamente la
muestra A, que está compuesta por las unidades de muestreo 1 y 2 y por consiguiente tiene una
media aritmética (𝑥̅ ) = 1.5 y una desviación estándar de (𝑠) = 0.5.

289
Tabla VI.3
Calculo del error de muestreo o precisión en la estimación
Media de la
Muestra Composición Deviación estándar de la muestra (𝑠)
muestra (𝑥̅ )
(1 − 1.5)2 + (2 − 1.5)2 0.5
√ =√
A 1, 2 1.5 2 2
= 0.5
(1 − 2)2 + (3 − 2)2 2
B 1, 3 2 √ =√ =1
2 2

(2 − 2.5)2 + (3 − 2.5)2 0.5


√ =√
C 2, 3 2.5 2 2
= 0.5
Fuente: Investigación directa con datos hipotéticos.

Con estos datos se calcula el error estándar ( error de muestreo), en la muestra A. Lo mismo se
puede hacer en las muestras B y C, según la que se haya elegido.

Como se observa, la media (𝑥̅ ) y desviación estándar (𝑠) de las muestras difieren según la muestra
elegida, pero:
6 ∑ 𝑋̅𝑖
𝐸(𝑋̅𝑖 ) = = 2 = 𝜇𝑥 = 𝜇𝑥̅ =
3 𝑁

Generalizando : Se pueden crear distintas distribuciones a partir del cálculo de la muestra sin o con
reemplazo. Como ya se ilustró la primera anteriormente, ahora se presenta, cuando la selección es
con reemplazo ( Hayashi et al, 1974).

Así, cuando la selección es con reemplazo se usa la fórmula 𝑁 𝑛 = 32 = 9. Interpretación: hay 9


muestras de tamaño 2, cuya composición es:

Tabla VI.4
Selección de la muestra con reemplazo
Muestra Composición Media de la muestra 𝑥̅𝑖 𝑃(𝑥̅𝑖 )
A 1,1 1 1/9
B 1,2 1.5 1/9
C 1,3 2 1/9
D 2,1 1.5 1/9
E 2,2 2 1/9
F 2,3 2.5 1/9
G 3,1 2 1/9
H 3,2 2.5 1/9
I 3,3 3 1/9
TOTAL 18 9/9
Fuente: Investigación directa con datos hipotéticos.

290
∑ 𝑥̅𝑖 18
𝜇𝑥 = = = 2 = 𝐸(𝑥̅ )
𝑁 9

1 1.5 2.5 3 18
𝜇𝑥̅ = + + ⋯+ + = =2
9 9 9 9 9

Las distribuciones de muestras más importantes son:

a) De medias y de proporciones; ambas se obtienen con: Teorema de Límite Central y la Ley de los
Grandes Números.

Por otra parte es recomendable para ejemplificar en términos prácticos utilizar una población
pequeña, con lo cual se reducirá el número del tamaño de las diferentes muestras. Con este objeto se
ejemplificaría con el teorema del límite central para demostrar que la media de todas las muestras
es igual a la media de la media poblacional.

Teorema de Límite Central

Con este objeto, se usa el Teorema del Límite Central para demostrar que se puede utilizar la media
de la muestra para representar la media de la población.

Su aplicación da sustento a la teoría de la estimación, es decir, a la inferencia estadística porque con


él se puede inferir, a partir de la media muestral el valor y comportamiento de la media poblacional.
En general, a partir de los resultados de la muestra, las características de los datos del universo
estadístico. Ello es así porque es común usar la distribución de probabilidad normal como una
aproximación a la distribución de muestras (sean sus “estadísticas” medias o proporciones) cuando
el tamaño de la muestra es mayor de 30 datos, en virtud de que la distribución de probabilidad
normal hace factible estimar valores poblacionales a partir de valores muestrales.

El teorema del Límite Central establece que si una población es normal, con media y desviación
estándar, 𝜇𝑥 y 𝜎𝑥 , entonces si se toman muestras de tamaño 𝑛 y a éstas se les calculan sus medias
aritméticas, la nueva distribución constituida por las medias de las muestras, es una distribución
muestral, normal con:
𝜎𝑥
μ = 𝜇𝑥̅ = 𝐸(𝑥̅ ) y 𝜎𝑥̅ = para una población infinita.
√𝑛

Ley de los Grandes Números

La ley de los Grandes Números establece que si una población tiene 𝜇𝑥 y 𝜎𝑥 independientemente de
que sea o no normal; si el tamaño de la muestra, 𝑛, crece, entonces la distribución que resulta de las
medias muestrales se aproximan a la normal con 𝐸(𝑥̅ ), 𝜇𝑥̅ y 𝜎𝑥̅ .

Para demostrar lo anterior y trabajando con los datos conocidos:

291
Tabla VI.5
Medias muestrales y su probabilidad
(𝑥̅ ) 1.5 2 2.5
𝑃(𝑥̅ ) 1/3 1/3 1/3
Fuente: Investigación directa con datos hipotéticos.

1.5 2 2.5 6
𝐸(𝑥̅ ) = + + = = 2 = 𝜇𝑥̅ = 𝜇𝑥
3 3 3 3

(1.5 − 2)2 + (2 − 2)2 + (2.5 − 2)2 0.50


𝜎𝑥̅ = √ =√ = 0.40
3 3

𝜎𝑥
También 𝜎𝑥̅ se obtiene con 𝜎𝑥̅ = cuando 𝑛 es muy grande
√𝑛

𝜎𝑥 𝑁 − 𝑛 0.81 3 − 2 0.81 1
𝜎𝑥̅ = √ = √ = √
√𝑛 𝑁 − 1 √2 3 − 1 1.41 2

𝜎𝑥̅ = (0.57)(0.70) = 0.40

Si se grafican estas tres medias muestrales sin estandarizarse se obtiene la figura de la siguiente
Gráfica VI.2, que no es una curva normal, pero como antes se vio, al hacerlo se obtiene una curva
normal: Gráfica VI.1.

Gráfica VI.2
Distribución de muestreo con valores originales, sin estandarización de 𝑥̅𝑖
0.66
P(x ̅)

0.33

0.00 𝑥 ̅i
1.5 2 2.5

Fuente: Investigación directa con datos de la tabla VI.8

Por otra parte, si se desea calcular el intervalo de confianza dentro del cual se halle el valor de 𝜇𝑥 ,
para calcularlo el investigador determina el nivel de confianza (𝛽). El nivel de confianza, en otras
palabras, lo determina el error estándar en términos de probabilidad, que a su vez determina el
error de muestreo.

Así, para la primera muestra se sabe que 𝑛 = 2; 𝑥̅ = 1.5; 𝑠 = 0.5 con 𝛽 = 95% de probabilidad
(área bajo la curva) de que 𝜇𝑥 se halle en el intervalo 𝑥̅ ± 𝑍𝛼 𝜎𝑥̅ ; donde
𝛼 = 5% = 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑑𝑒 𝑞𝑢𝑒 𝑛𝑜 𝑠𝑒𝑎 𝑎𝑠í, se denomina nivel de significación.

292
Derivado de lo anterior se dice que a un 𝛽 = 95% le corresponden 1.96 errores estándar=
1.96 𝜎𝑥̅ = 𝑍𝛼 𝜎𝑥̅ .

𝑠 0.5 0.5
Así 𝑋̅ ± 𝑍𝛼 𝜎𝑥̅ y como 𝜎𝑥̅ = = = 1.41 = 0.35. Por lo tanto 1.5 ± 1.96(0.35) = 1.5 ± 0.70
√𝑛 √2

Luego el límite inferior del intervalo es 0.80 = 1.50 − 0.70 y el límite superior del intervalo es
2.20 = 1.50 + 0.70.

Interpretación: Hay una probabilidad del 95% que el valor 𝜇𝑥 se halle en el intervalo de 0.80 a 2.20.

Generalizando, si la muestra seleccionada hubiera sido la B o la C, se tendría:

Tabla VI.6
Intervalos para las muestras B y C
B C
𝑥̅ = 2; 𝑠 = 1; 𝑛 = 2 𝑥̅ = 2.5; 𝑠 = 0.5; 𝑛 = 2
𝑠 1 𝑠 0.5
𝜎𝑥̅ = = = 0.70 𝜎𝑥̅ = = = 0.35
√𝑛 √2 √𝑛 √2
𝑥̅ ± 𝑍𝛼 𝜎𝑥̅ 𝑥̅ ± 𝑍𝛼 𝜎𝑥̅
2 ± 1.96(0.70) 2.5 ± 1.96(0.35)
2 ± 1.37 2.5 ± 0.69
Intervalo: de 0.63 a 3.37 Intervalo: de 1.81 a 3.19
Fuente: Investigación directa con datos hipotéticos.

Conclusión: En los tres casos el valor de 𝜇𝑥 = 2se halla contenido con una confianza del 95% y
con un riesgo de  = 5% de que no sea así, en los intervalos antes calculados.

Gráficamente:

Gráfica VI.3
Intervalos de confianza para las muestras A, B y C

A: 0.80 = 1.5-0.70 1.5 2.20 = 1.5+0.70


B: 0.63 = 2-1.37 2.0 3.35 = 2+1.37
C: 1.80 = 2.5-0.70 2.5 3.25 = 2.5+0.70

Fuente: Investigación directa con datos hipotéticos.

293
Si se conectan estos resultados con la definición básica de que el error de muestreo |𝜇𝑥 − 𝑥̅ | se
determina con el error estándar de la media, en términos de probabilidad, 𝜎𝑥̅ , y con la situación
ideal de que siempre se espera que el error de muestreo sea igual o menor al error permitido
(𝜀|𝜇𝑥 |), observe que:

1. Con la muestra 1: 𝜀|𝜇𝑥 | ≥ |𝜇𝑥 − 𝑥̅ | ya que 𝜀 = 0.70 ≥ |2 − 1.5|


2. Con la muestra 2: 𝜀 = 1.37 ≥ |2 − 2|
3. Con la muestra 3: 𝜀 = 0.70 ≥ |2.5 − 2|

En los tres casos es satisfactorio ver que el error de muestreo es inferior al error permitido.

Otro ejemplo: ahora suponga que 𝛽 = 50%; 𝑍𝛼 = 0.68 y 𝛼 = 50%.

Tabla VI.7
Resumen de la muestra A, B y C con 𝛽 = 50%; 𝑍𝛼 = 0.68 y 𝛼 = 50%
Error permitido Limites Contiene a
Muestra 𝑥̅ 𝑠 𝜎𝑥̅ 𝑍𝛼
𝑍𝛼 𝜎𝑥̅ Inferior Superior 𝜇𝑥
A 1.5 0.5 0.35 0.68 0.238 1.262 1.738 No
B 2 1 0.7 0.68 0.476 1.524 2.476 Si
C 2.5 0.5 0.35 0.68 0.238 2.262 2.738 No
Fuente: Investigación directa con datos hipotéticos

La muestra A y C no contienen a 𝜇𝑥 porque el nivel de confianza 𝛽 disminuyó; es decir, se reduce


el área de aceptación y aumenta la de rechazo. Hay menos área sobre la curva que ocasiona una 𝑍𝛼
muy baja que al ser combinada en 𝑍𝛼 𝜎𝑥̅ originan un intervalo más pequeño en torno a 𝑥̅ , en la
fórmula 𝑥̅ ± 𝑍𝛼 𝜎𝑥̅ , con lo que aumentan la probabilidad 𝛼, de que 𝑥̅ no represente a 𝜇𝑥 . Estos
resultados se corroboran con el siguiente análisis:

Con la muestra 1: 𝜀 = 0.238 ≤ |1.5 − 2|, por eso el intervalo de confianza no contiene a la media
poblacional.

Con la muestra 2: 𝜀 = 0.476 ≥ |2 − 2|, por eso contiene a la media poblacional y con la muestra 3:
𝜀 = 0.238 < |2.5 − 2|, por eso no contiene a la media poblacional.

VI.4.3 Error máximo permitido y error de muestreo.

De lo anterior se puede decir que 𝜀 = 𝑒𝑟𝑟𝑜𝑟 𝑝𝑒𝑟𝑚𝑖𝑡𝑖𝑑𝑜 = 𝑍𝛼 𝜎𝑥̅ .

Se dice que es el error máximo permitido; 𝛼 y 𝑛 condicionan los valores de 𝑍𝛼 y de 𝜎𝑥̅ .

𝑥̅ −𝜇𝑥̅ 𝜎𝑥 𝑥̅ −𝜇𝑥̅
Así, como: 𝜀 = 𝑍𝛼 𝜎𝑥̅ = 𝜎𝑥̅
∗ = 𝜎𝑥̅ = |𝑥̅ − 𝜇𝑥 |
√𝑛 𝜎𝑥̅

𝜀 = |𝑥̅ − 𝜇𝑥 | = 𝑒𝑟𝑟𝑜𝑟 𝑑𝑒 𝑚𝑢𝑒𝑠𝑡𝑟𝑒𝑜; también: 𝜀|𝜇𝑥 | = 𝑒𝑟𝑟𝑜𝑟 𝑚á𝑥𝑖𝑚𝑜 𝑝𝑒𝑟𝑚𝑖𝑡𝑖𝑑𝑜.

294
Idealmente siempre se quiere que 𝜀|𝜇𝑥 | ≥ |𝑥̅ − 𝜇𝑥 |. Observe que ambos requieren del error
estándar (𝜎𝑥̅ ) para su cálculo.

Por otra parte mostrando los valores de mayor uso de 𝑍𝛼 , 𝛽 y 𝛼, de la ecuación (1) se tiene:

Tabla VI.8
Valores de mayor uso de 𝑍𝛼 , 𝛽 y 𝛼 de la ecuación (1)
𝒁𝜶 1 1.96 2 3
𝜷 0.68 0.95 0.955 0.997
𝜶 0.32 0.05 0.045 0.003
Fuente: Investigación directa.

Los cuales se usarán con mucha frecuencia.

Ejemplo 1: Se desea conocer el ingreso medio de los trabajadores de una empresa refresquera con
el fin de estudiar las condiciones de trabajo y en su caso pedir mejorías en la revisión del Contrato
Colectivo de Trabajo. Para ello se selecciona una muestra aleatoria de 49 trabajadores cuyo ingreso
medio mensual es de $5500.

Estudios previos realizados revelan que la 𝜎 del universo es de $700 cada mes. Con 𝛼 = 5%,
determinar el intervalo de confianza dentro del cual se halla el ingreso medio de los trabajadores,
con una prueba de dos colas o extremos.

𝑛 = 49
𝜎 = 700/𝑚𝑒𝑠
𝑥̅ = 5500/𝑚𝑒𝑠
𝑍𝛼 = ±1.96
𝛼 = 5%

Sustituyendo y haciendo cálculos:

𝑥̅ ± 𝑍𝛼 𝜎𝑥̅
5500 ± 1.96(100)
5500 ± 196
𝜎𝑥 700
𝑑𝑜𝑛𝑑𝑒: 𝜎𝑥̅ = = = 100
√𝑛 √49

Límites de confianza = 5500 ± 196


Intervalo de confianza: 5304 a 5696
Donde el límite inferior = 5304
El límite superior = 5696

Interpretación: El ingreso medio 𝜇𝑥 de los trabajadores de la empresa refresquera se halla entre los
$5304 y $ 5696 con un nivel de confianza de 95%.

295
Gráfica V1.4
Intervalo de confianza del ingreso medio de los trabajadores

Fuente: Investigación directa con datos hipotéticos

En este caso se estima 𝜇𝑥 con la variable aleatoria asociada mediante 𝑥̅ proveniente de 𝑛 = 49 con
𝛼 = 5%y un 𝛽 = 95% que les corresponde una 𝑍𝛼 = 1.96 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖𝑜𝑛𝑒𝑠 y
𝜎𝑥̅ = 100, tal que:

𝑃(𝑥̅ − 𝑍𝛼 𝜎𝑥̅ ≤ 𝜇𝑥 ≤ 𝑥̅ + 𝑍𝛼 𝜎𝑥̅ ) = 1 − 𝛼 = 95%

Ello significa que el error en la estimación del valor de 𝜇𝑥 en valores absolutos es:

|error en la estimación de 𝜇𝑥 | = 𝑍𝑥 𝜎𝑥̅ , por lo que

Error máximo permitido=error en la estimación de 𝜀|𝜇𝑥 |

Derivado de lo anterior se puede escribir 𝜀 = 𝑍𝛼 𝜎𝑥̅ .

Gráficamente dichas relaciones se ven así:

Gráfica VI.5
Error en la estimación del valor de 𝜇𝑥

Fuente: Investigación directa

𝜎 𝜎 𝑁−𝑛
Donde 𝜎𝑥̅ = para una población infinita; y 𝜎𝑥̅ = √ para una población finita.
√𝑛 √𝑛 𝑁−1

296
VI.5 Determinación probabilística del tamaño de la muestra (𝒏)

Para que sus resultados sean representativos estadísticamente y se conozca a priori el “error de
muestreo” es necesario determinar a juicio o con conocimiento de causa: 1) el error permitido (𝜀)
cuyo valor es la diferencia máxima que el investigador acepta que exista entre el estimador
muestral (la media aritmética de la muestra y el parámetro poblacional correspondiente, la media
de la población: 𝜇 y 2) el nivel de confianza (𝛽) o probabilidad con que se asegura lo anterior, tal
que 𝛽 = 1 − 𝛼, donde 𝛼 es la probabilidad de que no se cumpla lo esperado (diferencia máxima
entre el valor muestral y el poblacional); por ejemplo si se conocen los valores de las siguientes
literales, el tamaño de la muestra (𝑛) se puede determinar así:
𝜎2
𝑛=
𝛼 ∗ 𝜀2

Ejemplo : Si se conoce 𝜎 2 = 12 y se desea que 𝜀 = 3, es decir que la media aritmética de la


muestra no se aleje en más de 3 puntos como máximo de 𝜇, con una 𝛽 = 95%, entonces 𝛼 = 5% se
12
tendrá que 𝑛 = 0.05∗(3)2 = 27.

En general, como no siempre se dispone de información estadística suficiente, a continuación, a


manera de sugerencias para situaciones en que no se disponga de medias ni de desviaciones
estándar muestrales, etc, como tampoco de tiempo ni de recursos suficientes, se recomienda la
obtención del tamaño de la muestra con las siguientes fórmulas:

𝑁
1. Hay ocasiones en que se conoce 𝑁, en ese caso 𝑛 =
𝑁𝜀 2 +1

Ejemplo: Con 𝑁 = 603 y 𝜀 = 5% se tiene:

603 603
𝑛= 2
= = 240.47
(603)(0.05) + 1 2.5075

1
2. Cuando no se conoce nada 𝑛 = . Si 𝜀 = 5% , entonces:
𝜀2

1 1
𝑛= = = 400
(0.05)2 0.0025

3. Trabajando con proporciones o atributos se dirá que en el muestreo simple aleatorio: cada
elemento tiene la misma probabilidad de ser seleccionado y, por ejemplo con 𝑛 = 300,
𝛼 = 5%, 𝛽 = 95% y 𝑍𝛼 = 1.96, el error permitido (𝜀) o margen de error permitido para
𝑝 = 0.5 = 𝑞, será igual a:

𝑝𝑞 (0.5)(0.5)
𝜀=√ ∗ 𝑍𝛼 = √ ∗ 1.96
𝑛 300

297
𝜀 = 𝜎𝑝 ∗ 𝑍𝛼 = 5%

VI.5.1 Evaluación del tamaño de la muestra

𝑍2 𝜎 2
Shao ( 1975) señala que partiendo de 𝑙𝑎 𝑓ó𝑟𝑚𝑢𝑙𝑎 𝑛 = 𝜀2
donde 𝜀: es el error máximo permitido,
que lo determina el investigador,comenta por ejemplo que él puede especificar que si la media
obtenida de la muestra es $6 mayor o menor que la media verdadera (poblacional), considerará que
el estimador 𝑥̅ obtenido mediante la muestra es satisfactorio. Por lo tanto 𝜀 = $6, y el intervalo de
confianza es 𝑥̅ ± $6.

𝑍𝛼 se establece mediante el nivel de confianza del intervalo; por ejemplo si el investigador desea
que el resultado de la estimación sea 𝛽 = 99.73% prácticamente seguro, 𝛽 = 99.73%, de que la
media estimada de la población con base en la muestra esté dentro del recorrido de la verdadera
media de la población ±$6ó 𝜇𝑥 ± $6, el valor de 𝑍𝛼 es 3.

Así, una vez que se tiene el tamaño de la muestra, el resultado de la muestra debe ser evaluado. Esto
puede ser hecho encontrando el Error estándar de estimación de la media (𝑠𝑥̅ ,) de acuerdo con la
desviación estándar de la muestra 𝑠̂ .

Shao comenta que si el producto de 𝑍𝛼 y 𝑠𝑥̅ es menor que el error máximo permitido, la estimación
de la muestra es considerada satisfactoria. Si el producto es mayor, el tamaño de la muestra
deberá ser revisado e incrementado.

Ejemplo: El Gerente de una estación de servicio desea conocer el promedio de ventas, para ello
muestrea las notas de venta a fin de encontrar la cantidad promedio por venta durante un período
dado.

Para ello indica que: 1) el máximo error muestral (permitido) no deberá ser mayor que $0.20 por
arriba o por abajo de la verdadera media; 2) el nivel de confianza deberá ser 𝛽 = 99.73%; y 3) la
desviación estándar de la población basada en su experiencia, es estimada en 80%. Encontrar el
tamaño de la muestra adecuada con estas especificaciones.

Solución

1. El intervalo de confianza es 𝜇𝑥 ± $0.20luego 𝜀 = $0.20.


2. Para 𝛽 = 99.73% se tiene 𝑍𝛼 = 3.
𝑍𝛼 𝜎𝑥 2 (3)(0.80) 2
3. 𝑛 = [ 𝜀
] =[ 0.20
] = 144 tamaño de la muestra.

Ahora suponga que trabajando con esa muestra seleccionada aleatoriamente se aplica y se encuentra
lo siguiente:
𝑥̅ = $2.70
𝑠̂ = $0.72

298
𝑠̂ 0.72
Luego 𝑠𝑥̅ = = = $0.06
√𝑛 √144

Se construye el intervalo de confianza:

𝑥̅ ± 𝑍𝛼 𝑠𝑥̅ = 2.70 ± 0.18 = 2.52 𝑎 2.88

Puesto que 𝑍𝛼 𝑠𝑥̅ = 0.18 = error de muestro es menor que el error permitido 𝜀 = 0.20, se acepta
el tamaño de la muestra.

Sin embargo ahora supóngase que con; 𝑛 = 144 y 𝑠̂ = $0.84, entonces:

𝑠̂ 0.84
𝑠𝑥̅ = = = 0.07
√𝑛 √144

Luego:

𝑥̅ ± 𝑍𝛼 𝑠𝑥̅ = 2.70 ± (3)(0.07) = 2.70 ± 0.21

Como el error de muestreo calculado (0.21) es mayor que el error permitido 𝜀 = 0.20, el tamaño de
la muestra se revisa como sigue, partiendo de una población infinita:

2
𝑍𝛼 𝜎𝑥 2 (3)(0.84)
𝑛=[ ] =[ ] = 158.76 = 159
𝜀 0.20

Por lo tanto el tamaño de la muestra aumenta a 159.

Ahora bien; con 𝑠𝑥 = 0.80. ¿Cuál es el tamaño de la muestra si 𝛽 = 95.45% y 𝑍𝛼 = 2?

2
𝑍𝛼 𝜎𝑥 2 (2)(0.80)
𝑛=[ ] =[ ] = 64
𝜀 0.20

Se observa que al ser menor la variación ( 0.80) se requiere una muestra menor . De este ejemplo
numérico se deduce que el tamaño de la muestra depende significativamente de los valores que
tome 𝜀, 𝑍𝛼 y 𝜎𝑥 . En poblaciones finitas, 𝑁, es determinante.

Una vez establecidas e ilustrada la aplicación de las "definiciones básicas" a continuación se


empieza a aplicarlas en temas fundamentales que constituye la Estadística inductiva.

Aun cuando la exposición y composición de estos temas no es fácil, se espera que el esfuerzo
didáctico que adopte le permita al lector su fácil entendimiento y manejo continuo en la solución de
problemas de su empresa, principalmente, en las áreas de ventas, compras, producción,
organización y finanzas.

299
VI.6 Precisión alcanzada en la estimación lograda con diferentes métodos de muestreo

Como se indicó, la confiabilidad en las estimaciones se mide por medio de los errores de muestreo,
es decir, sirven para determinar la precisión que se logra usando un determinado método de
muestreo para estimar con sus valores los parámetros de la población. Los errores de muestreo se
determinan con las fórmulas de los errores estándar, en términos de probabilidad, es decir: 𝑍𝛼 𝜎𝑥 .
Con ese propósito a continuación se ilustra el uso de las fórmulas del error estándar de los
principales diseños muestrales para determinar la precisión que se alcanza en la estimación de los
parámetros poblacionales usando los estadísticos muestrales. (Ferber et al, 1964). Las fórmulas de
algunas de ellos, son:

En el muestreo simple aleatorio

𝜎 𝑁−𝑛 𝑁−𝑛
𝜎𝑥̅ = √ ; Con proporciones: 𝜎𝑝 = √𝑝 ∗ 𝑞 𝑁∗𝑛
√𝑛 𝑁∗𝑛

Muestreo estratificado

𝑁 −𝑛 𝑁 −𝑛
𝜎𝑥̅ = √∑𝑘𝑖=1 𝑤𝑖2 𝑠𝑖2 𝑁𝑖 ∗𝑛 𝑖 ; Con proporciones: 𝜎𝑝 = √∑𝑘𝑖=1 𝑤𝑖2 𝑝𝑞 𝑁𝑖 ∗𝑛 𝑖
𝑖 𝑖 𝑖 𝑖

𝑠𝑖2 = 𝑝𝑞

Donde:

𝑖 = 𝐸𝑠𝑡𝑟𝑎𝑡𝑜𝑠: 1, 2, 3, 4, 5, … , 𝑘
𝑁𝑖
𝑤𝑖 = 𝑃𝑟𝑜𝑝𝑜𝑟𝑐𝑖ó𝑛 𝑑𝑒𝑙 𝑒𝑠𝑡𝑟𝑎𝑡𝑜 𝑖 𝑒𝑛 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 =
∑ 𝑁𝑖
𝑛𝑖
𝑃𝑖 =
𝑛
𝑛 = 𝑇𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎
𝑛𝑖 = 𝑀𝑢𝑒𝑠𝑡𝑟𝑎 𝑒𝑛 𝑒𝑙 𝑒𝑠𝑡𝑟𝑎𝑡𝑜 𝑖 − é𝑠𝑖𝑚𝑜
𝑁𝑖 = 𝐸𝑠𝑡𝑟𝑎𝑡𝑜 𝑖 − é𝑠𝑖𝑚𝑜

Muestreo replicado

𝑥̅𝑚á𝑥 − 𝑥̅𝑚í𝑛 𝑘(𝑍 − 𝑘)


𝜎𝑥̅ = | |√
𝑘 𝑍(𝑘 − 1)

Donde:

𝑥̅𝑚á𝑥 = 𝑀𝑒𝑑𝑖𝑎 𝑚𝑎𝑦𝑜𝑟 𝑒𝑛 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑟𝑒𝑝𝑙𝑖𝑐𝑎𝑑𝑎


𝑥̅𝑚í𝑛 = 𝑀𝑒𝑑𝑖𝑎 𝑚𝑒𝑛𝑜𝑟 𝑒𝑛 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑟𝑒𝑝𝑙𝑖𝑐𝑎𝑑𝑎
300
𝑍 = 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑧𝑜𝑛𝑎𝑠 𝑟𝑒𝑔𝑖𝑠𝑡𝑟𝑎𝑑𝑎𝑠
𝑘 = 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑟𝑒𝑝𝑙𝑖𝑐𝑎𝑐𝑖𝑜𝑛𝑒𝑠

Ejemplos aplicando los fórmulas del error estándar en la determinación de la precisión en la


̅, en este caso; en estadística de atributos: de 𝝅 con 𝒑.
estimación de 𝝁𝒙 con 𝒙

Se desea estimar con un 95 % de confianza, la proporción verdadera de familias que tienen


encendida su T.V. entre las 19:00 y 22:00 horas. En otras palabras, se busca el intervalo alrededor
de la proporción muestral (Ferbet et al, 1964).

Con 𝑁 = 10 000 𝑓𝑎𝑚𝑖𝑙𝑖𝑎𝑠


Con 𝑛 = 400 𝑓𝑎𝑚𝑖𝑙𝑖𝑎𝑠 𝑐𝑜𝑛 𝑡𝑒𝑙𝑒𝑣𝑖𝑠𝑖ó𝑛

VI.6.1 Muestreo simple aleatorio

Se selecciona una muestra aleatoria y se encuentra que 280 de los 400 televisores están encendidos
una o más veces en el tiempo señalado, luego el porcentaje muestral es igual a:

𝑛𝑖 280
= 70% =
𝑛 400

𝑁−𝑛 10 000 − 400


𝜎𝑝 = √𝑝 ∗ 𝑞 = √(0.70)(0.30) = 2.3%
𝑁∗𝑛 10 000 ∗ 400

Por motivos prácticos se dice que en una muestra grande, dos errores estándar proporcionan el
intervalo de confianza del 95 %, para la proporción verdadera de T.V encendidas entre las 19:00 y
22:00 horas; la estimación del intervalo será:

70% ± (2)(2.3) ó 𝑒𝑛𝑡𝑟𝑒 65.4% 𝑦 74.6%

VI.6.2 Estratificado y replicado

Tabla VI.9
Muestreo estratificado
Número de T.V encendidas
Número de 𝑛𝑖
entre las 19:00 y 22:00
Estrato 𝑁𝑖 entrevistas (𝑛) 𝑃𝑖 =
horas (𝑛𝑖 ) 𝑛
160
1 7,000 200 160 = 80%
200
40
2 1,000 100 40 = 40%
100
60
3 2,000 100 60 = 60%
100
260
Total 10,000 400 260 = 65%
400
Fuente: Investigación directa con datos de Ferber et al, 1964.
301
𝜎𝑝

7 000 − 200 1 000 + 100 2 000 + 100


= √(0.70)2 (0.8)(0.2) + (0.10)2 (0.40)(0.6) + (0.20)2 (0.60)(0.40)
7 000 ∗ 200 1 000 ∗ 100 2 000 ∗ 100

𝜎𝑝 = √0.0003808 + 0.0000264 + 0.0001008 = √0.000508 = 0.0225 = 2.25%

En este caso, el intervalo es 65% ± (2)(2.25%) o entre 60.5% y 69.5%.

VI.6.3 Replicado:

Aquí suponga que se usaron los 5 diseños replicado: 5 muestras de 80 personas fueron
seleccionadas de la población; de cada una de las 125 zonas registradas.

Tabla VI.10
Datos para el muestreo replicado
Replica Número de entrevistas T.V encendidas P
1 80 59 74%
2 80 57 71%
3 80 61 76%
4 80 53 66%
5 80 62 78%
Total 400 292 73% (promedio)
Fuente: Investigación directa con datos de Ferber et al, 1964.

0.78 − 0.66 (5)(125 − 5)


𝜎𝑥̅ = | |√ = 0.026 = 2.6%
5 (125)(4)

El intervalo es 73% ± (2)(2.6%) o entre 67.8 % y 78.2 %.

Se ve que el menor error estándar se obtiene en el muestreo estratificado, razón por la que
siempre se recomienda usarlo. (Ibíd.)

VI.6.3 Obtención del tamaño de la muestra en estadística de atributos

Por su importancia derivada de los ejemplos anteriores, véase de nuevo como se obtiene el tamaño
de la muestra (𝑛) a partir de las fórmulas del error estándar, en este caso de una proporción, que
corresponde a la estadística de atributos.

Se toma una muestra para estimar entre otras cosas, la proporción de familias viendo T.V. en la
tarde entre semana. (Ferber, et al, 1964)

Se desea que ese estimador esté entre el 5% del porcentaje actual con 95% de seguridad.

302
𝑁 = 10 000
𝑠 2 = para un porcentaje = 𝑝 ∗ 𝑞
𝑝 = 0.5 por seguridad, es decir, trabajando con varianza máxima.
𝜎𝑝 debe ser tal que 2𝜎𝑝 incluyan el 95% 𝑑e los estimadores de 𝑝, luego 2𝜎𝑝 = 0.05 de aquí
𝜎𝑝 = 0.025.

𝑁−𝑛 𝑝𝑞𝑁−𝑝𝑞𝑛
De 𝜎𝑝 = √𝑝 ∗ 𝑞 ; 𝜎𝑝2 = se tiene 𝑛(𝑁𝜎𝑝2 + 𝑝𝑞) = 𝑁𝑝𝑞
𝑁∗𝑛 𝑁𝑛

𝑁𝑝𝑞 (0.25)(10 000)


𝑛 = 𝑝𝑞+𝑁𝜎2 ; Entonces 𝑛 = (0.25)+(10 000)(0.025)2 = 385 𝑓𝑎𝑚𝑖𝑙𝑖𝑎𝑠
𝑝

Vea que el tamaño apropiado sería de 385 familias y no 400 para hacer la investigación.

De manera similar, se puede obtener los tamaños de muestra para cada uno de los modelos
muestrales bajo estudio.

Asignación del tamaño de muestra

A continuación se exponen ejemplos que el Maestro Jacobo López Barojas (2015) desarrolla en sus
cursos de licenciatura de cómo asignar el tamaño de muestra mediante el muestreo estratificado por
asignación proporcional, asignación óptima y asignación óptima económica. y un ejemplo de
muestreo aleatorio simple considerando costos fijos y costos variables.

Por asignación proporcional

En unos sectores empresariales se encontró que de los 7500 clientes que en total se inscribieron para
que les enviaran catálogos de ventas, al sector I pertenecían 1700, al sector II 2500, al sector III
2000 y al sector IV 1300.

Se desea asignar de manera proporcional una muestra de 50 unidades entre los 4 estratos.

Con la expresión:
𝑁𝑖
𝑤𝑖 =
∑ 𝑁𝑖
Entonces

1700
𝑤1 = = 0.226662
7500

2500
𝑤2 = = 0.333333
7500

2000
𝑤3 = = 0.266666
7500

303
1300
𝑤4 = = 0.173333
7500
4

∑ 𝑤𝑖 = 0.226662 + 0.333333 + 0.266666 + 0.173333 = 1


𝑖=1

𝑛1 = 0.226662 ∗ 50 = 11.333333 ≈ 11

𝑛2 = 0.333333 ∗ 50 = 16.666666 ≈ 17

𝑛3 = 0.266666 ∗ 50 = 13.333333 ≈ 13

𝑛4 = 0.173333 ∗ 50 = 8.666666 ≈ 9
𝑘

∑ 𝑛𝑖 = 11 + 17 + 13 + 9 = 50
𝑖=1
Por asignación óptima

Ahora se desea asignar de manera óptima una muestra de 50 unidades entre los 4 estratos,
conociendo que las desviaciones estándar estimadas del monto de las ventas por estratos son de:

𝑠1 = 273500

𝑠2 = 5870

𝑠3 = 28700

𝑠4 = 154000

La justificación para usar la asignación óptima consiste en la diferencia entre las desviaciones
estándar estimadas para cada estrato.

Para el cálculo de la suma de 𝑁𝑖

∑ 𝑁𝑖 = 𝑁𝑖 𝑠𝑖

Tabla VI.11

Obtención de 𝑁𝑖 por asignación óptima
𝑵𝒊 𝒔𝒊 𝑵𝒊 𝒔𝒊
1700 273500 464950000
2500 5870 14675000
2000 28700 57400000
1300 154000 200200000
∑ 𝑁𝑖 = 737225000
Fuente: Investigación directa.

304
464950000
𝑤1 = = 0.630675845
737225000

14675000
𝑤2 = = 0.019905727
737225000
57400000
𝑤3 = = 0.07785954
737225000
200200000
𝑤4 = = 0.271558886
737225000

𝑛1 = 0.630675845 ∗ 50 = 31.53379215 ≈ 31

𝑛2 = 0.019905727 ∗ 50 = 0.99528632 ≈ 1

𝑛3 = 0.07785954 ∗ 50 = 3.892977 ≈ 4

𝑛4 = 0.271558886 ∗ 50 = 13.5779443 ≈ 14
𝑘

∑ 𝑛𝑖 = 31 + 1 + 4 + 14 = 50
𝑖=1

Por asignación óptima económica

Del mismo ejemplo.

7500 clientes de diversos sectores empresariales se inscribieron para que les enviaran catálogos de
ventas, sabiendo que de ellos, 1700 pertenecen al sector I, 2500 al sector II, 2000 al sector III y
1300 al sector IV, se desea asignar de manera óptima económica una muestra de 50 unidades,
conociendo que las desviaciones estándar estimadas del monto de las ventas por estratos son de:
𝑠1 = 273500, 𝑠2 = 5870, 𝑠3 = 28700, 𝑠4 = 154000 y los costos de muestreo son de 𝐶1 =
$2500, 𝐶2 = $900, 𝐶3 = $1100, 𝐶4 = 1200 (la justificación para utilizar el tipo de asignación
óptima económica, radica en la amplia diferencia entre los diferentes costos de muestreo por
utilidad para cada estrato).

Para el cálculo de la sumatoria de 𝑁𝑖


𝑁𝑖 𝑠𝑖
∑ 𝑁𝑖 =
√𝐶𝑖

Tabla VI.12

Obtención de 𝑁𝑖 por asignación óptima económica
𝑁𝑖 𝑠𝑖
𝑁𝑖 𝑠𝑖 𝑁𝑖 𝑠𝑖 𝐶𝑖 √𝐶𝑖
√𝐶𝑖
1700 273500 464950000 2500 50 9299000
2500 5870 14675000 900 30 489166.667
2000 28700 57400000 1100 33.17 1730479.349
305
1300 154000 200200000 1200 34.64 5779445.727
∑ 𝑁𝑖 = 17298091.743
Fuente: Investigación directa

9299000
𝑤𝐶𝑡1 = = 0.53757 ≈ 0.54
17298091.743

489166.667
𝑤𝐶𝑡2 = = 0.02827 ≈ 0.03
17298091.743

1730479.349
𝑤𝐶𝑡3 = = 0.1000 = 0.10
17298091.743

5779445.727
𝑤𝐶𝑡4 = = 0.3341 ≈ 0.33
17298091.743
4

∑ 𝑤𝐶𝑡𝑖 = 0.54 + 0.03 + 0.10 + 0.33 = 1


𝑖=1

𝑛1 = 0.54 ∗ 50 = 27
𝑛2 = 0.03 ∗ 50 = 1.5 ≈ 2
𝑛3 = 0.10 ∗ 50 = 5
𝑛4 = 0.33 ∗ 50 = 16.5 ≈ 16

∑ 𝑛𝑖 = 27 + 2 + 5 + 16 = 50
𝑖=1

Muestreo aleatorio simple

Determinación del tamaño de la muestra considerando los costos fijos y los costos variables

El costo total es igual al costo fijo más el costo variable, la fórmula es:

𝐶𝑡 = 𝐶𝑓 + 𝐶𝑉

El costo variable depende del número de unidades que forman el tamaño de la muestra se tiene la
siguiente expresión matemática:

𝐶𝑡 = 𝐶𝑓 + 𝑛𝐶𝑉

Donde 𝑛 representa el tamaño de la muestra y al despejar se tiene lo siguiente:

𝐶𝑡 − 𝐶𝑓
𝑛= (1)
𝐶𝑉

306
En el muestreo simple aleatorio el tamaño de la muestra se calcula por medio de:

𝑧 2𝑠2
𝑛= (2)
𝑑2
Donde:

𝑧 = 𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑛𝑜𝑟𝑚𝑎𝑙 𝑑𝑒𝑡𝑒𝑟𝑚𝑖𝑛𝑎𝑑𝑎 𝑝𝑜𝑟 𝑒𝑙 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒 𝑐𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎


𝑑 = 𝑠𝑒𝑚𝑖𝑎𝑛𝑐ℎ𝑜𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑐𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎
𝑠 2 = 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛

𝐶𝑡 − 𝐶𝑓 𝑧 2 𝑠 2
= 2 (3)
𝐶𝑉 𝑑

De la ecuación 3 se despeja para obtener el valor de d

𝐶𝑉
𝑑 = 𝑧𝑠√
𝐶𝑡 − 𝐶𝑓
Ejemplo:

Se tiene un presupuesto de $5,000.00 para un estudio de mercado, donde los costos fijos son de
$2000 y, el costo medio variable es de $15. La desviación estándar es de $350, con un semiancho
de 9 con un nivel de confianza del 90%. Determinar el tamaño de la muestra.

Solución:

Datos: 𝐶𝑡 = $5000, 𝑠 = $350, 𝐶𝑓 = $2000, 𝐶𝑉 = $15, 𝑑 = 9, 𝑧 = 1.64

El tamaño de la muestra basándose en los costos es con la siguiente expresión:

𝐶𝑡 − 𝐶𝑓
𝑛=
𝐶𝑉
Sustituyendo los valores respectivos:

5000 − 2000
𝑛= = 200
15

Considerando los valores de z,s y d entonces se utiliza la fórmula:

𝑧 2𝑠2
𝑛= 2
𝑑
(1.64)2 (350)2
𝑛= = 4067.6049
(9)2

El cálculo del valor de d se realiza por medio de:

307
𝐶𝑉
𝑑 = 𝑧𝑠√
𝐶𝑡 − 𝐶𝑓

15
𝑑 = (1.64)(350)√ = 40.58
5000 − 2000

¿Cuál es el presupuesto verdadero para tener la muestra de 4067.6049?

Se utiliza la siguiente expresión:

𝐶𝑉 𝑧 2 𝑠 2
𝐶𝑡 = + 𝐶𝑓
𝑑2

(15)(1.64)2 (350)2
𝐶𝑡 = + 2000
(9)2

𝐶𝑡 = 63014.07407

La cantidad de 63014.07407 se aplica a la fórmula siguiente:

𝐶𝑡 − 𝐶𝑓
𝑛=
𝐶𝑉
Para obtener el tamaño de la muestra

63014.07407 − 2000
𝑛= = 4067.6049
15

El tamaño de la muestra (4067.6049) multiplicado por el costo de cada unidad (15) da un total de
$61014.07407 y sumándole los costos fijos de $2000 da la cantidad de $63014.07407 (ibíd.)

Resumen: en forma didáctica y sencilla se ha expuesto las características de los principales


métodos de muestreo de mayor uso en economía. En este sentido, como una de sus
aplicaciones es en la elaboración de ENCUESTAS, a continuación se presenta la relación de
actividades que deben de efectuarse para hacer una encuesta (Sánchez et al, 1974), explicando
algunas de las actividades, como son las siguientes:

I) DISEÑO DEL CUESTIONARIO (Ferber et al, 1964)

Para el diseño de un cuestionario, se toman en consideración muchos aspectos diferentes, de los


cuales quizá los más importantes son:

 Los objetivos del estudio;


 El formato que debe tener;
 Si contendrá preguntas abiertas - codificación previa o posterior de las preguntas
 Si tendrá entradas múltiples;
308
 La manera en que se harán las preguntas;
 La organización de los encuestadores que se adoptará para hacer el trabajo de campo,
 Si se entrevistará a las “unidades de muestreo” o se usará otra forma para obtener la
información de la encuesta, etc

En otras palabras, lo que también indudablemente determina su diseño es el tipo de datos que se
desean obtener; el método usado para obtenerlos y en última instancia el uso de los resultados.
Adicionalmente, podría señalarse que el diseño depende fuertemente de los antecedentes y
experiencias del investigador, el tipo de entrevistadores disponibles, costo y tiempo.

Así, basándose en los formatos de la tabulación del guión de información, los rangos probables de
variación tomados de las experiencias anteriores - si las hay - y las posibles respuestas, el
cuestionario debe diseñarse en forma simple, fácil de seguir y si es posible atractiva.

Lo último es particularmente importante en el caso de los cuestionarios que se envían por correo,
donde la decisión de los miembros de la muestra, sobre llenarlo o no, depende de la impresión que
tengan sobre la apariencia del cuestionario. Al respecto, se aconseja recabar la información a través
de entrevistas directas, ya que el enumerador puede inmediatamente captar los datos en forma
precisa o corregirlos cuando el caso lo amerite.

II) TRABAJO DE CAMPO

Es conveniente mencionar que existen diversos métodos para la recolección de datos, de los
cuales los principales son:

a) La selección de la muestra a partir de la información de los archivos de la empresa. Así, una


muestra puede ser escogida sin mayor problema y al mismo tiempo los datos pueden ser
obtenidos con alto grado de confianza a un costo relativamente bajo. Además de que la muestra
puede mantenerse continuamente sin representar mayores cargos o esfuerzos extraordinarios;
b) Métodos de observación: La recolección de los datos por observación, es otro instrumento que
indirectamente capta la información. Como la información interna, este método no requiere
contacto directo con los elementos de la muestra. Estos métodos se utilizan observadores
humanos y/o mecánicos, prefiriendo los primeros en casos donde haya que distinguir; por
ejemplo: los adultos de los niños, o las personas por sexo.
c) Entrevistas telefónicas: cuando se puede aplicar este método resulta altamente eficiente en la
recolección directa de la información. Lo anterior, se debe a que la población virtualmente está
contenida en un directorio y la selección de la muestra, se convierte en una actividad de rutina.
Las entrevistas son de lo más económico -excepto cuando hayan que hacerse bastante llamadas
de larga distancia- y los datos se obtienes rápidamente. Sin embargo, como los demás métodos,
también tiene sus limitaciones. Obviamente no es aplicable si las entrevistas comprenden
cuestiones visuales - publicidad, pruebas de interpretación, etc. A la vez, información altamente
personal se obtiene con menos éxito por teléfono que -por ejemplo.- a través de una entrevista
personal.

309
d) Entrevistas personales: dentro de las formas directas de obtener los datos, este método es sin
lugar a dudas el más popular, por referirse a una conversación directa "frente a frente" entre un
miembro de la muestra y el entrevistador. Como resultado, se puede obtener una gran variedad
de información con este método, el cual es flexible en varios sentidos. Por ejemplo, los datos
pueden ser registrados en grabadora o en cuestionarios.

La construcción de los cuestionarios es un arte en sí; requiere numerosas precauciones para evitar
respuestas sesgadas.

Desde el punto de vista de la obtención de los datos, puede decirse que existen dos formas de
entrevistar: En un extremo se haya la entrevista altamente estructurada, en la cual se prepara un
cuestionario formal y las preguntas se hacen bajo instrucciones precisas y el entrevistador mantiene
un orden estricto para su contestación.

Esta forma, se usa generalmente para obtener una variedad de información diferente acerca de una
materia, siguiendo algún orden particular. Esta forma en cierto modo, evita que la información
recabada refleje sesgos debidos a juicios personales de los enumeradores.

En el otro extremo está la entrevista carente de formalidad para la cual no se requiere un


cuestionario, basta una lista de preguntas generales o temas relacionados con la información que se
busca.

Dentro de estos extremos, existen varias combinaciones. El enumerador puede usar un cuestionario
estructurado, pero se le permite hacer las preguntas como él quiera.

Como podrá intuirse, el enumerador es la piedra angular de una entrevista, indistintamente de la


forma que adopten para entrevistar o cual sea la unidad de muestreo. Si está debidamente entrenado
(a), no solamente entrevistará a un mayor número de personas, sino que los datos serán más
confiables.

Parece que los mejores enumeradores son personas entre los 25 y 50 años, que tienen una evidente
disposición, son inteligentes, poseen cierta cultura, son flexibles y precisos en sus hábitos de
trabajo.

Indudablemente que la experiencia es útil, pero si se proporciona un buen entrenamiento puede no


ser necesaria. En ciertos tipos de nuevas encuestas, la experiencia puede ser una limitante, ya que
se requiere que el enumerador siga procedimientos contrarios a los acostumbrados en el pasado.

Por lo que se refiere a la organización y control del trabajo de campo, como las demás etapas
requiere una programación de tiempos y actividades para asignar al personal correspondiente.
Dentro de los aspectos básicos esta la fijación de las rutas de trabajo, el plan de trabajo o forma de
entrevistar y la supervisión -sobre todo- cuando el grupo de trabajo es numeroso o la captación de
los datos presenta dificultades.

310
III) CRITICA DE CUESTIONARIOS

Los cuestionarios, codificados o no previamente, llegan a la oficina con el orden y presentación de


las respuestas dadas por los enumeradores. En algunas ocasiones el trabajo se realiza de acuerdo a
las instrucciones establecidas y enseguida pasa al departamento de captura, para ser procesado
inmediatamente. Sin embargo, en la mayoría de los casos se requiere una crítica o revisión
cuidadosa ya que:

a) Pueden traer las respuestas ilegibles;


b) El orden en que aparecen las respuestas no es el indicado;
c) Se contradicen unas respuestas con otras al compararse entre sí;
d) Existen preguntas que vienen en blanco y debían haberse contestado en alguna u otra
forma etc.
e) Se requiere preparar los cuestionarios para la codificación de las respuestas; y
f) Se desea verificar la autenticidad de los datos y preliminarmente comprobar ciertas
hipótesis establecidas en la programación inicial de actividades, etc.

Tal que en esta etapa la información debe quedar depurada y ordenada hasta donde sea posible para
su posterior transformación y vaciada en formatos previamente diseñados. En algunos casos se
acostumbra usar la computadora -filtrado electrónico- para realizar esta etapa.

IV) CODIFICACIÓN Y PROCESAMIENTO DE DATOS

Una vez que los datos han sido obtenidos y revisados, deben ser procesados para hacer posible un
análisis del fenómeno estudiado. Es generalmente aceptado que esta actividad es un tanto tediosa,
pero también que es crítica para asegurar exactitud en los resultados.

Una tabulación hecha sin cuidado puede viciar una buena planeación y el método de obtención de
los datos. Así mismo, los peligros de los sesgos a un se presentan en los procesos de preparación,
clasificación y tabulación.

Esta etapa está fuertemente ligada a la anterior, ya que, por ejemplo, la preparación consiste en la
inspección de cuestionarios o cualquier otra forma usada para captar los datos, su exactitud, si están
completos o no, la inspección de trabajo de campo, arreglos o eliminación de respuestas por su
inconsistencia o desconfianza la clasificación o estandarización de los datos en base comunes y
sobre todo su preparación para ser tabulados.

V) CLASIFICACIÓN.

Es el arreglo de los datos en clases o categorías para ser manipulados de acuerdo con la verificación
de la hipótesis de trabajo.

311
VI) TABULACIÓN

La tabulación es la etapa que sucede inmediatamente después a la crítica de cuestionarios y es un


conjunto de procedimientos que se adoptan para la recopilación o vaciado de los datos en
cuadros. Estos últimos comprenden las diferentes relaciones que se establecen entre las variables
comprendidas en el estudio, así, habrá cuadros de una sola entrada, doble entrada, etc.

VII) EVALUACIÓN ESTADÍSTICA DE RESULTADOS

El análisis de los datos recabados con la muestra, incluye indicaciones del valor hasta el cual
las estimaciones derivadas de la muestra pueden desviarse de los valores verdaderos de la
población. Esta evaluación debe comprender datos sobre la precisión de los estimadores, sobre
todo si la selección ha sido probabilística, así como consideraciones sobre algunos sesgos en la
operación de reconocimiento que tienda a distorsionar el valor de los estimadores.

Dentro de los sesgos puede considerarse las "no respuestas", cobertura, influencia de los
enumeradores sobre la unidad de muestre entrevistado y lo que anoten en el cuestionario, una
codificación de respuestas inadecuada, etc.

Por lo que se refiere a la precisión ésta es el error de muestreo de un estimador: mientras más
pequeño sea el error, mejor será la precisión. El error de muestreo se mide con la fórmula del
error estándar, la cual varía de acuerdo con el tipo de estimador - media, mediana, razón, etc. y con
el diseño muestral.

La exposición de las fórmulas de los errores estándar se presentan en la sección de los métodos de
muestreo, donde se deducen de las varianzas de los estimadores - media, total, etc.

VIII) DISEÑO DE LOS FORMATOS DE TABULACIÓN

Los requerimientos de información y las relaciones significativamente importantes, deben exhibirse


en estos formatos con claridad y sencillez, dado que con el éxito que esto se logre, la solución del
problema será más convincente y fácil. Deben definirse aquí los títulos de todos los cuadros.

IX) DISEÑO DEL CUESTIONARIO E INSTRUCTIVO :

Basándose en los formatos de tabulación, del guión de información, de los rangos probables de
variación, de las experiencias anteriores y de las posibles respuestas de las preguntas, hágase el
diseño de un cuestionario precodificado, procurando y verificando que no se omita ningún
concepto, que el llenado del cuestionario, sea lo más sencillo y rápido posible, que el
encadenamiento de las preguntas sea el más adecuado, que algunas preguntas sirvan para
comprobar las respuestas de otras, etc. Un cuestionario precodificado asigna en cada pregunta un
conjunto de claves numéricas, correspondiendo en forma biunívoca, en el conjunto de las posibles
respuestas, estas claves se anotan cifra por cifra, en las posiciones -en cuadrícula- que se hayan
designado para el caso.

312
X) INVESTIGACIÓN SOBRE FUENTES DE INFORMACIÓN

Un marco muestral es un conjunto de listas o de mapas, o una combinación de estos elementos,


de tal manera, que todas las unidades de interés estén contenidas y que al seleccionar las muestra se
pueda determinar la probabilidad de su inclusión, asimismo en el momento de levantar la encuesta,
la identificación de cada unidad en la muestra sea posible hacerla sin ninguna ambigüedad.

Para obtener un marco muestral puede recurrirse a ciertas instituciones y recopilar además, datos
para: calcular el tamaño de la muestra, confrontar y complementar los resultados de la encuesta,
determinar aproximadamente algunos rangos de variación, etc., si es que en los antecedentes -
archivos propios- no se tienen.

XI) PRUEBA DEL CUESTIONARIO Y AJUSTES FINALES.

Con objeto de determinar cuáles ajustes deben hacerse al cuestionario para poder lograr los
objetivos en forma satisfactoria, es necesario realizar algunas entrevistas en el campo de estudio,
llenar los cuestionarios correspondientes y evaluar los resultados a este nivel.

XII) FORMULACIÓN DEL GUIÓN DE INFORMACIÓN

Partiendo de un examen del problema, se recomienda hacer una relación de todas las variables,
cuyos valores puedan ser significativamente relevantes, en la resolución del problema.

XIII) OBTENCIÓN DE INFORMACIÓN COMPLEMENTARIA

Prepárese todo el material que sea necesario, como oficios debidamente dirigidos y firmados,
formas para captar información, etc. Los métodos de muestreo tienen por objeto indicar el número
de unidades que deben incluirse en la muestra, dependiendo de la forma como éstas se seleccionen,
del nivel de confianza que se requiera, del error de muestreo permisible y del fondo disponible para
la realización de la encuesta.

XIV) LEVANTAMIENTO DE LA ENCUESTA

El trabajo de los enumeradores debe hacerse exactamente con las unidades de última etapa,
determinadas en la selección de la muestra y si ello no fuera posible por deficiencias en el marco
muestral, resuélvase el problema con apego a las instrucciones precisas que se hayan hecho para
estos pasos. Al hacerse las preguntas, téngase cuidado de que las respuestas sean correctas y
veraces, considerando los rangos aproximados para los valores que puedan tomar las variables
involucradas en el estudio.

313
XV) SUPERVISIÓN DEL LEVANTAMIENTO DE LA ENCUESTA

Es conveniente utilizar una forma de reporte, en la cual el supervisor anote cómo se desarrolla el
levantamiento de la encuesta, esto es, registrar el material recibido y entregado, folio de los
cuestionarios entregados a su grupo, casos de no respuesta y especificación de la resolución tomada,
folio de los cuestionarios que fue necesario aclarar, número diario de cuestionarios entregados y de
errores por enumerador, porcentaje del avance total del trabajo -llenado de cuestionarios-, día y hora
para cada reporte a oficinas centrales, números de cuestionarios efectivamente llenados al terminar
la encuesta y registro de los demás documentos recogidos, calificación final de los enumeradores,
etc.

XVI) ADMINISTRACIÓN DEL LEVANTAMIENTO DE LA ENCUESTA:

Se refiere a todas las actividades, como:

 Autorización de gastos y obtención de fondos junto con las directrices administrativas para
su uso;
 Acuse de lo recibido a oficinas centrales;
 Pago del trabajo de campo;
 Observación del sistema de envíos;
 Tiempos transcurridos entre envío y recepción;
 Condición de llegada del material;
 Retroalimentación de las experiencias de la fase inicial y ajuste en donde ello sea necesario;
 Registro de aquéllos procedimientos -o personas- que no funcionaron para referencias
futuras y para obtener de ello una experiencia;
 Terminación de obligaciones con el personal eventual; etc.

XVII) CRÍTICA DE LOS CUESTIONARIOS Y DETERMINACIÓN DEL TAMAÑO


EFECTIVO DE LA MUESTRA:

Esto es, hacer un filtrado de todos los errores que no hayan sido detectados por los supervisores, así
como también verificar y concentrar el número total de cuestionarios encomendados a cada
supervisor, para obtener el tamaño efectivo de la muestra.

XVIII) ANÁLISIS Y DETERMINACIÓN DE LOS ESTÁNDARES DE TRABAJO

Basándose en el trabajo realizado, al probar el cuestionario y en experiencias anteriores,


determínese el número de cuestionarios por individuos y por día como: cargo de trabajo, número de
visitas antes de declarar la no respuesta, mínimo de los rangos de variación para algunas variables,
etc.

.Debido a que es conveniente conocer en la medida de lo posible las actividades principales, se


decidió incluir en el punto VI.6.4 la Red de General de Actividades que es necesario llevar a cabo
para realizar una encuesta. Por otra parte, también se decidió incluir una relación adicional de 10
314
métodos de muestreo (Sánchez et al, 1974), que complementan los aquí expuestos por que brindan
al lector una gama de alternativas para seleccionar el método apropiado para la investigación
especifica que pretenda hacer.

315
VI.6.4 RED GENERAL DE ACTIVIDADES EN UNA ENCUESTA DE MUESTREO

316
OTROS MÉTODOS DE MUESTREO: (Sánchez et al, 1974)

DENOMINACION DEL ESTIMADORES


VARIANCIA DEL ESTIMADOR DE
MODELO DE MEDIA POBLACIONAL VARIANCIA DEL ESTIMADOR TAMAÑO DE LA MUESTRA
MEDIA POBLACIONAL LA MEDIA POBLACIONAL
MUESTREO DE LA MEDIA POBLACIONAL
𝑁−𝑛 2
Muestreo monoetápico, 𝑉(𝜇̂̇ ) = 𝑠̇ 2
𝑆 2 𝑡(∝,∞)
𝑁 𝑛 𝑁𝑛
equiprobable y sin 1 1 𝑁−𝑛 2 𝜖 2 𝜇2
𝜇= ∑ 𝑋𝑖 𝜇̂̇ = 𝑋̅̇ = ∑ 𝑋̇𝑖 𝐸𝑠𝑡. 𝑉(𝜇̂̇ ) = 𝑠̇ 𝑛= 2 2
reemplazo (muestreo 𝑁 𝑛 𝑁𝑛 1
𝑁
1 𝑆 𝑡(∝,∞)
𝑖=1 𝑖=1 2
𝑆 = ∑(𝑋̇𝑖 − 𝜇)
2 1+
irrestricto aleatorio). 𝑁 𝜖 2 𝜇2
𝑁−1
𝑖=1
1 1 𝑛 = 𝑎(𝑆 2 + 𝑏(∝ −1))
1
𝑁
𝑉(𝜇̂̇ ) = ( − ) 𝑆 2
𝜇= ∑ 𝑀𝑖 𝜇𝑖 𝐸𝑠𝑡. 𝑉(𝜇̂̇ ) 𝑛 𝑁
𝑀𝑜 1 1 1
𝑁
𝑀𝑖 2 1
2
𝑁𝑡(∝,∞)
𝑖=1
𝑛
= ( − ) 𝑠 2̇ + ∑( ) ( 𝑎=
1 𝑛 𝑁 𝑁𝑛 ̅
𝑀 𝑚𝑖 2
𝜖 2 𝜇 2 𝑁 + 𝑆 2 𝑡(∝,∞)
∑ 𝑀𝑖 𝑋̅̇𝑖
𝑛
𝑀𝑖 𝜇̂̇ = 1 𝑀𝑖 2 1 1
𝑖=1
1 ∑𝑛𝑖=1 𝑀𝑖 + ∑ ( ) ( − ) 𝑠𝑖2̇ 1
𝜇𝑖 = ∑ 𝑋𝑖𝑗 𝑖=1
𝑁𝑛 ̅
𝑀 𝑚𝑖 𝑀𝑖 − ) 𝑆2 𝑁
Muestreo bietápico, 𝑀𝑖 𝑖=1 𝑀𝑖 𝑖 1
𝑗=1 𝑏= ∑ 𝑀𝑖 𝑆𝑖2
equiprobable y sin ̅2
𝑁𝑀
𝑛 𝑁 𝑖=1
reemplazo. 𝑁 𝑚1
1 𝑀𝑖 2 2 1 𝑀𝑖 2
1 𝑠 2̇ ∑ ( ) (𝑋̅̇𝑖 − 𝑋̅̇)
2
= 𝑆 = ∑ ( ) (𝜇𝑖 − 𝜇)2
𝑀𝑜 = ∑ 𝑀𝑖 𝑋̅̇𝑖 = ∑ 𝑥̇ 𝑖𝑗 𝑛−1 ̅
𝑀 𝑁−1 ̅
𝑀 𝑀𝑖
𝑚𝑖 𝑖=1 𝑖=1
𝑚𝑖 =
𝑖=1 𝑗=1 𝑚𝑖 ∝
1 2
𝑠𝑖2̇ = ∑(𝑋̇𝑖 − 𝜇) 1
𝑀𝑖
𝑀 𝑚𝑖 − 1 2
𝑁 𝑆2
̅= 𝑜
𝑀 𝑖=1 𝑆𝑖2 = ∑(𝑋𝑖𝑗 −𝜇𝑖 )
𝑁 𝑀𝑖 − 1 1 ≤∝≤ ( +1− )
𝑖=1 𝑎𝑏 𝑏

317
𝐾
1
𝜇= ∑ 𝑁𝑡 𝜇𝑡 𝐾
𝑁𝑜 1
𝑡=1
𝐾 𝐸𝑠𝑡. 𝑉(𝜇̂̇ ) = ∑ ( 𝐾
1 𝑛𝑡 𝑁𝑡 2 1 1 2
𝑆𝑡2 𝑡(∝,∞)
𝑁𝑡 𝜇̂̇ = ∑ 𝑁𝑡 𝑋̅̇𝑡 𝑡=1 𝑉(𝜇̂̇ ) = ∑ ( ) ( − ) 𝑆𝑡2
1 𝑁𝑜 1 𝑁𝑡 2 2 𝑁𝑜 𝑛𝑡 𝑁𝑡 𝑁 2 𝜖2 2
Muestreo monoetápico, 𝑡=1 𝑡=1 ( 𝑜) 𝜇
𝜇𝑡 = ∑ 𝑋𝑡𝑖 − ) ( ) 𝑠̇𝑡 𝑁𝑡 𝐾
equiprobable, sin reemplazo 𝑁𝑡 𝑁𝑡 𝑁𝑜 𝑛𝑡 = 2 2
𝑖=1 𝑛𝑡 𝑁𝑡 1 𝑆𝑡 𝑡(∝,∞)
y estratificado 1 1 1+
𝑁𝑡 𝑁𝑜 2 𝜖 2 2
𝐾 𝑋̅̇𝑡 = ∑ 𝑋𝑡𝑖̇ 𝑛𝑡 𝑆𝑡2 = ∑(𝑋𝑡𝑖 − 𝜇𝑡 )2 ( ) 𝜇
𝑛𝑡 1 2 𝑁𝑡 − 1 𝑁𝑡 𝐾
𝑁𝑜 = ∑ 𝑁𝑡
𝑖=1 𝑠̇𝑡2 = ∑(𝑋̇𝑡𝑖 − 𝑋̅̇𝑡 ) 𝑖=1
𝑛𝑡 − 1