Probabilidad y Estadística
Unidad 1
Grupo: 2MS
2º Semestre
Unidad 1: Estadística descriptiva
Se usa como un valioso auxiliar y en los diferentes campos del conocimiento y en las variadas
ciencias. Es un lenguaje que permite comunicar información basada en datos cuantitativos.
Constituye uno de los aspectos más relevantes entre los estudiosos de las ciencias. La
evolución de la estadística ha llegado al punto en que su proyección se percibe en casi todas
las áreas de trabajo. También abarca la recolección, presentación y caracterización de
información para ayudar tanto en el análisis e interpretación de datos como en el proceso de
la toma de decisiones. La estadística es parte esencial de la forma profesional, es hasta cierto
punto una parte necesaria para toda profesión; la herramienta matemática para analizar datos
experimentales y basados en la observación. La estadística es un lenguaje que permite
comunicar información basada en datos cuantitativos.
1.1.4 Población
2
Es el conjunto de partida del que se extrae el conjunto numérico de los datos de los que se
dispone. Cada uno de los datos corresponde a un individuo.
Muestra elegida independientemente de todas las demás, con la misma probabilidad que
cualquier otra y cuyos elementos están elegidos independientemente unos de otros y con la
misma probabilidad.
Una muestra aleatoria es una muestra sacada de una población de unidades, de manera que
todo elemento de la población tenga la misma probabilidad de selección y que las unidades
diferentes se seleccionen independientemente.
Es una medida de resumen que se calcula para describir una característica de toda población.
Si ha n resultados igualmente probables de los cuales f son del tipo que nos interesa, la
probabilidad de que ocurra en resultado de ese tipo que nos interesa.
𝑓
𝑃𝑜𝑟 𝑡𝑎𝑛𝑡𝑜: ; 𝑝𝑎𝑟𝑎 "n" resultados igualmente probables
𝑛
1.1.8 Enfoque Bayesiano
𝑓𝑖
𝑓𝑟 =
𝑛
1.2.4 Punto medio
Marca de clase (punto medio): punto que divide a la clase en dos partes iguales. Es el
promedio entre los límites superior e inferior de la clase.
Intervalo de clase: para una distribución de frecuencias que tiene clases del mismo tamaño, el
intervalo de clase se obtiene restando el límite inferior de una clase del límite inferior de la
siguiente.
1.2.5 Límites
Son los valores extremos que tiene el intervalo de clase, inferior y superior, entre los cuales
van a estar los valores de los datos agrupados en ese intervalo de clase.
1.2.6 Histograma
4
∑𝑓𝑘
ˉ𝑥 = para datos agrupados
∑𝑓
La media geométrica es útil cuando la variable cambia a lo largo del tiempo, esto es, en el
cálculo del promedio de tasas, razones, proporciones geométricas y relaciones de variables. Se
utiliza en Matemáticas Financieras y Finanzas para promediar números índices, tasas de
cambio, etc. La media Geométrica de una serie de números es la raíz n-ésima del producto de
esos números Se ve afectada por todos los números y valores extremos pero en menor grado
que la Media Aritmética, su valor siempre es menor que el de ésta. En la media ponderada,
para cada uno de los valores de xi se asigna un factor wi de peso, que depende de la
importancia que el investigador desee darle.
𝑆(𝑥𝑖 𝑤𝑖)
𝑋𝑝 =
𝑆(𝑤𝑖)
1.3.2 Mediana
1.3.3 Moda
Es la medida que indica cual dato tiene la mayor frecuencia en un conjunto de datos, o sea.
Cual se repite más.
1.4.1 Varianza
5
𝑠 2 = 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎
ˉ𝑥 = 𝑚𝑒𝑑𝑖𝑎.
𝑁 = 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠.
∑ 𝑚𝑘 − ˉ𝑥 2 𝑓𝑘
𝜎2 =
∑𝑓𝑘
𝑚𝑘 = 𝑚𝑎𝑟𝑐𝑎 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒.
𝑓𝑘 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒.
ˉ𝑥 = 𝑚𝑒𝑑𝑖𝑎.
Es sin duda la medida de dispersión más importante, ya que además sirve como medida
previa al cálculo de otros valores estadísticos. La desviación típica se define como la raíz
cuadrada de la media de los cuadrados de las desviaciones con respecto a la media de la
distribución. Es decir,
𝑠= 𝜎2
En teoría, la desviación puede referirse a cada una de las medidas de tendencia central:
media, mediana o moda; pero el interés se suele centrar en la medida de la desviación con
respecto a la media, que llamaremos desviación media. Puede definirse como la media
aritmética de las desviaciones de cada uno de los valores con respecto a la media aritmética
de la distribución, y de indica así:
∑|𝑥 − ˉ𝑥|
𝐷𝑀 =
𝑛
1.4.4 Desviación mediana
El criterio que guía esta estadística, radica en el uso de diferencias de cada dato respecto a la
mediana muestral m. si estas diferencias son muy grandes, entonces estamos ante un caso de
gran variabilidad, y si son pequeñas se espera que la variabilidad sea pequeña. Naturalmente
6
que el criterio que parece más apropiado es agrupar las discrepancias individuales y tratarlas
en conjunto. Un agrupamiento natural sería una suma de ellas, pero el sólo uso de las
diferencias no garantiza que se pueda medir discrepancias por que algunas (prácticamente la
mitad) serán menores que la mediana, con diferencias negativas, y el resto mayores que la
mediana, con diferencias positivas, y al sumar dichos valores habría compensaciones entre
valores negativos y positivos. Por lo tanto, una solo salida a esta dificultad es considerar el
valor absoluto de las diferencias calculadas y promediarlos. Esto conduce a la definición
siguiente:
Dado un conjunto de datos x1,…, xn su desviación mediana (d.m.) esta definida por:
𝑛
1
𝑑𝑚 = | 𝑥1 − 𝑚 |
𝑛
𝑖=1
Puede verse entonces que, cuanto mayor sea la dispersión existente entre los datos, tanto
mayor tenderá a ser el promedio del valor absoluto de las diferencias de los datos, respecto
de la mediana muestral. Esta estadística se encuentra medida en la misma escala que los datos
originales, lo que facilita su comprensión.
1.4.5 Rango
El rango se suele definir como la diferencia entre los dos valores extremos que toma la
variable. Es la medida de dispersión más sencilla y también, por tanto, la que proporciona
menos información. Además, esta información puede ser errónea, pues el hecho de que no
influyan más de dos valores del total de la serie puede provocar una deformación de la
realidad.
1.5.1 Media
7
1.6 Distribución de frecuencias
Si las clases en que agrupamos los datos son determinadas por intervalos numéricos, se dice
que la distribución es numérica.
Una distribución de frecuencias acumulada se usa para determinar cuántos o qué proporción
de los valores de los datos es menor o mayor que cierto valor.
Para convertir una distribución de porcentual a una distribución porcentual acumulada solo
es necesario sumar las frecuencias porcentuales (simples). La frecuencia porcentual
acumulada de la primera clase será igual a la frecuencia porcentual simple de la misma clase,
las siguientes serán igual a la suma de la frecuencia porcentual simple de la clase anterior con
esta misma.
Son los valores extremos de un intervalo de clase. Los límites reales de clase se obtienen
sumando al límite superior de un intervalo de clase el límite inferior del intervalo de clase
contiguo superior y dividiendo entre 2.
8
El tamaño o anchura de un intervalo de clase es la diferencia entre los límites reales de clase
que lo forman.
Es la diferencia entre el menor y el mayor de los valores obtenidos. Los valores pueden
llevarse en un gráfico de bastones que se denomina histograma de frecuencia de la variable.
(Observemos que los valores se ponen en el eje de las abscisas y la frecuencia en el eje de las
ordenadas).
Es el punto medio del intervalo de clase y se obtiene sumando los límites inferior y superior
de la clase y dividiendo entre 2.
Un diagrama donde cada valor de datos es dividido en una "hoja" (normalmente el último
dígito) y un "tallo" (los otros dígitos). Por ejemplo "32" sería dividido en "3" (tallo) y "2" (hoja).
Los valores del "tallo" se escriben hacia abajo y los valores "hoja" van a la derecha (o
izquierda) del los valores tallo. El "tallo" es usado para agrupar los puntajes y cada "hoja"
indica los puntajes individuales dentro de cada grupo.
Un diagrama donde cada valor de datos es dividido en una "hoja" (normalmente el último
dígito) y un "tallo" (los otros dígitos). Por ejemplo "32" sería dividido en "3" (tallo) y "2" (hoja).
Los valores del "tallo" se escriben hacia abajo y los valores "hoja" van a la derecha (o
izquierda) del los valores tallo. El "tallo" es usado para agrupar los puntajes y cada "hoja"
indica los puntajes individuales dentro de cada grupo.
Una Gráfica Pareto es utilizada para separar gráficamente los aspectos significativos de un
problema desde los triviales, de manera que un equipo sepa dónde dirigir sus esfuerzos para
mejorar. El Diagrama de Pareto consiste en un gráfico de barras similar al histograma que se
conjuga con una ojiva o curva de tipo creciente y que representa en forma decreciente el
grado de importancia o peso que tienen los diferentes factores que afectan a un proceso,
operación o resultado. Se utiliza:
Es una variación del diagrama lineal simple el cual está formado por líneas rectas o curvas,
que resultan de la representación, en un eje de coordenadas, de distribuciones de frecuencias,
este se construye colocando en el eje x los valores correspondientes a la variable y en el eje de
las ordenadas el valor correspondiente a la frecuencia para este valor. Proporciona
principalmente información con respecto a las frecuencias. Este se usa cuando solo se necesita
información sobre la frecuencia. Cuando la muestra se agrupa por intervalos se trabaja con la
marca de clase del intervalo de clase, la marca de clase es el punto medio del intervalo.
1.8 Histograma
Barras múltiples: es muy recomendable para comprar una serie estadística con
otra, para ello emplea barras simples se distinto color o tramado en un mismo plano
cartesiano, una al lado de la otra
Se construye uniendo los puntos medios de los lados superiores de cada rectángulo contenido
en el histograma de frecuencias.
10
La finalidad del polígono de frecuencias es destacar la cantidad y continuidad de la
característica en particular.
1.8.3 Ojivas
Este se usa cuando se trabaja con datos que tienen grandes frecuencias, y los valores de la
variable son pocos, la ventaja que tiene este diagrama es que es fácil de hacer y es entendible
fácilmente, la desventaja que posee es que cuando los valores de la variable son muchos es
casi imposible o mejor dicho no informa mucho este diagrama y no es productivo,
proporciona principalmente información acerca de las frecuencias de los datos de una manera
entendible y sencilla.
11