Anda di halaman 1dari 11

Instituto Tecnológico de Mérida

Ingeniería en Sistemas Computacionales

Probabilidad y Estadística

Unidad 1

Alumno: Jesús Roberto Dzul Chi

Profesora: Landy Elena Ávila Ancona

Grupo: 2MS

2º Semestre
Unidad 1: Estadística descriptiva

1.1 Conceptos básicos de estadística

1.1.1 Definición de estadística

La estadística es comúnmente considerada como una colección de hechos numéricos


expresados en términos de una relación sumisa, y que han sido recopilado a partir de otros
datos numéricos.

Es el conjunto de procedimientos y técnicas empleadas para recolectar organizar y analizar


datos, los cuales sirven de base para tomar decisiones en las situaciones de incertidumbre que
plantean las ciencias sociales o naturales. Uno de los problemas fundamentales de la
Estadística es el estudio de la relación existente entre una población y sus muestras. Según la
dirección de tal relación la Estadística puede ser: Deductiva, cuando a partir del conocimiento
de la población se trata de caracterizar cada muestra posible. Inductiva, cuando a partir del
conocimiento derivado de una muestra se pretende caracterizar la población.

1.1.2 Inferencia estadística

Se basa en las conclusiones a la que se llega por la ciencia experimental basándose en


información incompleta (de una parte de la población). La inferencia estadística es una parte
de la Estadística que permite generar modelos probabilísticos a partir de un conjunto de
observaciones. Del conjunto se observaciones que van a ser analizadas, se eligen
aleatoriamente sólo unas cuantas, que es lo que se denomina muestra, y a partir de dicha
muestra se estiman los parámetros del modelo, y se contrastan las hipótesis establecidas, con
el objeto de determinar si el modelo probabilístico es el adecuado al problema real que se ha
planteado. La utilidad de la inferencia estadística, consiste en que si el modelo se considera
adecuado, puede usarse para la toma de decisiones o para la realización de las previsiones
convenientes.

1.1.3 Teoría de decisión

Se usa como un valioso auxiliar y en los diferentes campos del conocimiento y en las variadas
ciencias. Es un lenguaje que permite comunicar información basada en datos cuantitativos.
Constituye uno de los aspectos más relevantes entre los estudiosos de las ciencias. La
evolución de la estadística ha llegado al punto en que su proyección se percibe en casi todas
las áreas de trabajo. También abarca la recolección, presentación y caracterización de
información para ayudar tanto en el análisis e interpretación de datos como en el proceso de
la toma de decisiones. La estadística es parte esencial de la forma profesional, es hasta cierto
punto una parte necesaria para toda profesión; la herramienta matemática para analizar datos
experimentales y basados en la observación. La estadística es un lenguaje que permite
comunicar información basada en datos cuantitativos.

1.1.4 Población
2
Es el conjunto de partida del que se extrae el conjunto numérico de los datos de los que se
dispone. Cada uno de los datos corresponde a un individuo.

1.1.5 Muestra aleatoria

Muestra elegida independientemente de todas las demás, con la misma probabilidad que
cualquier otra y cuyos elementos están elegidos independientemente unos de otros y con la
misma probabilidad.

Una muestra aleatoria es una muestra sacada de una población de unidades, de manera que
todo elemento de la población tenga la misma probabilidad de selección y que las unidades
diferentes se seleccionen independientemente.

1.1.6 Parámetros aleatorios

Es una medida de resumen que se calcula para describir una característica de toda población.

1.1.7 Enfoque clásico

La característica fundamental de la interpretación clásica de la probabilidad:

Si ha n resultados igualmente probables de los cuales f son del tipo que nos interesa, la
probabilidad de que ocurra en resultado de ese tipo que nos interesa.
𝑓
𝑃𝑜𝑟 𝑡𝑎𝑛𝑡𝑜: ; 𝑝𝑎𝑟𝑎 "n" resultados igualmente probables
𝑛
1.1.8 Enfoque Bayesiano

En el enfoque Bayesiano de la Estadística, la incertidumbre presente en un modelo dado, , es


representada a través de una distribución de probabilidad sobre los posibles valores del
parámetro desconocido (típicamente multidimensional) que define al modelo.

El Teorema de Bayes, permite entonces incorporar la información contenida en un conjunto


de datos , produciendo una descripción conjunta de la incertidumbre sobre los valores de los
parámetros del modelo a través de la distribución final . Desafortunadamente, la
implementación de las técnicas Bayesianas usualmente requiere de un esfuerzo
computacional muy alto. La mayor parte de este esfuerzo se concentra en el cálculo de ciertas
características de la distribución final del parámetro de interés (que llamaremos resúmenes
inferenciales).

1.2 Descripción de datos

1.2.1 Datos agrupados y no agrupados

Una distribución de frecuencias es una clasificación de los datos en clases o categorías de


acuerdo a sus valores. Los hay agrupados cuando se presentan en una tabla de distribución
3
de frecuencias, pero cuando los datos observados se encuentran de forma desorganizada se
les denomina no agrupados.

1.2.2 Frecuencia de clase

Es el número de veces en que ocurrió un valor.

1.2.3 Frecuencia relativa

La frecuencia relativa de un valor observado, se encuentra como el cociente entre la


frecuencia en que s encuentra dicho valor (fi) y el total de observaciones (n).

𝑓𝑖
𝑓𝑟 =
𝑛
1.2.4 Punto medio

Marca de clase (punto medio): punto que divide a la clase en dos partes iguales. Es el
promedio entre los límites superior e inferior de la clase.

Intervalo de clase: para una distribución de frecuencias que tiene clases del mismo tamaño, el
intervalo de clase se obtiene restando el límite inferior de una clase del límite inferior de la
siguiente.

1.2.5 Límites

Son los valores extremos que tiene el intervalo de clase, inferior y superior, entre los cuales
van a estar los valores de los datos agrupados en ese intervalo de clase.

1.2.6 Histograma

Es un tipo especial de grafica en la cual se muestra como se distribuye la frecuencia de una


variable y se utiliza especialmente para representar variables cuantitativas continuas y
discretas. La representación grafica de las variables en forma de barras, donde la superficie de
cada barra es proporcional a la frecuencia de los valores representados. El eje vertical por lo
regular representa las frecuencias, y el eje horizontal los valores de las variables,
normalmente señalando las marcas de clase.

1.3 Medidas de tendencia central

1.3.1 Media aritmética, geométrica y ponderada

MEDIA ARITMÉTICA Es una medida matemática, un número individual que representa


razonablemente el comportamiento de todos los datos.
𝑎𝑟 +⋯𝑎𝑛
𝑥= para datos no agrupados
𝑛

4
∑𝑓𝑘
ˉ𝑥 = para datos agrupados
∑𝑓

La media geométrica es útil cuando la variable cambia a lo largo del tiempo, esto es, en el
cálculo del promedio de tasas, razones, proporciones geométricas y relaciones de variables. Se
utiliza en Matemáticas Financieras y Finanzas para promediar números índices, tasas de
cambio, etc. La media Geométrica de una serie de números es la raíz n-ésima del producto de
esos números Se ve afectada por todos los números y valores extremos pero en menor grado
que la Media Aritmética, su valor siempre es menor que el de ésta. En la media ponderada,
para cada uno de los valores de xi se asigna un factor wi de peso, que depende de la
importancia que el investigador desee darle.

𝑆(𝑥𝑖 𝑤𝑖)
𝑋𝑝 =
𝑆(𝑤𝑖)

1.3.2 Mediana

Es el valor de la variable que divide a la distribución de frecuencias en dos partes iguales. Es


el valor central de un conjunto de valores ordenados en forma creciente o decreciente. Dicho
en otras palabras corresponde al valor que deja igual número de valores antes y después de el
en un conjunto de datos agrupados. Según el número de valores que se tengan se pueden
presentar dos casos:

 Si el número de valores es impar, la mediana corresponderá al valor central de dicho


conjunto de datos.

 Si el número de valores es par, la mediana corresponderá al promedio de los dos


valores centrales.

1.3.3 Moda

Es la medida que indica cual dato tiene la mayor frecuencia en un conjunto de datos, o sea.
Cual se repite más.

1.4 Medidas de dispersión

1.4.1 Varianza

Es la media aritmética de los cuadrados de las desviaciones respecto a la media aritmética.


Sirve de base para calcular la desviación estándar.

Para datos no agrupados.


2
2
∑ 𝑥 − ˉ𝑥
𝑆 =
𝑁

5
𝑠 2 = 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎

𝑥 = 𝑐𝑎𝑑𝑎 𝑢𝑛𝑜 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠.

ˉ𝑥 = 𝑚𝑒𝑑𝑖𝑎.

𝑁 = 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠.

Para datos agrupados:

∑ 𝑚𝑘 − ˉ𝑥 2 𝑓𝑘
𝜎2 =
∑𝑓𝑘

𝑚𝑘 = 𝑚𝑎𝑟𝑐𝑎 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒.

𝑓𝑘 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒.

ˉ𝑥 = 𝑚𝑒𝑑𝑖𝑎.

1.4.2 Desviación estándar

Es sin duda la medida de dispersión más importante, ya que además sirve como medida
previa al cálculo de otros valores estadísticos. La desviación típica se define como la raíz
cuadrada de la media de los cuadrados de las desviaciones con respecto a la media de la
distribución. Es decir,

𝑠= 𝜎2

1.4.3 Desviación media

En teoría, la desviación puede referirse a cada una de las medidas de tendencia central:
media, mediana o moda; pero el interés se suele centrar en la medida de la desviación con
respecto a la media, que llamaremos desviación media. Puede definirse como la media
aritmética de las desviaciones de cada uno de los valores con respecto a la media aritmética
de la distribución, y de indica así:

∑|𝑥 − ˉ𝑥|
𝐷𝑀 =
𝑛
1.4.4 Desviación mediana

El criterio que guía esta estadística, radica en el uso de diferencias de cada dato respecto a la
mediana muestral m. si estas diferencias son muy grandes, entonces estamos ante un caso de
gran variabilidad, y si son pequeñas se espera que la variabilidad sea pequeña. Naturalmente
6
que el criterio que parece más apropiado es agrupar las discrepancias individuales y tratarlas
en conjunto. Un agrupamiento natural sería una suma de ellas, pero el sólo uso de las
diferencias no garantiza que se pueda medir discrepancias por que algunas (prácticamente la
mitad) serán menores que la mediana, con diferencias negativas, y el resto mayores que la
mediana, con diferencias positivas, y al sumar dichos valores habría compensaciones entre
valores negativos y positivos. Por lo tanto, una solo salida a esta dificultad es considerar el
valor absoluto de las diferencias calculadas y promediarlos. Esto conduce a la definición
siguiente:

Dado un conjunto de datos x1,…, xn su desviación mediana (d.m.) esta definida por:
𝑛
1
𝑑𝑚 = | 𝑥1 − 𝑚 |
𝑛
𝑖=1

Puede verse entonces que, cuanto mayor sea la dispersión existente entre los datos, tanto
mayor tenderá a ser el promedio del valor absoluto de las diferencias de los datos, respecto
de la mediana muestral. Esta estadística se encuentra medida en la misma escala que los datos
originales, lo que facilita su comprensión.

1.4.5 Rango

El rango se suele definir como la diferencia entre los dos valores extremos que toma la
variable. Es la medida de dispersión más sencilla y también, por tanto, la que proporciona
menos información. Además, esta información puede ser errónea, pues el hecho de que no
influyan más de dos valores del total de la serie puede provocar una deformación de la
realidad.

1.5 Parámetros para datos agrupados

1.5.1 Media

En el estudio de las distribuciones de datos, la estadística selecciona un conjunto de los


mismos de forma que sean representativos de todos los de la distribución. La media es el
valor representativo de la muestra. Equivale a la suma de todos los datos dividido por el
número de datos.

1.5.2 Desviación típica

La desviación típica es la raíz cuadrada de la varianza. Es decir, la raíz cuadrada de la media


de los cuadrados de las puntuaciones de desviación.

La desviación típica se representa por σ.

7
1.6 Distribución de frecuencias

1.6.1 Distribuciones numéricas

Si las clases en que agrupamos los datos son determinadas por intervalos numéricos, se dice
que la distribución es numérica.

1.6.2 Distribuciones categóricas

Si las distribuciones se hallan agrupadas de acuerdo con alguna cualidad o atributo


denominaremos distribución categórica a esa distribución.

1.6.3 Distribuciones acumuladas

Una distribución de frecuencias acumulada se usa para determinar cuántos o qué proporción
de los valores de los datos es menor o mayor que cierto valor.

Una distribución de frecuencias acumuladas identifica el número acumulado de


observaciones incluidas bajo el límite exacto superior de cada clase de la distribución. Las
frecuencias acumuladas de una clase pueden determinarse sumando las frecuencias
observadas de esa clase a las frecuencias acumuladas de la clase anterior.

1.6.4 Distribuciones porcentuales

Si se desea comparar distribuciones de frecuencias, puede ser necesario (o al menos


ventajoso), convertidas en distribuciones porcentuales. Basta dividir cada frecuencia de clase
entre la frecuencia total (el número total de observaciones en la distribución), y multiplicar
por cien; en esta forma se indica que porcentaje de los datos esta en cada clase de la
distribución puede hacerse lo mismo también con las distribuciones acumuladas,
convirtiéndolas así en distribuciones porcentuales acumuladas.

1.6.5 Distribuciones porcentuales acumuladas

Para convertir una distribución de porcentual a una distribución porcentual acumulada solo
es necesario sumar las frecuencias porcentuales (simples). La frecuencia porcentual
acumulada de la primera clase será igual a la frecuencia porcentual simple de la misma clase,
las siguientes serán igual a la suma de la frecuencia porcentual simple de la clase anterior con
esta misma.

1.7 Técnicas de agrupación de datos

1.7.1 Límites de clase

Son los valores extremos de un intervalo de clase. Los límites reales de clase se obtienen
sumando al límite superior de un intervalo de clase el límite inferior del intervalo de clase
contiguo superior y dividiendo entre 2.

8
El tamaño o anchura de un intervalo de clase es la diferencia entre los límites reales de clase
que lo forman.

1.7.2 Rango de clase

Es la diferencia entre el menor y el mayor de los valores obtenidos. Los valores pueden
llevarse en un gráfico de bastones que se denomina histograma de frecuencia de la variable.
(Observemos que los valores se ponen en el eje de las abscisas y la frecuencia en el eje de las
ordenadas).

1.7.3 Fronteras de clase

1.7.4 Marca de clase

Es el punto medio del intervalo de clase y se obtiene sumando los límites inferior y superior
de la clase y dividiendo entre 2.

1.7.5 Intervalo de clase

Un diagrama donde cada valor de datos es dividido en una "hoja" (normalmente el último
dígito) y un "tallo" (los otros dígitos). Por ejemplo "32" sería dividido en "3" (tallo) y "2" (hoja).

Los valores del "tallo" se escriben hacia abajo y los valores "hoja" van a la derecha (o
izquierda) del los valores tallo. El "tallo" es usado para agrupar los puntajes y cada "hoja"
indica los puntajes individuales dentro de cada grupo.

1.7.6 Diagrama de tallos y hojas

Un diagrama donde cada valor de datos es dividido en una "hoja" (normalmente el último
dígito) y un "tallo" (los otros dígitos). Por ejemplo "32" sería dividido en "3" (tallo) y "2" (hoja).

Los valores del "tallo" se escriben hacia abajo y los valores "hoja" van a la derecha (o
izquierda) del los valores tallo. El "tallo" es usado para agrupar los puntajes y cada "hoja"
indica los puntajes individuales dentro de cada grupo.

1.7.7 Diagrama de Pareto

Una Gráfica Pareto es utilizada para separar gráficamente los aspectos significativos de un
problema desde los triviales, de manera que un equipo sepa dónde dirigir sus esfuerzos para
mejorar. El Diagrama de Pareto consiste en un gráfico de barras similar al histograma que se
conjuga con una ojiva o curva de tipo creciente y que representa en forma decreciente el
grado de importancia o peso que tienen los diferentes factores que afectan a un proceso,
operación o resultado. Se utiliza:

• Al identificar y analizar un producto o servicio para mejorar la calidad.

• Cuando existe la necesidad de llamar la atención a los problemas o causas de una


forma sistemática.
9
• Al analizar las diferentes agrupaciones de datos (ejemplo: por producto, por segmento
del mercado, área geográfica, etc.)

• Al buscar las causas principales de los problemas y establecer la prioridad de las


soluciones.

• Al evaluar los resultados de los cambios efectuados a un proceso (antes y después).

• Cuando los datos puedan agruparse en categorías.

1.7.8 Diagrama de puntos

Es una variación del diagrama lineal simple el cual está formado por líneas rectas o curvas,
que resultan de la representación, en un eje de coordenadas, de distribuciones de frecuencias,
este se construye colocando en el eje x los valores correspondientes a la variable y en el eje de
las ordenadas el valor correspondiente a la frecuencia para este valor. Proporciona
principalmente información con respecto a las frecuencias. Este se usa cuando solo se necesita
información sobre la frecuencia. Cuando la muestra se agrupa por intervalos se trabaja con la
marca de clase del intervalo de clase, la marca de clase es el punto medio del intervalo.

1.8 Histograma

1.8.1 Diagrama de barras

Nombre que recibe el diagrama utilizado para representar gráficamente distribuciones


discretas de frecuencias no agrupadas. Se llama así porque las frecuencias de cada categoría
de la distribución se hacen figurar por trazos o columnas de longitud proporcional, separados
unos de otros. Existen tres principales clases de gráficos de barras:

 Barra simple: se emplean para graficar hechos únicos

 Barras múltiples: es muy recomendable para comprar una serie estadística con
otra, para ello emplea barras simples se distinto color o tramado en un mismo plano
cartesiano, una al lado de la otra

 Barras compuestas: en este método de graficación las barras de la segunda serie se


colocan encima de las barras de la primera serie en forma respectiva.

El diagrama de barras proporciona información comparativa principalmente y este es su uso


principal, este diagrama también muestra la información referente a las frecuencias.

1.8.2 Polígono de frecuencias

Se construye uniendo los puntos medios de los lados superiores de cada rectángulo contenido
en el histograma de frecuencias.

10
La finalidad del polígono de frecuencias es destacar la cantidad y continuidad de la
característica en particular.

1.8.3 Ojivas

La gráfica de una distribución de frecuencias acumuladas se llama ojiva. En el caso de


distribuciones acumuladas del tipo “y menor que”, esta gráfica indica las frecuencias
acumuladas bajo cada límite exacto de clase de la distribución de frecuencias. Es conocida
también como polígono de frecuencias acumulada ya que es la representación de las
frecuencias acumuladas.

1.8.4 Gráficas muestrales

Es un gráfico que se basa en una proporcionalidad entre la frecuencia y el ángulo central de


una circunferencia, de tal manera que a la frecuencia total le corresponde el ángulo central de
360°. Para construir se aplica la siguiente fórmula:

𝑥(𝑔𝑟𝑎𝑑𝑜𝑠) = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 ∗ 360

Este se usa cuando se trabaja con datos que tienen grandes frecuencias, y los valores de la
variable son pocos, la ventaja que tiene este diagrama es que es fácil de hacer y es entendible
fácilmente, la desventaja que posee es que cuando los valores de la variable son muchos es
casi imposible o mejor dicho no informa mucho este diagrama y no es productivo,
proporciona principalmente información acerca de las frecuencias de los datos de una manera
entendible y sencilla.

11

Anda mungkin juga menyukai