Anda di halaman 1dari 10

CLASE 1. CONCEPTOS BASICOS 1.

Estadstica La estadstica es una ciencia formal que estudia la recoleccin, anlisis e interpretacin de datos, ya sea para ayudar en la toma de decisiones o para explicar condiciones regulares o irregulares de algn fenmeno o estudio aplicado, de ocurrencia en forma aleatoria o condicional. Sin embargo, la estadstica es ms que eso, es decir, es el vehculo que permite llevar a cabo el proceso relacionado con la investigacin cientfica. Es transversal a una amplia variedad de disciplinas, desde la fsica hasta las ciencias sociales, desde las ciencias de la salud hasta el control de calidad. Se usa para la toma de decisiones en reas de negocios o instituciones gubernamentales. Si buscamos en el Diccionario de la Real Academia Espaola de la Lengua (DRAE) el vocablo Estadstica aparecen tres acepciones de dicha palabra: 1. Estudio de los datos cuantitativos de la poblacin, de los recursos naturales e industriales, del trfico o de cualquier otra manifestacin de las sociedades humanas (Estadstica descriptiva). 2. Conjunto de estos datos (Estadsticas). 3. Rama de la matemtica que utiliza grandes conjuntos de datos numricos para obtener inferencias basadas en el clculo de probabilidades (Estadstica Inferencial). Probablemente el ms comn de los significados conocidos de la palabra sea el segundo, y por ello solemos ver en los medios de comunicacin que cualquier recopilacin de cifras referentes a algn asunto es llamado (de forma muy reduccionista) estadstica o estadsticas. Sin embargo, el valor real de la Estadstica como ciencia tiene que ver mucho ms con la primera y la tercera acepcin del DRAE. Concretamente, el primero de los significados se corresponde con lo que vamos a estudiar como Estadstica Descriptiva, donde la Estadstica se utiliza para resumir, describir y explorar datos, y el tercero con lo que denominaremos Inferencia Estadstica, donde lo que se pretende mediante la Estadstica es utilizar datos de un conjunto reducido de casos para inferir caractersticas de stos al conjunto de todos ellos.

La estadstica se divide en dos grandes reas:

La estadstica descriptiva, se dedica a la descripcin, visualizacin y resumen de datos originados a partir de los fenmenos de estudio. Los datos pueden ser resumidos numrica o grficamente. Ejemplos bsicos de parmetros estadsticos son: la media y la desviacin estndar. Algunos ejemplos grficos son: histograma, pirmide poblacional, clsters, entre otros. La estadstica inferencial, se dedica a la generacin de los modelos, inferencias y predicciones asociadas a los fenmenos en cuestin teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la poblacin bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no (prueba de hiptesis), 1

estimaciones de unas caractersticas numricas (estimacin), pronsticos de futuras observaciones, descripciones de asociacin (correlacin) o modelamiento de relaciones entre variables (anlisis de regresin). Otras tcnicas de modelamiento incluyen anova, series de tiempo y minera de datos. Ambas ramas (descriptiva e inferencial) comprenden la estadstica aplicada. Hay tambin una disciplina llamada estadstica matemtica, la que se refiere a las bases tericas de la materia. La palabra estadsticas tambin se refiere al resultado de aplicar un algoritmo estadstico a un conjunto de datos, como en estadsticas econmicas, estadsticas criminales, entre otros. Historia Origen El trmino alemn Statistik, introducido originalmente por Gottfried Achenwall en 1749, se refera al anlisis de datos del Estado, es decir, la "ciencia del Estado" (o ms bien, de la ciudad-estado). Tambin se llam aritmtica poltica de acuerdo con la traduccin literal del ingls. No fue hasta el siglo XIX cuando el trmino estadstica adquiri el significado de recolectar y clasificar datos. Este concepto fue introducido por el militar britnico Sir John Sinclair (1754-1835). En su origen, por tanto, la Estadstica estuvo asociada a los Estados o ciudades libres, para ser utilizados por el gobierno y cuerpos administrativos (a menudo centralizados). La coleccin de datos acerca de estados y localidades contina ampliamente a travs de los servicios de estadsticas nacionales e internacionales. En particular, los censos comenzaron a suministrar informacin regular acerca de la poblacin de cada pas. As pues, los datos estadsticos se referan originalmente a los datos demogrficos de una ciudad o estado determinados. Y es por ello por lo que en la clasificacin decimal de Chester Dewey empleada en las bibliotecas, todas las obras sobre estadstica se encuentran ubicadas al lado de las obras de o sobre la demografa. Ya se utilizaban representaciones grficas y otras medidas en pieles, rocas, palos de madera y paredes de cuevas para controlar el nmero de personas, animales o ciertas mercancas. Hacia el ao 3000 a. C. los babilonios usaban ya pequeos envases moldeados de arcilla para recopilar datos sobre la produccin agrcola y de los gneros vendidos o cambiados. Los egipcios analizaban los datos de la poblacin y la renta del pas mucho antes de construir las pirmides en el siglo XI a. C. Los libros bblicos de Nmeros y Crnicas incluyen en algunas partes trabajos de estadstica. La estadstica tiene dos censos de la poblacin de la Tierra de Israel y el segundo describe el bienestar material de las diversas tribus judas. En China existan registros numricos similares con anterioridad al ao 2000 a. C. Los antiguos griegos realizaban censos cuya informacin se utilizaba hacia el 594 a. C. para cobrar impuestos. Orgenes en probabilidad Los mtodos estadstico-matemticos emergieron desde la teora de probabilidad, la cual data desde la correspondencia entre Pascal y Pierre de Fermat (1654). Christian Huygens (1657) da el primer tratamiento cientfico que se conoce a la materia. El Ars coniectandi (pstumo, 1713) de Jakob Bernoulli y la Doctrina de posibilidades (1718) de Abraham de 2

Moivre estudiaron la materia como una rama de las matemticas. En la era moderna, el trabajo de Kolmogrov ha sido un pilar en la formulacin del modelo fundamental de la Teora de Probabilidades, el cual es usado a travs de la estadstica. La teora de errores se puede remontar a la pera miscellnea (pstuma, 1722) de Roger Cotes y al trabajo preparado por Thomas Simpson en 1755 (impreso en 1756) el cual aplica por primera vez la teora de la discusin de errores de observacin. La reimpresin (1757) de este trabajo incluye el axioma de que errores positivos y negativos son igualmente probables y que hay unos ciertos lmites asignables dentro de los cuales se encuentran todos los errores; se describen errores continuos y una curva de probabilidad. Pierre-Simon Laplace (1774) hace el primer intento de deducir una regla para la combinacin de observaciones desde los principios de la teora de probabilidades. Laplace represent la Ley de probabilidades de errores mediante una curva y dedujo una frmula para la media de tres observaciones. Tambin, en 1871, obtiene la frmula para la ley de facilidad del error (trmino introducido por Lagrange, 1744) pero con ecuaciones inmanejables. Daniel Bernoulli (1778) introduce el principio del mximo producto de las probabilidades de un sistema de errores concurrentes. El mtodo de mnimos cuadrados, el cual fue usado para minimizar los errores en mediciones, fue publicado independientemente por Adrien-Marie Legendre (1805), Robert Adrain (1808), y Carl Friedrich Gauss (1809). Gauss haba usado el mtodo en su famosa prediccin de la localizacin del planeta enano Ceres en 1801. Pruebas adicionales fueron escritas por Laplace (1810, 1812), Gauss (1823), James Ivory (1825, 1826), Hagen (1837), Friedrich Bessel (1838), W.F. Donkin (1844, 1856), John Herschel (1850) y Morgan Crofton (1870). Otros contribuidores fueron Ellis (1844), Augustus De Morgan (1864), Glaisher (1872) y Giovanni Schiaparelli (1875). La frmula de Peters para , el probable error de una observacin simple es bien conocido. El siglo XIX incluye autores como Laplace, Silvestre Lacroix (1816), Littrow (1833), Richard Dedekind (1860), Helmert (1872), Hermann Laurent (1873), Liagre, Didion y Karl Pearson. Augustus De Morgan y George Boole mejoraron la presentacin de la teora. Adolphe Quetelet (1796-1874), fue otro importante fundador de la estadstica y quien introdujo la nocin del hombre promedio (lhomme moyen) como un medio de entender los fenmenos sociales complejos tales como tasas de criminalidad, tasas de matrimonio o tasas de suicidios.

2. La Estadstica en el mbito de la Ciencia y la Ingeniera El papel de la Estadstica en la Ciencia y la Ingeniera hoy en da es crucial, fundamentalmente porque al analizar datos recopilados en experimentos de cualquier tipo, se observa en la mayora de las ocasiones que dichos datos estn sujetos a algn tipo de incertidumbre. El investigador o el profesional debe tomar decisiones respecto de su objeto de anlisis basndose en esos datos, para lo cual debe dotarse de herramientas adecuadas.

3. Definiciones bsicas 3.1. Poblacin

Se denomina poblacin a un conjunto de individuos o casos, objetivo de nuestro inters. Podemos distinguir entre poblaciones tangibles y poblaciones conceptuales. 3.1.1. Poblacin tangible Una poblacin es tangible si consta de elementos fsicos reales que forman un conjunto finito. Por ejemplo, si estamos considerando el estudio de la altura de los alumnos de la Escuela, el conjunto de estos alumnos es una poblacin tangible. 3.1.2. Poblacin conceptual Una poblacin conceptual no tiene elementos reales, sino que sus casos se obtienen por la repeticin de un experimento. Por ejemplo, cuando plantebamos las pruebas de compresin de concreto, vemos que hay tantos casos como pruebas puedan hacerse, lo que supone un conjunto infinito de casos. En poblaciones conceptuales es imposible, por tanto, conocer todos los casos, y tenemos que conformarnos con muestras de los mismos. 3.2. Variable

Una variable o dato es una caracterstica concreta de una poblacin. Por ejemplo: Si consideramos la poblacin de todos los alumnos de la Escuela, podemos fijarnos en la variable altura. Si consideramos el supuesto de las pruebas de compresin de concreto, podemos considerar la variable esfuerzo de compresin. 3.3. Muestra

Se denomina muestra a cualquier subconjunto de datos seleccionados de una poblacin. El objetivo de una muestra, ya sea en una poblacin tangible o en una poblacin conceptual es que los elementos de la muestra representen al conjunto de todos los elementos de la poblacin. Esta cuestin, la construccin de muestras adecuadas, representativas, es uno de los aspectos ms delicados de la Estadstica. 3.4. Muestras aleatorias simples

En una muestra aleatoria simple, todos los elementos de la poblacin deben tener las mismas posibilidades de salir en la muestra y, adems, los elementos de la muestra deben ser independientes, es decir, el que salga un resultado en la muestra no debe afectar a que ningn otro resultado salga en la muestra. Por ejemplo, podramos estar interesados en la poblacin de todos los peruanos con derecho a voto (poblacin tangible, pero enorme), de los que querramos conocer un dato o variable, su intencin de voto en las prximas elecciones generales. Dado que estamos 4

hablando de millones de personas, probablemente deberemos escoger una muestra, es decir, un subconjunto de peruanos a los que se les realizara una encuesta. Si queremos que esa muestra sea aleatoria simple, deberemos tener cuidado de que todos los Peruanos con derecho a voto tengan las mismas posibilidades de caer en la muestra y de que la respuesta de un entrevistado no afecte a la de ningn otro. Como nota curiosa, se sabe que algunas encuestas nacionales se hacen va telefnica, lo cual es una pequea violacin de las hiptesis de muestra aleatoria simple, ya que hay peruanos con derecho a voto que no tienen telfono, luego es imposible que salgan en la muestra. 4. Estadstica descriptiva 4.1. Introduccin

Obtenidos a travs de encuestas, experimentos o cualquier otro conjunto de medidas, los datos estadsticos suelen ser tan numerosos que resultan prcticamente intiles si no son resumidos de forma adecuada. Para ello la Estadstica utiliza tanto tcnicas grficas como numricas, algunas de las cuales se describirn. Podemos decir que existe una clasificacin, un tanto artificial, de los datos, segn se refieran a una poblacin tangible, en cuyo caso se conocern todos los casos, o a una poblacin conceptual, en cuyo caso slo se conocer una muestra (aleatoria simple). Sin embargo, esta clasificacin no tiene ningn efecto en lo relativo a lo que vamos a estudiar. 4.2. Tipos de datos

Los datos (o variables) pueden ser de dos tipos: cuantitativos y cualitativos. 4.2.1. Datos cuantitativos Los datos cuantitativos son los que representan una cantidad reflejada en una escala numrica. A su vez, pueden clasificarse como datos cuantitativos discretos si se refieren al conteo de alguna caracterstica, o datos cuantitativos continuos si se refieren a una medida. 4.2.2. Datos cualitativos Los datos cualitativos o categricos se refieren a caractersticas de la poblacin que no pueden asociarse a cantidades con significado numrico, sino a caractersticas que slo pueden clasificarse. Ejemplos. - El caudal de un ro, es un dato cuantitativo continuo, medido en m3/s. - El nmero de individuos de una especie de ave en un estuario en un determinado da, es un dato cuantitativo discreto, medido en nmero de aves. - El sexo de una persona, es un dato cualitativo, puede ser masculino o femenino. - El estado de nubosidad, es un dato cualitativo, nublado o despejado.

4.3.

Mtodos grficos y numricos para describir datos cualitativos

La forma ms sencilla de describir de forma numrica una variable cualitativa es determinar su distribucin de frecuencias. Por su parte, esta distribucin de frecuencias determina a su vez las representaciones grficas ms usuales. 4.3.1. Distribucin de frecuencias Supongamos que tenemos una variable cualitativa, que toma una serie de posibles valores (categoras). El nmero de veces que se da cada valor es la distribucin de frecuencias de la variable. Si en vez de dar el nmero de veces nos fijamos en la proporcin de veces, tenemos la distribucin de frecuencias relativas. Las representaciones grficas ms usuales son los diagramas de barras y los diagramas de sectores. 4.3.2. Representaciones grficas a. Barras Los diagramas de barras son una representacin de cada una de las categoras de la variable mediante una barra colocada sobre el eje X y cuya altura sea la frecuencia o la frecuencia relativa de dichas categoras. b. Diagramas de sectores Los diagramas de sectores son crculos divididos en tantos sectores como categoras, sectores cuyo ngulo debe ser proporcional a la frecuencia de cada categora. Ejemplo. Tomamos como poblacin los 98 reactores nucleares ms grandes en todo el mundo. Nos fijamos en la variable o dato referente al pas donde estn localizados.

Figura. Diagrama de barras.

Figura. Diagrama de sectores. 2.4. Mtodos grficos para describir datos cuantitativos Si tenemos una variable cuantitativa discreta y sta toma pocos valores, podemos tratarla como si fuera una variable cualitativa, calcular su distribucin de frecuencias y dibujar un diagrama de barras. Ejemplo. En una empresa con cadena de montaje donde se empaquetan piezas en cajas se realiza un estudio sobre la calidad de produccin. Los datos siguientes informan sobre el nmero de piezas defectuosas encontradas en una muestra de cajas examinadas: 7

000000111111111222222222233333334444444555566666 777889

Figura: Diagrama de barras. Sin embargo, la mayora de variables cuantitativas son de tipo continuo, de manera que toman demasiados valores como para que la representacin de su distribucin de frecuencias sea til. Por ello el mtodo grfico ms comn y tradicional para datos cuantitativos es el histograma. El histograma es una variante del diagrama de barras donde se agrupan los valores de la variable en intervalos para que estos intervalos tengan frecuencias mayores que uno. Para obtener un histograma de forma manual deben seguirse los siguientes pasos: 1. Calculamos el nmero, N, de intervalos que vamos a utilizar. Se recomienda que sea aproximadamente igual a la raz cuadrada del nmero de datos. Sin embargo, los programas estadsticos suelen utilizar otro mtodo, llamado Mtodo de Sturges, en el que N = [log2 n + 1], donde n es el nmero de datos y [ ] es la funcin parte entera. La regla de Sturges es expresada como 1 3.322 log

2. Calculamos el rango, R, del histograma, que ser ligeramente ms amplio que el rango de los datos. El histograma debe comenzar en un nmero (xm) ligeramente por debajo del mnimo de los datos y terminar en un nmero (xM) ligeramente por encima del mximo. El rango del histograma ser, por tanto, R = xM - xm. 3. Calculamos la longitud, L, de los intervalos, como el cociente entre el rango del histograma y el nmero de intervalos, es decir, L = R/N. 4. Se construyen los N intervalos:

Ejemplo. Los datos siguientes corresponden al tiempo necesario para procesar 25 trabajos en una CPU. 1.17 1.61 1.16 1.38 3.53 1.23 3.76 1.94 0.96 4.75 0.15 2.41 0.71 0.02 1.59 0.19 0.82 0.47 2.16 2.01 0.92 0.75 2.59 3.07 1.4 Vamos a calcular un histograma para esos datos. 1. Dado que 25 = 5, utilizaremos 5 intervalos. 2. El mnimo de los datos es 0.02 y el mximo 4.75, de manera que podemos considerar como rango del histograma el intervalo [0; 4.8], cuya longitud (rango del histograma) es 4.8: 3. La longitud de los intervalos es, en ese caso, 4.8/5 = 0:96. 4. Construimos los intervalos: I1 = [0; 0:96) I2 = [0:96; 1:92) I3 = [1:92; 2:88) I4 = [2:88; 3:84) I5 = [3:84; 4:8) 5. Calculamos la distribucin de frecuencia asociada a esos intervalos: Tiempo de procesado Frecuencia [0; 0:96) 8 [0:96; 1:92) 8 [1:92; 2:88) 5 [2:88; 3:84) 3 [3:84; 4:8) 1 6. Finalmente, representamos el diagrama de barras (Figura).

Figura. Histograma.

10

Anda mungkin juga menyukai