domingo, 1 de julio de 2012

División de la Estadística y su Objeto de Estudio


División de la Estadística y su Objeto de Estudio

La Estadística se puede clasificar en función de su etapa o función, del tiempo considerado o del número de variables estudiadas.

La Estadística es una disciplina que utiliza recursos matemáticos para organizar y resumir una gran cantidad de datos obtenidos de la realidad, e inferir conclusiones respecto de ellos. Tiene como propósito la descripción del conjunto de datos colectados, así como la generalización y/o toma de decisiones acerca de las características de todas las observaciones potenciales bajo consideración. En consecuencia nos permite organizar y resumir datos para poder realizar inferencias (conclusiones) relativas a los mismos. Para su mejor estudio se han creado varias formas de clasificar los estudios estadísticos. Algunas de las más comunes son las siguientes:

“Clasificación de la Estadística según la etapa o función”

Generalmente se considera que la estadística tiene dos funciones (divisiones). Hay una estadística descriptiva y una estadística inferencial. La primera etapa se ocupa de describir la muestra, y la segunda etapa infiere conclusiones a partir de los datos que describen la muestra (por ejemplo con respecto a la población). A continuación, se dará paso a describir brevemente, cada etapa.

Estadística Descriptiva o Deductiva

Se refiere a la recolección, presentación, descripción, análisis e interpretación de una colección de datos, esencialmente consiste en resumir éstos con uno o dos elementos de información (medidas descriptivas) que caracterizan la totalidad de los mismos.

La Estadística Descriptiva recolecta, describe, analiza, interpreta y presenta los datos de una población en forma de tablas y gráficas

Consiste sobre todo en la presentación de datos en forma de tablas y gráficas; así que se emplea simplemente para resumir de forma numérica o gráfica un conjunto de datos. Esta comprende cualquier actividad relacionada con los datos y está diseñada para resumir o describir los mismos sin factores pertinentes adicionales; esto es, sin intentar inferir nada que vaya más allá de los datos, como tales.

La estadística Descriptiva es el método de obtener de un conjunto de datos conclusiones sobre sí mismos y no sobrepasan el conocimiento proporcionado por éstos. Puede utilizarse para resumir o describir cualquier conjunto ya sea que se trate de una población o de una muestra, cuando en la etapa preliminar de la Inferencia Estadística se conocen los elementos de una muestra.

Así pues, si aplicamos las herramientas ofrecidas por la estadística descriptiva a una muestra, solo nos limitaremos a describir los datos encontrados en dicha muestra, por lo que no se podrá generalizar la información hacia la población.

Estadística Inferencial o Inductiva

La Estadística Inferencial trabaja a base de muestras para inferir aspectos de la población.

La estadística descriptiva trabaja con todos los individuos de la población. La estadística inferencial, sin embargo, trabaja con muestras, subconjuntos formados por algunos individuos de la población. A partir del estudio de la muestra se pretende inferir aspectos relevantes de toda la población. Cómo se selecciona la muestra, cómo se realiza la inferencia, y qué grado de confianza se puede tener en ella son aspectos fundamentales de la estadística inferencial, para cuyo estudio se requiere un alto nivel de conocimientos de estadística, probabilidad y matemáticas.

Para que éstas generalizaciones sean válidas la muestra deben ser representativa de la población y la calidad de la información debe ser controlada, además puesto que las conclusiones así extraídas están sujetas a errores, se tendrá que especificar el riesgo o probabilidad que con que se pueden cometer esos errores.

La Estadística Inferencial investiga o analiza una población partiendo de una muestra tomada. Es así que permite realizar conclusiones o inferencias, basándose en los datos simplificados y analizados de una muestra hacia la población o universo.

Por ejemplo, a partir de una muestra representativa tomada a los habitantes de una ciudad, se podrá inferir la votación de todos los ciudadanos que cumplan los requisitos con un error de aproximación.

En sus particularidades la Inferencia distingue la Estimación (cuando se usan las características de la muestra para hacer inferencias sobre las características de la población) y la Contrastación de Hipótesis (cuando se usa la información de la muestra para responder a interrogantes sobre la población).

“Clasificación de la Estadística según el tiempo considerado”

Si se clasifica la Estadística en base al tiempo considerado, tenemos la Estadística Estática (datos de la actualidad) y la Estadística Evolutiva (datos del pasado).

Dentro de la estadística descriptiva se distinguen los datos en función al tiempo en que se encuentra analizada la población; de esta manera, tenemos 2 clasificaciones:

Estadística Estática o Estructural

La estadística estática o estructural, que describe la población en un momento dado empleando datos de la actualidad (por ejemplo la tasa de nacimientos en determinado censo)

Estadística Dinámica o Evolutiva

La estadística dinámica o evolutiva, que describe como va cambiando la población en el tiempo empleando datos del pasado (por ejemplo el aumento anual en la tasa de nacimientos).

“Clasificación de la Estadística según la cantidad de variables estudiada”

También, se puede clasificar a la Estadística en función de la cantidad de variables que están siendo estudiadas en determinado problema estadístico. Desde este punto de vista hay una estadística univariada (estudia una sola variable, como por ejemplo la inteligencia, en una muestra), una estadística bivariada (estudia cómo están relacionadas dos variables, como por ejemplo inteligencia y alimentación), y una estadística multivariada (que estudia tres o más variables, como por ejemplo como están relacionados el sexo, la edad y la alimentación con la inteligencia).

Estadística Univariada

Un ejemplo perfecto del análisis estadístico univariado, es la utilización del promedio o media aritmética, pues sólo se mide una variable.

Cuando el análisis presenta característica por característica, aisladamente, estaremos en presencia de un análisis estadístico univariado. Esto quiere decir, que se está estudiando una sola variable.

El análisis univariado es el análisis básico, primario. Las características o propiedades de las personas o cosas han de medirse una a una, de modo univariado y si se presentan de esa manera decimos que es análisis univariado.

Los estadísticos básicos que conocemos, como la media, la mediana, la moda, la varianza, los porcentajes, entre otros, miden una variable. Es decir, fueron hechos univariados.

Ahora bien este tipo de análisis ha sido muy criticado ya que la realidad se presenta interconectada, relacionada. Por ejemplo existe una relación entre el peso y la talla de las personas o entre la el interés y el rendimiento escolar, etc.

Como la realidad se presenta relacionada necesitamos métodos más rigurosos para evaluarla. Esto lo podemos hacer de dos modos; El primero es medir las variables de modo univariado (analizarlas) y relacionarlas luego en la interpretación.

Estadística Bivariada

La Estadística bivariada, busca la relación entre 2 variables, mediante la elaboración de índices y resultados estadísticos

La estadística univariada se aplica, por lo general, en explotaciones estadísticas básicas de la fuente de datos (frecuencias, porcentajes, promedios, tasas…). La estadística bivariada trata de ir más allá elaborando índices y resultados estadísticos en términos de relaciones entre dos variables de interés, así como de establecer inferencias sobre una población a partir de datos que provienen de una muestra (como, por ejemplo, en los estudios mediante encuesta).

El conjunto de técnicas estadísticas bivariadas difiere en función del tipo de datos de los que se dispone (niveles de medida: nominal, ordinal, intervalo, razón), adaptándose en todo momento al contexto de análisis aplicado en el que nos encontremos.

Estadística Multivariada

La Estadística multivariada tiene diversas aplicaciones en una enorme cantidad de áreas, como los son: la agricultura, el deporte, la psicología, la economía, etc.

Los métodos estadísticos multivariantes y el análisis multivariante son herramientas estadísticas que estudian el comportamiento de tres o más variables al mismo tiempo. Se usan principalmente para buscar las variables menos representativas para poder eliminarlas, simplificando así modelos estadísticos en los que el número de variables sea un problema y para comprender la relación entre varios grupos de variables. Algunos de los métodos más conocidos y utilizados son la Regresión lineal y el Análisis discriminante.

Se pueden sintetizar dos objetivos claros:

1.    Proporcionar métodos cuya finalidad es el estudio conjunto de datos multivariantes que el análisis estadístico uni y bidimensional es incapaz de conseguir.

2.    Ayudar al analista o investigador a tomar decisiones óptimas en el contexto en el que se encuentre teniendo en cuenta la información disponible por el conjunto de datos analizado.

Los datos multivariados surgen cuando a un mismo individuo se le mide más de una característica de interés. Un individuo puede ser un objeto o concepto que se puede medir. Más generalmente, los individuos son llamados unidades experimentales. Ejemplos de objetos: personas, animales, terrenos, compañías, países, etc. Ejemplos de conceptos: amor, amistad, noviazgo, etc. Una variable es una característica o atributo que se le mide a un individuo.

Las aplicaciones de la estadística multivariada están presentes en distintas áreas o ramas de la ciencias, como por ejemplo en: Investigación de mercados (para identificar características de los individuos con el propósito de determinar qué tipo de personas compran determinado producto); en el sistema de educación de cualquier tipo de especialidad (para conocer los estudiantes que tendrán éxito y concluirán satisfactoriamente sus estudios); en la agricultura (al estudiar la resistencia de determinado tipo de cosechas a daños por plagas y sequías); en el deporte (para conocer a partir de medidas antropométricas las posibilidades de obtener buenos resultados en un deporte específico); en la psicología (al estudiar la relación entre el comportamiento de adolescentes y actitudes de los padres); en la economía (para conocer el nivel de desarrollo de un territorio en relación con otros y realizar inferencias a partir de variables económicas fundamentales, entre otros).

Historia de la Estadística


Origen, Avance y Desarrollo Histórico

“Surgimiento de la Estadística en la Antigüedad”

La estadística surgió en épocas muy remotas; como todas las ciencias, no se creó de improviso, sino mediante un proceso largo de desarrollo y evolución, desde hechos de simple recolección de datos hasta la diversidad y rigurosa interpretación de los datos que se dan hoy en día.

Desde los comienzos de la civilización han existido formas sencillas de estadística, pues ya se utilizaban representaciones gráficas y otros símbolos en pieles, rocas, palos de madera y paredes de cuevas para contar el número de personas, animales o cosas. Es una ciencia con tanta antigüedad como la escritura, y es por sí misma auxiliar de todas las demás ciencias.

El nacimiento de la Estadística se puede situar en el año 3050 A.C., en el Antiguo Egipto.

Los mercados, la medicina, la ingeniería, los gobiernos, etc. se nombran entre los más destacados clientes de esta ciencia.

Los comienzos de la estadística pueden ser hallados en el antiguo Egipto, cuyos faraones lograron recopilar, hacia el año 3050 a. C., prolijos datos relativos a la población y la riqueza del país.

De acuerdo al historiador griego Heródoto, dicho registro de riqueza y población se hizo con el objetivo de preparar la construcción de las pirámides. En el mismo Egipto, Ramsés II hizo un censo de las tierras con el objeto de verificar un nuevo reparto.

Hacia el año 3000 a.C. los babilonios usaban pequeñas tablillas de arcilla para recopilar datos sobre la producción agrícola y sobre los géneros vendidos o cambiados mediante trueque. En el antiguo Israel la Biblia da referencia del uso estadístico, principalmente en los libros de Números y Crónicas que incluyen, en algunas partes, trabajos de esta índole. El primero contiene dos censos de la población de Israel y el segundo describe el bienestar material de las diversas tribus judías.

En China se efectuaron censos de población, pues varios registros numéricos con anterioridad al año 2000 a.C. dan fe de ello. Los griegos efectuaron censos periódicamente hacia 594 a. C., con fines tributarios, sociales (división de tierras) y militares (cálculo de recursos y hombres disponibles). La investigación histórica revela que se realizaron 69 censos para calcular los impuestos, determinar los derechos de voto y ponderar la potencia guerrera.

El Imperio Romano, fue el primer gobierno en emplear los recursos estadísticos para calcular su población, su superficie territorial y renta de sus territorios.

El Imperio romano, maestro de la organización política, fue el primer gobierno que supo emplear los recursos de la estadística, mediante la recopilación de una gran cantidad de datos sobre la población, superficie y renta de todos los territorios bajo su control: cada cinco años realizaban un censo de la población y sus funcionarios públicos tenían la obligación de anotar nacimientos, defunciones y matrimonios, sin olvidar los recuentos periódicos del ganado y de las riquezas contenidas en las tierras conquistadas. Para el nacimiento de Cristo sucedía uno de estos empadronamientos de la población bajo la autoridad del imperio.

Durante los mil años siguientes a la caída del imperio Romano realizaron operaciones sobre las relaciones de tierras pertenecientes a la Iglesia; en la edad media sólo se realizaron algunos censos exhaustivos en Europa. Los reyes caloringios Pipino el Breve y Carlomagno ordenaron hacer estudios minuciosos de las propiedades de la Iglesia en los años 758 y 762 respectivamente.

“Desarrollo y avances en la Estadística”

Durante el siglo IX se realizaron en Francia algunos censos parciales de siervos. En Inglaterra, después de la conquista normanda en 1066, Guillermo el Conquistador encargó la realización de un censo. La información obtenida fue recopilada en el Domesday Book o libro del Gran Catastro para el año 1086, un documento de la propiedad, extensión y valor de las tierras de Inglaterra. Esa obra fue el primer compendio estadístico de Inglaterra.

Guillermo el Conquistador ordenó en 1066 un censo, recopilado en el “Libro del Gran Castro”, considerado el primer compendio estadístico de Inglaterra.

Aunque Carlomagno, en Francia; y Guillermo el Conquistador, en Inglaterra, trataron de revivir la técnica romana, los métodos estadísticos permanecieron casi olvidados durante la Edad Media.

Durante los siglos XV, XVI, y XVII, hombres como Leonardo de Vinci, Nicolás Copérnico, Galileo, Neper, William Harvey, Sir Francis Bacon y René Descartes, hicieron grandes operaciones al método científico, de tal forma que cuando se crearon los Estados Nacionales y surgió como fuerza el comercio internacional existía ya un método capaz de aplicarse a los datos económicos.

Por el año 1540 el alemán Sebastián Muster realizó una compilación estadística de los recursos nacionales, comprensiva de datos sobre organización política, instrucciones sociales, comercio y poderío militar. Durante el siglo XVII aportó indicaciones más concretas de métodos de observación y análisis cuantitativo y amplió los campos de la inferencia y la teoría Estadística.

Los eruditos del siglo XVII demostraron especial interés por la Estadística Demográfica como resultado de la especulación sobre si la población aumentaba, decrecía o permanecía estática. En los tiempos modernos tales métodos fueron resucitados por algunos reyes que necesitaban conocer las riquezas monetarias y el potencial humano de sus respectivos países.

El primer empleo de los datos estadísticos para fines ajenos a la política tuvo lugar en 1691 y estuvo a cargo de Gaspar Neumann, un profesor alemán que vivía en Breslau. Este investigador se propuso destruir la antigua creencia popular de que en los años terminados en siete moría más gente que en los restantes, y para lograrlo hurgó pacientemente en los archivos parroquiales de la ciudad. Después de revisar miles de partidas de defunción pudo demostrar que en tales años no fallecían más personas que en los demás. Los procedimientos de Neumann fueron conocidos por el astrónomo inglés Halley, descubridor del cometa que lleva su nombre, quien los aplicó al estudio de la vida humana. Sus cálculos sirvieron de base para las tablas de mortalidad que hoy utilizan todas las compañías de seguros.

Durante el siglo XVII y principios del XVIII, matemáticos como Bernoulli, Francis Maseres, Lagrange y Laplace desarrollaron la teoría de probabilidades. No obstante durante cierto tiempo, la teoría de las probabilidades limitó su aplicación a los juegos de azar y hasta el siglo XVIII no comenzó a aplicarse a los grandes problemas científicos.

En 1760, Godofredo Achenwall, acuñó la palabra “Estadística”.

Godofredo Achenwall, profesor de la Universidad de Gotinga, acuñó en 1760 la palabra estadística, que extrajo del término italiano statista (estadista). Creía, y con sobrada razón, que los datos de la nueva ciencia serían el aliado más eficaz del gobernante consciente. La raíz remota de la palabra se halla, por otra parte, en el término latino status, que significa estado o situación; Esta etimología aumenta el valor intrínseco de la palabra, por cuanto la estadística revela el sentido cuantitativo de las más variadas situaciones.

Jacques Quételect es quien aplica las Estadísticas a las ciencias sociales. Este interpretó la teoría de la probabilidad para su uso en las ciencias sociales y resolver la aplicación del principio de promedios y de la variabilidad a los fenómenos sociales. Quételect fue el primero en realizar la aplicación práctica de todo el método Estadístico, entonces conocido, a las diversas ramas de la ciencia.

Entretanto, en el período del 1800 al 1820 se desarrollaron dos conceptos matemáticos fundamentales para la teoría Estadística; la teoría de los errores de observación, aportada por Laplace y Gauss; y la teoría de los mínimos cuadrados desarrollada por Laplace, Gauss y Legendre.

A finales del siglo XIX, Sir Francis Gaston ideó el método conocido por Correlación, que tenía por objeto medir la influencia relativa de los factores sobre las variables. De aquí partió el desarrollo del coeficiente de correlación creado por Karl Pearson y otros cultivadores de la ciencia biométrica como J. Pease Norton, R. H. Hooker y G. Udny Yule, que efectuaron amplios estudios sobre la medida de las relaciones.

“Nacimiento de la Estadística Moderna”

Ronald Arnold Fisher, figura más influyente de la Estadística.

Una vez sentadas las bases de la teoría de probabilidades, podemos situar el nacimiento de la estadística moderna y su empleo en el análisis de experimentos en los trabajos de Francis Galton y Kurt Pearson. Este último publicó en 1892 el libro The Grammar of Science (La gramática de la ciencia), un clásico en la filosofía de la ciencia, y fue él quien ideó el conocido test de Chi -cuadrado. El hijo de Pearson, Egon, y el matemático nacido en Polonia Jerzy Neyman pueden considerarse los fundadores de las pruebas modernas de contraste de hipótesis.

Pero es sin lugar a dudas Ronald Arnold Fisher la figura más influyente de la estadística, pues la situó como una poderosa herramienta para la planeación y análisis de experimentos. Contemporáneo de Pearson, desarrolló el análisis de varianza y fue pionero en el desarrollo de numerosas técnicas de análisis multivariante y en la introducción del método de máxima verosimilitud para la estimación de parámetros. Su libro Statistical Methods for Research Workers (Métodos estadísticos para los investigadores), publicado en 1925, ha sido probablemente el libro de estadística más utilizado a lo largo de muchos años.

Mientras tanto, en Rusia, una activa y fructífera escuela de matemáticas y estadística aportó asimismo –como no podía ser de otro modo– su considerable influencia. Desde finales del siglo XVIII y comienzos del XIX cabe destacar las figuras de Pafnuty Chebichev y Andrei Harkov, y posteriormente las de Alexander Khinchin y Andrey Kolmogorov.

Sucesos de interés en el desarrollo de la estadística

A continuación se presenta una relación cronológica de diferentes sucesos que nos permiten tener una idea general de la evolución de la estadística

En el siglo XIX, con la generalización del método científico para estudiar todos los fenómenos de las ciencias naturales y sociales, los investigadores vieron la necesidad de reducir la información a valores numéricos para evitar la ambigüedad de las descripciones verbales.
Los progresos más recientes en el campo de la Estadística se refieren al ulterior desarrollo del cálculo de probabilidades, particularmente en la rama denominada indeterminismo o relatividad, se ha demostrado que el determinismo fue reconocido en la Física como resultado de las investigaciones atómicas y que este principio se juzga aplicable tanto a las ciencias sociales como a las físicas.

Aplicaciones de la Probabilidad

Aplicaciones

Dos aplicaciones principales de la teoría de la probabilidad en el día a día son en el análisis de riesgo y en el comercio de los mercados de materias primas. Los gobiernos normalmente aplican métodos probabilísticos en regulación ambiental donde se les llama "análisis de vías de dispersión", y a menudo miden el bienestar usando métodos que son estocásticos por naturaleza, y escogen qué proyectos emprender basándose en análisis estadísticos de su probable efecto en la población como un conjunto. No es correcto decir que la estadística está incluida en el propio modelado, ya que típicamente los análisis de riesgo son para una única vez y por lo tanto requieren más modelos de probabilidad fundamentales, por ej. "la probabilidad de otro 11-S". Una ley de números pequeños tiende a aplicarse a todas aquellas elecciones y percepciones del efecto de estas elecciones, lo que hace de las medidas probabilísticas un tema político.
Un buen ejemplo es el efecto de la probabilidad percibida de cualquier conflicto generalizado sobre los precios del petróleo en Oriente Medio - que producen un efecto dominó en la economía en conjunto. Un cálculo por un mercado de materias primas en que la guerra es más probable en contra de menos probable probablemente envía los precios hacia arriba o hacia abajo e indica a otros comerciantes esa opinión. Por consiguiente, las probabilidades no se calculan independientemente y tampoco son necesariamente muy racionales. La teoría de las finanzas conductuales surgió para describir el efecto de este pensamiento de grupo en el precio, en la política, y en la paz y en los conflictos.
Se puede decir razonablemente que el descubrimiento de métodos rigurosos para calcular y combinar los cálculos de probabilidad ha tenido un profundo efecto en la sociedad moderna. Por consiguiente, puede ser de alguna importancia para la mayoría de los ciudadanos entender cómo se calculan los pronósticos y las probabilidades, y cómo contribuyen a la reputación y a las decisiones, especialmente en una democracia.
Otra aplicación significativa de la teoría de la probabilidad en el día a día es en la fiabilidad. Muchos bienes de consumo, como los automóviles y la electrónica de consumo, utilizan la teoría de la fiabilidad en el diseño del producto para reducir la probabilidad de avería. La probabilidad de avería también está estrechamente relacionada con la garantía del producto.
Se puede decir que no existe una cosa llamada probabilidad. También se puede decir que la probabilidad es la medida de nuestro grado de incertidumbre, o esto es, el grado de nuestra ignorancia dada una situación. Por consiguiente, puede haber una probabilidad de 1 entre 52 de que la primera carta en un baraja sea la J de diamantes. Sin embargo, si uno mira la primera carta y la reemplaza, entonces la probabilidad es o bien 100% ó 0%, y la elección correcta puede ser hecha con precisión por el que ve la carta. La física moderna proporciona ejemplos importantes de situaciones determinísticas donde sólo la descripción probabilística es factible debido a información incompleta y la complejidad de un sistema así como ejemplos de fenómenos realmente aleatorios.
En un universo determinista, basado en los conceptos newtonianos, no hay probabilidad si se conocen todas las condiciones. En el caso de una ruleta, si la fuerza de la mano y el periodo de esta fuerza es conocido, entonces el número donde la bola parará será seguro. Naturalmente, esto también supone el conocimiento de la inercia y la fricción de la ruleta, el peso, lisura y redondez de la bola, las variaciones en la velocidad de la mano durante el movimiento y así sucesivamente. Una descripción probabilística puede entonces ser más práctica que la mecánica newtoniana para analizar el modelo de las salidas de lanzamientos repetidos de la ruleta. Los físicos se encuentran con la misma situación en la teoría cinética de los gases, donde el sistema determinístico en principio, es tan complejo (con el número de moléculas típicamente del orden de magnitud de la constante de Avogadro 6\cdot 10^{23}) que sólo la descripción estadística de sus propiedades es viable.
La mecánica cuántica, debido al principio de indeterminación de Heisenberg, sólo puede ser descrita actualmente a través de distribuciones de probabilidad, lo que le da una gran importancia a las descripciones probabilísticas. Algunos científicos hablan de la expulsión del paraíso. Otros no se conforman con la pérdida del determinismo. Albert Einstein comentó estupendamente en una carta a Max Born: Jedenfalls bin ich überzeugt, daß der Alte nicht würfelt. (Estoy convencido de que Dios no tira el dado). No obstante hoy en día no existe un medio mejor para describir la física cuántica si no es a través de la teoría de la probabilidad. Mucha gente hoy en día confunde el hecho de que la mecánica cuántica se describe a través de distribuciones de probabilidad con la suposición de que es por ello un proceso aleatorio, cuando la mecánica cuántica es probabilística no por el hecho de que siga procesos aleatorios sino por el hecho de no poder determinar con precisión sus parámetros fundamentales, lo que imposibilita la creación de un sistema de ecuaciones determinista.

Investigación biomédica