Portada » Matemáticas » Fundamentos de Estadística: Historia, Conceptos y Representación de Datos
1.1. Origen y Desarrollo de la Estadística
Etimológicamente, la palabra «estadística» procede del latín «status» –participio de pasado del verbo «stare»: estar–, con dos acepciones: «estado o situación» y «Estado o Nación». A su raíz «stat» se le añade un sufijo -ist, -ista, -iste, según las diferentes lenguas para la formación de una nueva palabra: statist, statista, statiste, todas ellas con el significado de «hombre de Estado». Este uso fue recogido por Bertillón en su obra (1907).
A partir de esta palabra y mediante la adición de un nuevo sufijo, surge el vocablo «estadística». La paternidad de la palabra «Estadística» se le suele atribuir, aunque sin causa suficientemente justificada, a G. Achenwall en su trabajo publicado en 1749. Sin embargo, Gini en su obra «Curso de Estadística» (1935) afirma que quien usó por primera vez el término de estadística fue el italiano Guilini en 1589.
El origen de la estadística, aunque solo fuese como enumeración de datos, se remonta a tiempos primitivos. Gini (1935) en su obra habla de antiguos monumentos de los primeros pobladores de Cerdeña, en cuyas paredes se encuentran grabados unos signos que han sido interpretados como muescas que servían para enumerar los productos de la agricultura y la caza, quizás antes de que existiese ningún otro tipo de escritura.
Por otra parte, ya en el Antiguo Egipto se llevaban estadísticas comerciales, y un libro del Pentateuco nos habla de un Censo de la población israelita elaborado por Moisés, teniéndose igualmente conocimiento de otros censos elaborados durante el reinado de David y al regreso de Babilonia. No obstante, las referencias arqueológicas e históricas nos proporcionan las primeras evidencias de recuentos situándolos en el censo del emperador Yao en la China del año 2238 a. de J.C. y en documentos asirios, egipcios y griegos, que preceden a los más cercanos del Imperio Romano, en el que la preocupación por la actividad censal de los individuos y bienes del Estado tenía una clara finalidad tributaria y militar.
En España, en la época de esplendor árabe, también se acrecentó el uso de la estadística. En Inglaterra (s. XI), Guillermo el Conquistador mandó realizar un catastro y en el s. XIII las repúblicas italianas utilizaban habitualmente las estadísticas administrativas.
Pero es a partir de los siglos XVI, XVII y XVIII cuando empiezan a desarrollarse los aspectos fundamentalmente teóricos de la Estadística, reflejándose desde dos vertientes diferentes.
En primer lugar, el conocimiento cuantitativo de las cosas del Estado en sus facetas de recogida de información, descripción y análisis de la misma, adquirió una base más científica a través de las mejoras introducidas por las dos escuelas estadísticas más importantes: la alemana, centrada en la llamada geografía política (Staatenkunde) y representada por Seckendorff, Conring y Achenwall; y la de los aritmético-políticos ingleses Graunt, Petty, Davenant, Halley, King, etc.; preocupados por el problema del conocimiento exacto de la población, que en la ciudad de Londres disminuía considerablemente por efecto de sucesivas epidemias. En esta línea de avance de la ciencia estadística son dignos de mención tres españoles ilustres cuyas contribuciones son universalmente reconocidas: Jerónimo de Uztáriz, Campomanes y Jovellanos.
Pero la gran transformación de la Estadística, que la ha convertido en una ciencia susceptible no solamente de describir la realidad, sino de modelizarla utilizando los métodos del Análisis Matemático, surge precisamente de su vinculación a este a través del Cálculo de Probabilidades.
El origen del Cálculo de Probabilidades se suele situar en el siglo XVII, atribuyéndose a las aportaciones que Pascal y Fermat realizaron sobre algunos problemas clásicos de los juegos de azar, viéndose estimulados a ello por su correspondencia epistolar con el Caballero de Méré. Pero en realidad, ya a partir del siglo XV algunos matemáticos notables, como Pacioli, Cardano, Tartaglia, Kepler y Galileo habían esbozado unas primeras formalizaciones de algunos esquemas aleatorios.
Esta nueva ciencia fue tomando cuerpo y vinculándose cada vez más fuertemente a la Teoría de Funciones (y, por tanto, utilizando cada vez mejor los instrumentos de investigación aportados por esta) a lo largo de los siglos XVIII, XIX y comienzos del XX, merced a los logros de figuras tan notables como Huygens, Jacob y John Bernouilli, Leibniz, Montmort, Buffon, D’Alembert, Bayes, Legendre, Gauss, Laplace y, posteriormente Chebychev, Markov, Venn, von Misses, Kolmogorov, Keynes, Ramsey, de Finetti y Savage, entre otros muchos. El resultado de todo ello ha sido la construcción de un modelo de comportamiento de los llamados fenómenos estocásticos en el que pueda encuadrarse toda experiencia o evidencia empírica que revista carácter de aleatoriedad.
La fusión de estas dos vertientes de mejora del conocimiento: la estadística como recogida, descripción y análisis de la información y el Cálculo de Probabilidades, se ha plasmado en una nueva rama floreciente de esta disciplina, la Estadística Matemática, surgida en las primeras décadas de este siglo, y cuyo fruto –producto de las aportaciones de hombres como Pearson, Yule, Gosset (Student), Fisher, Neyman, Pearson (hijo) y Wald entre otros– ha sido la disponibilidad de eficaces instrumentos que permiten poner en relación los datos recogidos con algún modelo ideal de probabilidad y ayudan a descubrir en la evidencia empírica algún tipo de regularidad estocástica.
Existen múltiples posiciones de distintas corrientes sobre las diversas acepciones del término Estadística:
La estadística puede dividirse en dos amplias ramas:
La Estadística se manifiesta de dos formas principales en el método científico:
Se pueden considerar dos significados distintos para el término «Estadística»:
Es el significado más vulgar de la palabra «estadística» y se reduce al censo o recuento de datos económicos. Pero estos datos han de estar presentados de manera ordenada y sistemática, constituyendo un conjunto coherente.
La «Estadística» podemos definirla como la ciencia que trata de medir cuantitativamente lo económico tanto a nivel micro como macro. Como todas las ciencias, busca las características generales de un colectivo y prescinde de las particulares de cada elemento de dicho colectivo. Es frecuente encontrarnos con fenómenos económicos en los que el elemento humano juega un papel principal y que debido a la naturaleza del mismo suele comportarse de modo variable ante hechos idénticos, lo que origina incertidumbre en las conclusiones a las que se puede llegar y no es posible predecir el resultado de un caso aislado. Sin embargo, al examinar un conjunto o colectivo de casos se aprecia una regularidad o estabilidad en su comportamiento, de forma que, si el conjunto es lo suficientemente grande, presenta características estables.
El propósito de la Estadística es precisamente hallar esas regularidades en los fenómenos económicos, regularidades que, además de servir para la descripción del fenómeno, pueden utilizarse con fines de predicción. No cabe hablar de leyes económicas exactas, sino de leyes más o menos ciertas, más o menos probables, lo que justifica la necesidad de introducir en el método del conocimiento económico el concepto de probabilidad, concepto que da lugar a toda una teoría matemática base en la construcción de la inferencia estadística.
La Estadística es la ciencia que estudia las poblaciones o el comportamiento de los caracteres de los elementos de una población. Cuando se observan exhaustivamente todos los elementos de la población, entonces disponemos de todos los datos disponibles y con estos datos es posible describir exactamente las regularidades, el comportamiento o las características de la población.
Definimos la «Estadística» como la rama de la Ciencia que tiene por objeto el estudio de los métodos y procedimientos de obtención y tratamiento de la información adecuada –generalmente datos– para la descripción de propiedades de regularidad de la propia información o del colectivo de referencia, así como para la adopción de aquellas decisiones que envuelven incertidumbre.
Al ocuparnos de los datos estadísticos, el primer problema que tenemos que abordar es el de la medida, haciendo referencia a sus niveles, escalas y unidades. Por «medir», en sentido genérico, se entiende comparar el objeto de medición con un patrón preestablecido, siendo la «medida» el resultado de tal comparación o medición. Formalmente, la medición se realiza generalmente mediante la asignación de números a «cosas», asignación que se lleva a cabo según ciertas reglas.
Los patrones o reglas pueden ser diversos, dando lugar a distintos niveles de medida:
Consiste en la comparación de los objetos de medición entre sí con la finalidad de saber si son iguales o desiguales. Formalmente, la regla para la asignación de números consiste en asignar a cada cosa distinta un número cualquiera diferente. Así, dos números diferentes nos indicarán que las cosas comparadas son distintas y dos números iguales que son iguales. Esta característica recibe el nombre de «propiedad de distinción».
Consiste en la comparación de los objetos de medición entre sí con la finalidad de determinar el mayor o menor grado en que poseen una característica en común. Formalmente, la regla consistirá en asignar números que reflejen tal categorización, sin precisar cuantitativamente la distancia entre grados. Tales números asignados nos permitirán no solo «distinguir» sino «ordenar» de mayor a menor o viceversa.
El patrón consiste en definir una unidad de medida para la característica objeto de medición y comparar dicha unidad con lo medido, para determinar las veces que este contiene a la unidad de medida. Formalmente, se asignarán números que reflejen el número de veces que la realidad objeto de medición contiene a la unidad de medida. Los números así asignados nos permitirán determinar la distancia entre las diversas categorías, es decir, nos indicarán «distinción», «orden» y «distancia».
Patrón y regla son idénticos a los considerados en el apartado anterior para el nivel de medida de intervalo, con la particularidad de que ahora se exige que el número natural cero sea el origen de la unidad de medida. Los números asignados nos permitirán determinar en qué proporción es mayor una categoría que otra, indicándonos «distinción», «orden», «distancia» y «origen cero».
Así como la medida puede ser considerada como el resultado de la observación, las escalas de medida son el resultado de la diferenciación que implica la medida, correspondiéndose los distintos tipos de escalas con los diferentes niveles de medida:
Establece la diversidad entre elementos que poseen alguna característica en común, permitiéndonos diferenciar entre categorías. Las modalidades (o valores) de la característica objeto de estudio se agrupan en clases mutuamente excluyentes, entre las cuales no se puede establecer ninguna relación de orden, y por lo tanto, no se puede establecer ningún origen que sirva de referencia (ej: estado civil).
No solo diferencia entre categorías sino que establece además un orden entre ellas; existe un origen de referencia para tal ordenación (ej: rentas).
Diferencia entre categorías, establece un orden entre ellas, y determina la distancia entre las mismas. Se asignan números que nos permiten diferenciar, establecer un orden entre los elementos del conjunto, cuantificar su importancia y establecer comparaciones entre ellos en caso de disponer de un origen fijo (ej: salarios).
Se asignan números que además de diferenciar entre categorías y establecer un orden y distancia entre ellas, permiten determinar la proporción en que una categoría es mayor o menor que otra, a partir del origen cero (ej: edad).
Observemos que el nivel de medida consiste en la comparación según un criterio dado, mientras que la escala de medida implica una diferenciación concreta entre categorías.
Con la finalidad de reducir la posible arbitrariedad en la elección de la unidad de medida se estableció el sistema universal de unidades denominado «Sistema Métrico Decimal», para cuyo establecimiento fue preciso:
La Conferencia General de Pesas y Medidas celebrada en París en 1960 implantó el sistema métrico decimal denominado «Sistema Internacional de Medidas» basado en las propuestas iniciales de Giorgi realizadas a principios del siglo XX, y adoptado posteriormente en España. Este sistema establece el conjunto de magnitudes y unidades fundamentales, las definiciones y ecuaciones precisas para la obtención de las unidades derivadas, así como los múltiplos y submúltiplos de todas las unidades. Los múltiplos y submúltiplos del Sistema Internacional, útiles para el cálculo de unidades derivadas, se forman con prefijos.
La clasificación de las estadísticas se desarrolla a partir de los siguientes conceptos:
El fenómeno, como todo acontecimiento que sucede en el tiempo o en el espacio, precisa de su representación, lo que lleva implícito un alto grado de subjetividad. El estadístico habitualmente trabaja con modelos matemáticos, haciendo corresponder la idea de fenómeno y experimento con el concepto de variable y la concreción de aquellos con el concepto de dato.
Población hace referencia al colectivo objeto de estudio. Es el conjunto de personas, animales o cosas (elementos) que poseen alguna característica o características en común, objeto de nuestra investigación estadística. Dichos elementos constituyen las unidades estadísticas básicas y su número determina el tamaño de la población. Así, las poblaciones podemos clasificarlas en finitas e infinitas, según el número de elementos que posean, siendo susceptibles de análisis mediante métodos estadísticos diferentes elaborados a tal efecto. Entre las diversas clasificaciones posibles vamos a distinguir entre:
Son las propiedades, rasgos o cualidades de los elementos de una población. La investigación estadística se realiza sobre caracteres comunes a todos los elementos de la población objeto de estudio, en busca de sus regularidades. Pueden ser cuantitativos (cuantificables) o cualitativos (aquellos que no se pueden medir cuantitativamente).
Asociado a los caracteres cuantitativos, una variable es una magnitud que puede pasar por diferentes estados, es decir, que puede tomar distintos valores. Así, los valores son el resultado de observar o medir una variable, y nos indican la intensidad del carácter común considerado, en los distintos elementos. Para clasificar las variables existen diferentes criterios:
Conviene señalar que:
Asociado a los de tipo cualitativo, un atributo es toda cualidad o modalidad cualitativa de los elementos de una población. Así, el resultado de observar o medir un atributo es una modalidad, entendiendo por modalidad cada una de las diferencias que se pueden establecer de un mismo carácter estadístico cualitativo.
Como resultado de la medida u observación del carácter o caracteres de los elementos de una población obtenemos un conjunto numérico o no, denominado conjunto de datos. Así hablaremos de datos de variables y datos de atributos, o bien datos cuantitativos y cualitativos, y dentro de estas clases datos unidimensionales, multidimensionales, discretos, continuos, ordinales, nominales, etc., en correspondencia con la clase de variable o atributo al que estén asociados.
En este ámbito, destacamos dos tipos de estadísticas en las que adquiere especial relevancia la especificación de los elementos de la población:
La temporalidad nos permite clasificar las estadísticas, entendidas como conjunto de datos, en temporales y atemporales:
Según este criterio, las estadísticas se clasifican en periódicas y aperiódicas, según se repita o no su obtención cada período de tiempo constante o aproximadamente igual, independientemente de cuál sea la amplitud del mismo.
Este criterio nos permite clasificar las estadísticas en exhaustivas y parciales, según se disponga de datos sobre todos y cada uno de los elementos de la población o solo de parte de ellos. En ocasiones, suele considerarse como mixta.
Las estadísticas parciales pueden obtenerse a partir del análisis de una subpoblación, o bien de una muestra.
Los censos, cuyo objetivo es el estudio de características estructurales, generalmente se asocian a investigaciones exhaustivas, mientras que las encuestas se asocian a procedimientos de muestreo, aunque en ocasiones la palabra «encuesta» se haya vinculado al concepto de «estadística aperiódica».
Según el número de observaciones, las estadísticas se clasifican en:
Si el número de valores distintos que ha tomado la variable es suficientemente grande, parece aconsejable, para mayor comodidad en el tratamiento de la información, agrupar estos valores en clases o intervalos, teniendo en cuenta que lo que ganamos en manejabilidad lo perdemos en información. En la agrupación hay tres aspectos que debemos contemplar:
En general, representaremos una distribución de frecuencias agrupada en intervalos por el par (Li-1 – Li; ni), donde Li es el extremo superior del intervalo y Li-1 su extremo inferior. Para agrupar los datos en intervalos o clases, debemos comenzar determinando el recorrido de la variable, que se define como la diferencia entre el mayor y el menor valor de la variable (Re = máx xi – mín xi). Este recorrido se divide entonces en intervalos cuya amplitud es la diferencia entre los extremos superior e inferior del mismo (Ci = Li – Li-1). Los intervalos pueden ser de amplitud constante o variable. Si la amplitud es constante se verificará que (Re = Nº de intervalos · ci). Como representante de cada intervalo o clase, elegimos su punto medio al cual denominamos marca de clase (xi). Así, en el intervalo i-ésimo la marca de clase será:
Según este criterio, las estadísticas se pueden clasificar en:
A su vez, dentro de las estadísticas derivadas distinguimos las siguientes:
Las estadísticas derivadas son aquellas que se deducen de las primarias tras someterlas a algunas operaciones posteriores.
Personas activas (xi) |
Frec. absoluta (ni) |
Frec. relativa (fi) |
Frec. abs. acum. (Ni) |
Frec. rel. acum. (Fi) |
1 |
16 |
16/50 |
16 |
16/50 |
2 |
20 |
20/50 |
36 |
36/50 |
3 |
9 |
9/50 |
45 |
45/50 |
4 |
5 |
5/50 |
50 |
50/50 = 1 |
N = 50 |
1 |
La frecuencia absoluta o repetición, es el número de veces que se repite cada valor o dato de la variable. La suma de las frecuencias absolutas recibe el nombre de frecuencia total y se designará por N.
La frecuencia relativa es igual a la frecuencia absoluta dividida por el número total de datos.
La frecuencia absoluta acumulada nos dice el número de datos que hay igual al considerado e inferiores a él. Por ejemplo, N3 = 45, nos dice que hay 45 valores iguales o inferiores a x3 = 3.
La frecuencia relativa acumulada es el resultado de dividir cada frecuencia acumulada por el número total de datos.
El proceso de acumulación puede ser creciente, si se efectúa en el mismo sentido en que crece la variable, o decreciente.
La suma de todas las frecuencias relativas es igual a la unidad:
La última frecuencia absoluta acumulada es igual a la frecuencia total:
La última frecuencia relativa acumulada es igual a la unidad:
Llamamos distribución de frecuencias al conjunto de valores que ha tomado una variable con sus frecuencias correspondientes. La representaremos por (xi ; ni). Y por (Li-1 – Li ; ni), la distribución de frecuencias agrupadas en intervalos.
Generalmente, las tablas estadísticas, sobre todo aquellas que recogen una gran cantidad de datos, no nos ofrecen una visión o interpretación rápida del fenómeno que estamos investigando. Para solventar este inconveniente se recurre a la representación gráfica de los datos estadísticos contenidos en la tabla.
Siguiendo a los profesores Dávalos y Segura, podemos definir la representación gráfica como «el método estadístico empleado para la exposición en forma geométrica de hechos expresados en cifras».
Como todo método, tiene una serie de ventajas e inconvenientes. Entre las ventajas de la representación gráfica podemos citar:
Algunos de sus inconvenientes son:
Hay que tener en cuenta que la representación gráfica es siempre algo complementario, ya que se busca con ello aclarar el contenido de las estadísticas. Sin embargo, el uso indiscriminado de escalas y formas de representación puede confundir a cualquier persona no técnica en la materia, tergiversando la realidad.
Las representaciones gráficas pueden hacerse utilizando un sistema geométrico de representación, o bien pueden utilizarse símbolos que hagan alusión al tema en estudio (figuras humanas, automóviles, casas, etc.).
La mayoría de las representaciones gráficas tienen como base la utilización del sistema cartesiano, que consta de un par de ejes, uno horizontal denominado eje de abscisas y otro vertical llamado eje de ordenadas; a ambos se les denomina eje de coordenadas. El punto de intersección es el origen. Estos ejes están graduados según unas escalas que pueden ser iguales o diferentes, según las necesidades del estudio.
Es norma general en las representaciones gráficas, la de hacer constar siempre la escala utilizada, así como las variables o atributos que se incluyen. La escala más utilizada es la natural cartesiana. Dentro de los gráficos cartesianos, según las necesidades del investigador, se pueden realizar truncamientos, eliminando valores de cualquiera de los dos ejes que no tomen las variables que se representan, o bien cambiar en los ejes cartesianos la escala natural de alguno o todos los ejes por otras, como: la logarítmica, la semilogarítmica (utiliza una escala aritmética y otra logarítmica), doblemente logarítmica (combinación de dos escalas logarítmicas), la aritmético-normal y la logarítmico-normal.
Veamos con un poco más de detalle los gráficos semilogarítmicos. Estos constituyen una forma de representación en la que la escala de abscisas es la natural y la del eje de ordenadas es la logarítmica. Son muy útiles para representar series cronológicas, sobre todo cuando se tienen series largas de datos con valores muy cambiantes. La base de los logaritmos puede ser cualquiera, aunque la más utilizada es la decimal.
Para facilitar este tipo de representaciones, existen los papeles semilogarítmicos, en los que la escala del eje de ordenadas es logarítmico-decimal (aunque puede adaptarse a otra base distinta de la decimal), y la del eje de abscisas, natural.
Volviendo a retomar la utilización del sistema cartesiano en la mayoría de las representaciones gráficas, diremos que en el eje de abscisas se representan valores positivos desde el origen hacia la derecha y negativos desde el origen hacia la izquierda. En el eje de ordenadas, del origen hacia arriba se representan los valores positivos y del origen hacia abajo los negativos. Tenemos así definidos cuatro cuadrantes. Cada punto de un cuadrante tiene una abscisa y una ordenada, de modo que a todo punto le corresponden dos números y a cada par de números le corresponde un punto.
En las representaciones gráficas de tablas estadísticas utilizaremos el primer cuadrante, o en su caso, el segundo para representar valores de la variable en abscisas y frecuencias (que siempre son positivas por definición) en ordenadas.
La forma de la representación gráfica dependerá del tipo de variable. Así, podemos clasificarlas, atendiendo al criterio que distinguía entre diversos tipos de variables en función del número de valores que estas presentaban, en:
Se representan los valores de la variable en el eje de abscisas (con la escala correspondiente). En la vertical de cada uno de los puntos que representan los valores de la variable se dibujan columnas de puntos rematadas por un círculo y la frecuencia de cada valor, así se obtiene al mismo tiempo una visión global y comparativa de las alturas de las columnas y el detalle de cada frecuencia.