Portada » Matemáticas » Comprendiendo las Variables Aleatorias y sus Distribuciones de Probabilidad
Variables aleatorias: La variable aleatoria es aquella que toma diferentes valores numéricos mediante un proceso de conteo o medición, como resultado de un experimento aleatorio.
Esta variable tiene un valor que cambia de acuerdo a otras sin seguir un patrón predecible, es decir, es naturalmente aleatoria.
Diremos que una variable aleatoria es discreta cuando toma valores discretos, es decir, cuando toma valores numéricos puntuales, tales que entre dos valores consecutivos no haya ningún otro valor.
Una variable será de naturaleza continua cuando no podamos hablar de valores consecutivos, porque entre dos valores siempre habrá infinitos valores. Si una variable puede tomar cualquier valor de la recta real o de algún intervalo de esta, diremos que es una variable aleatoria continua.
Una distribución de probabilidades de una variable aleatoria discreta es el conjunto de todos los resultados numéricos posibles de un experimento, a los que se les puede asignar un valor de ocurrencia o probabilidad.
El valor esperado de una variable aleatoria discreta es la media ponderada de todos sus resultados posibles, donde los pesos son las probabilidades asociadas a cada uno de los valores numéricos de la variable.
La dispersión en el comportamiento de una variable aleatoria discreta puede medirse también mediante dos estadísticos de dispersión ya conocidos: la varianza y la desviación estándar.
La varianza (s2) de una variable aleatoria discreta puede definirse como la media ponderada de los cuadrados de la diferencia entre cada valor numérico que toma la variable aleatoria (Xi) y su valor esperado [E(X)].
Es una distribución de probabilidad de una gran cantidad de variables aleatorias discretas cuyos resultados experimentales son generados mediante un proceso conocido como de Bernoulli.
Cada experimento tiene solamente dos resultados posibles:
Surge al seleccionar una muestra sin reemplazo de una población finita conocida y que representa una proporción relativamente grande de la población, de tal forma que la probabilidad de éxito cambia de una selección a otra.
La distribución hipergeométrica determina la probabilidad de tener un determinado número de éxitos en una muestra que se obtuvo de una población con un determinado número de éxitos.
Puede establecerse que una distribución de probabilidad se puede manejar como una distribución de probabilidad hipergeométrica si:
Esta distribución de probabilidad se aplica a variables aleatorias discretas, ya que mide la frecuencia relativa de un evento en función de una unidad de tiempo, espacio o volumen.
Esta distribución, conocida como ley de eventos improbables, establece que a medida que ocurren más eventos en un periodo de tiempo, espacio o volumen, su probabilidad de ocurrencia disminuye.
Qué tipo de problemas:
Los eventos suceden uno a la vez, es decir, la probabilidad de que ocurran dos o más eventos en el mismo instante es cero.
La probabilidad de ocurrencia del evento de interés es constante para dos intervalos distintos de tiempo, espacio o volumen.
El número de eventos por tiempo, espacio o volumen se mantiene constante, lo que implica que el número esperado de eventos en cualquier intervalo de tiempo, espacio o volumen es el mismo en todos ellos.
La ocurrencia de un evento de interés en un lapso de tiempo, espacio o volumen es independiente de su ocurrencia en algún otro lapso de tiempo, espacio o volumen.
Una variable aleatoria continua es aquella que puede adoptar cualquier valor numérico dentro de un rango o intervalo de medición, incluyendo enteros, fracciones o combinaciones de ambos.
Una distribución de probabilidad continua es el conjunto de todos los resultados posibles de una variable aleatoria continua y la probabilidad asociada a cada uno.
Distribuciones continuas de probabilidad: De probabilidad uniforme, exponencial, normal, ji-cuadrada, t-de Student.
Es la distribución continua de probabilidad en la cual todos los valores que toma la variable en el intervalo o rango que la define tienen el mismo valor de probabilidad.
Mientras que la distribución de Poisson es una distribución discreta de probabilidad que mide el número de sucesos u ocurrencias sobre algún intervalo de tiempo o espacio, la distribución de probabilidad exponencial mide el paso del tiempo entre un suceso y otro, de ahí que esta última distribución sea una distribución de probabilidad continua.
Por ejemplo, una distribución de Poisson describe la tasa de llegada de personas, vehículos, llamadas telefónicas, personas atendidas en una ventanilla bancaria, foto infracciones vehiculares en un mes, etc., dentro de algún periodo dado, y la distribución exponencial, el lapso de tiempo que se presenta entre tales arribos.
La distribución de probabilidad continua más importante es la distribución de probabilidad normal. Por un lado, esto se debe a que hay una gran variedad de fenómenos que se pueden modelar mediante esta distribución; por otro, a que esta distribución puede utilizarse para aproximar el comportamiento de las distribuciones de probabilidad discretas; y, finalmente, a que esta distribución de probabilidad es la base para la inferencia estadística clásica, debido a su relación con el teorema del límite central.
La distribución normal es una distribución de probabilidad continua que tiene forma de campana y es simétrica alrededor de su media. Representa cómo se comportan muchos datos en la vida real, donde la mayoría de los valores están cerca del promedio y pocos se encuentran muy lejos de él.
La estadística descriptiva se encarga de organizar, resumir y presentar datos mediante tablas, gráficas y medidas como media, mediana y desviación estándar. Su objetivo es describir lo que muestran los datos tal cual.
La estadística inferencial utiliza una muestra de datos para sacar conclusiones o hacer predicciones sobre una población completa. Incluye métodos como intervalos de confianza, pruebas de hipótesis y estimaciones.
Con el fin de poder trabajar con cualquier distribución normal no estándar (con una media diferente de 0 y/o una desviación estándar distinta de 1), la clave es una conversión simple que nos permite “estandarizar” cualquier distribución normal de modo que los valores de x se puedan transformar en puntuaciones z; así, será posible utilizar los métodos de la sección anterior.
Ahora consideraremos el concepto de una distribución muestral de un estadístico. En lugar de trabajar con valores de la población original, queremos centrarnos en los valores de los estadísticos (como las proporciones o las medias muestrales) obtenidos de la población.
La distribución muestral de un estadístico (por ejemplo, una proporción muestral o una media muestral) es la distribución de todos los valores del estadístico cuando todas las muestras posibles del mismo tamaño n se toman de la misma población.
Cualquier estadístico de la muestra que se utilice para estimar un parámetro poblacional se conoce como estimador, es decir, un estimador es un estadístico de la muestra utilizado para estimar un parámetro poblacional.
Podemos hacer dos tipos de estimaciones concernientes a una población: una estimación puntual y una estimación de intervalo.
Un estimador de intervalo consiste en expresar el valor que probablemente tenga un parámetro poblacional dentro de un rango de valores (o amplitud). Este intervalo o rango de valores, dentro del cual se espera que esté el parámetro poblacional buscado, recibe el nombre de intervalo de confianza. Dicho intervalo tendrá especificada la confianza o probabilidad de que la estimación del valor verdadero del parámetro de la población sea la correcta.
Un intervalo de confianza (o estimación de intervalo) es un rango (o un intervalo) de valores utilizados para estimar el valor real de un parámetro poblacional. En ocasiones, un intervalo de confianza se abrevia como IC. Conocemos la media poblacional, conocemos la desviación poblacional.
El nivel de confianza es la probabilidad (por ejemplo, 0.95, o 95%) de que el intervalo de confianza realmente contenga el parámetro poblacional asumiendo que el proceso de estimación se repite un gran número de veces. (El nivel de confianza también se denomina grado de confianza o coeficiente de confianza).
La distribución t se utiliza para estimaciones cuando el tamaño de la muestra es de 30 o menos y se desconoce la desviación estándar de la población. También asumimos que la población es normal o aproximadamente normal.
El teorema del límite central permite utilizar una distribución normal para algunas aplicaciones muy importantes y significativas. Dada una población con cualquier distribución, la distribución de las medias muestrales puede aproximarse mediante una distribución normal cuando las muestras son lo suficientemente grandes. Para todas las muestras del mismo tamaño n con n > 30, la distribución muestral de X puede aproximarse mediante una distribución normal con media M y desviación estándar.
