Portada » Francés » Conceptos Clave en Estadística Aplicada: Regresión, Segmentación y Factorial
Y = B₀ + B₁*X + E
Para determinar si los parámetros son estadísticamente significativos, se plantean las siguientes hipótesis:
El P-valor es crucial para la toma de decisiones:
Con un nivel de confianza del 95%, se estima que por cada unidad adicional de X (ej. edad, número de productos), la variable Y (ej. gasto medio mensual) varía entre [límite inferior] y [límite superior].
Evalúa si el modelo en su conjunto es estadísticamente significativo.
Se evalúa mediante el P-valor asociado al Test F.
Mide la proporción de la variabilidad de Y explicada por X. Su valor oscila entre 0 y 1.
Siempre es más pequeño que R², ya que penaliza la inclusión de variables que no mejoran el modelo. Es una medida más fiable para comparar modelos con diferente número de variables.
Es importante considerar ambos valores. Por ejemplo, si el P-valor del Test F indica que el modelo es significativo (P-valor < α), pero el R² es muy bajo (ej. 0.15), esto indica que, aunque el modelo sea estadísticamente significativo, su capacidad predictiva es limitada y las variables no son del todo útiles para entender la variable dependiente (Y). El R² ajustado será más pequeño que el R² simple, especialmente si se incluyen variables irrelevantes, lo que refuerza la importancia de seleccionar variables significativas.
La Variabilidad mide cuánto varían o se diferencian los datos entre sí. Por ejemplo, entre 1.7 y 1.6, hay poca variabilidad.
Los Clusters son grupos de individuos que comparten similitudes. La segmentación puede basarse en criterios sociodemográficos, psicográficos, actitudinales o de estilo de vida.
K-Means es una técnica de segmentación que agrupa individuos en clústeres basándose en la distancia entre ellos.
Consejos para la Presentación: Utilizar Storytelling, Puntos Clave (Bullet Points) y palabras concisas.
Esta técnica ayuda a determinar el número óptimo de clústeres (k) observando la inercia (suma de cuadrados intra-clúster).
El punto de inflexión en k = [valor] es el número óptimo. A partir de este valor, añadir más clústeres no mejora significativamente la varianza explicada; es decir, el modelo ya no mejora sustancialmente, por lo que se considera la opción más eficiente.
El Análisis Factorial sirve para agrupar variables (o preguntas) que en realidad miden el mismo concepto subyacente, con el objetivo de reducir la cantidad de variables sin perder información relevante.
Muestra la relación lineal entre todas las variables (numéricas o codificadas), con valores que van de -1 (correlación negativa fuerte) a 1 (correlación positiva fuerte).
Al reducir muchas variables a pocos factores, se pierde información. Este análisis sirve para saber cuánta información se pierde y cuánta se retiene.
Es una tabla que indica la relación (correlación) de cada variable original con cada factor, con valores que van de -1 a 1.
El Biplot es una representación gráfica que permite visualizar simultáneamente las variables y los individuos en el espacio factorial.