Portada » Matemáticas » Métricas de Distancia, Agrupamiento y Clasificación en Machine Learning
SMC = (A11+D00)/(A11+B10+C01+D00)
Jaccard = A/(A+B+C)
RAO = A/(A+B+C+D)
Similaridad del Coseno = D1°D2 / ||D1||*||D2||
D1°D2= Producto punto, X1*Y1 + X2*Y2…
||D1|| = (X1*X1 + X2*X2 + …)^0.5
Jaccard Extendido = D1°D2 / (||D1||2 + ||D2||2) – (D1°D2)
Minskowski = [Sumatoria(Ax – Ay)r]1/r ; r= lo dan, A es coordenada
Agrupamiento Jerárquico Aglomerativo: Es un árbol invertido, todos los clústeres son entradas y forman solo un clúster de salida.
Agrupamiento Jerárquico Divisible: Es un árbol común, la entrada es solo un clúster y la salida son varios clústeres.
Dendrograma: Árbol que muestra las uniones y divisiones de los clústeres.
Similaridad Inter-Clúster: Diagonal = 1
Distancia Inter-Clúster: Diagonal = 0
Entropía: -P(C1)log2P(C1) -P(C2)log2P(C2)
GINI: 1-P(C1)2-P(C2)2
GINIsplit: Probabilidad(SI)*GINI(si) + Probabilidad(NO)*GINI(no)
3/10*0.142+7/10*0
Error de clasificación: 1-max[P(C1), P(C2)]
P(Bueno|t)=P(Bueno|t)*P(Bueno)/P(Bueno|t)*P(Bueno)+P(Malo|t)*P(Malo)
P(Malo|t) = P(Malo|t)*P(Malo)/P(Bueno|t)*P(Bueno)+P(Malo|t)*P(Malo)
P(Bueno|t): Veces que se repite la condición
P(Bueno): Probabilidad de…