AGRUPACIÓN JERÁRQUICA EN MINERÍA DE DATOS

La agrupación jerárquica se refiere a un procedimiento de aprendizaje no supervisado que determina agrupaciones sucesivas en función de agrupaciones previamente definidas. Funciona agrupando datos en un árbol de grupos. Estadísticas de agrupación jerárquica al tratar cada punto de datos como un grupo individual. El punto final se refiere a un conjunto diferente de clústeres, donde cada clúster es diferente del otro y los objetos dentro de cada clúster son iguales entre sí.

Hay dos tipos de agrupamiento jerárquico.

Agrupación jerárquica aglomerativa
Agrupación divisiva

Agrupación jerárquica aglomerativa

La agrupación aglomerativa es uno de los tipos más comunes de agrupación jerárquica que se utiliza para agrupar objetos similares en grupos. La agrupación aglomerativa también se conoce como AGNES (Anidación Aglomerativa). En la agrupación aglomerativa, cada punto de datos actúa como un grupo individual y, en cada paso, los objetos de datos se agrupan en un método ascendente. Inicialmente, cada objeto de datos está en su grupo. En cada iteración, los grupos se combinan con diferentes grupos hasta que se forma un grupo.

procesamiento en paralelo

Algoritmo de agrupamiento jerárquico aglomerativo

Determine la similitud entre los individuos y todos los demás grupos. (Encontrar matriz de proximidad).
Considere cada punto de datos como un grupo individual.
Combina grupos similares.
Vuelva a calcular la matriz de proximidad para cada grupo.
Repita los pasos 3 y 4 hasta obtener un solo grupo.

Entendamos este concepto con la ayuda de la representación gráfica mediante un dendograma.

Con la ayuda de la demostración dada, podemos entender cómo funciona el algoritmo real. Aquí no se ha realizado ningún cálculo y se asume toda la proximidad entre los grupos.

Supongamos que tenemos seis puntos de datos diferentes P, Q, R, S, T, V.

bash si condición

Agrupación jerárquica en minería de datos

Paso 1:

Considere cada alfabeto (P, Q, R, S, T, V) como un grupo individual y encuentre la distancia entre el grupo individual y todos los demás grupos.

alfabeto de números

Paso 2:

Ahora, combine los grupos comparables en un solo grupo. Digamos que el grupo Q y el grupo R son similares entre sí para que podamos fusionarlos en el segundo paso. Finalmente, obtenemos los clusters [ (P), (QR), (ST), (V)]

Paso 3:

Aquí, recalculamos la proximidad según el algoritmo y combinamos los dos grupos más cercanos [(ST), (V)] para formar nuevos grupos como [(P), (QR), (STV)]

Etapa 4:

Repita el mismo proceso. Los grupos STV y PQ son comparables y se combinan para formar un nuevo grupo. Ahora tenemos [(P), (QQRSTV)].

Paso 5:

ejemplo de datos json

Finalmente, los dos grupos restantes se fusionan para formar un solo grupo [(PQRSTV)]

Agrupación jerárquica divisiva

La agrupación jerárquica divisiva es exactamente lo opuesto a la agrupación jerárquica aglomerativa. En la agrupación jerárquica divisiva, todos los puntos de datos se consideran un grupo individual y, en cada iteración, los puntos de datos que no son similares se separan del grupo. Los puntos de datos separados se tratan como un grupo individual. Finalmente, nos quedan N grupos.

Ventajas de la agrupación jerárquica

Es sencillo de implementar y ofrece el mejor resultado en algunos casos.
Es fácil y da como resultado una jerarquía, una estructura que contiene más información.
No es necesario que especifiquemos previamente el número de grupos.

Desventajas de la agrupación jerárquica

Rompe los grandes racimos.
Es difícil manejar grupos de diferentes tamaños y formas convexas.
Es sensible al ruido y a los valores atípicos.
El algoritmo nunca podrá modificarse ni eliminarse una vez realizado anteriormente.