La agrupación jerárquica se refiere a un procedimiento de aprendizaje no supervisado que determina agrupaciones sucesivas en función de agrupaciones previamente definidas. Funciona agrupando datos en un árbol de grupos. Estadísticas de agrupación jerárquica al tratar cada punto de datos como un grupo individual. El punto final se refiere a un conjunto diferente de clústeres, donde cada clúster es diferente del otro y los objetos dentro de cada clúster son iguales entre sí.
Hay dos tipos de agrupamiento jerárquico.
- Agrupación jerárquica aglomerativa
- Agrupación divisiva
Agrupación jerárquica aglomerativa
La agrupación aglomerativa es uno de los tipos más comunes de agrupación jerárquica que se utiliza para agrupar objetos similares en grupos. La agrupación aglomerativa también se conoce como AGNES (Anidación Aglomerativa). En la agrupación aglomerativa, cada punto de datos actúa como un grupo individual y, en cada paso, los objetos de datos se agrupan en un método ascendente. Inicialmente, cada objeto de datos está en su grupo. En cada iteración, los grupos se combinan con diferentes grupos hasta que se forma un grupo.
procesamiento en paralelo
Algoritmo de agrupamiento jerárquico aglomerativo
- Determine la similitud entre los individuos y todos los demás grupos. (Encontrar matriz de proximidad).
- Considere cada punto de datos como un grupo individual.
- Combina grupos similares.
- Vuelva a calcular la matriz de proximidad para cada grupo.
- Repita los pasos 3 y 4 hasta obtener un solo grupo.
Entendamos este concepto con la ayuda de la representación gráfica mediante un dendograma.
Con la ayuda de la demostración dada, podemos entender cómo funciona el algoritmo real. Aquí no se ha realizado ningún cálculo y se asume toda la proximidad entre los grupos.
Supongamos que tenemos seis puntos de datos diferentes P, Q, R, S, T, V.
bash si condición
Paso 1:
Considere cada alfabeto (P, Q, R, S, T, V) como un grupo individual y encuentre la distancia entre el grupo individual y todos los demás grupos.
alfabeto de números
Paso 2:
Ahora, combine los grupos comparables en un solo grupo. Digamos que el grupo Q y el grupo R son similares entre sí para que podamos fusionarlos en el segundo paso. Finalmente, obtenemos los clusters [ (P), (QR), (ST), (V)]
Paso 3:
Aquí, recalculamos la proximidad según el algoritmo y combinamos los dos grupos más cercanos [(ST), (V)] para formar nuevos grupos como [(P), (QR), (STV)]
Etapa 4:
Repita el mismo proceso. Los grupos STV y PQ son comparables y se combinan para formar un nuevo grupo. Ahora tenemos [(P), (QQRSTV)].
Paso 5:
ejemplo de datos json
Finalmente, los dos grupos restantes se fusionan para formar un solo grupo [(PQRSTV)]
Agrupación jerárquica divisiva
La agrupación jerárquica divisiva es exactamente lo opuesto a la agrupación jerárquica aglomerativa. En la agrupación jerárquica divisiva, todos los puntos de datos se consideran un grupo individual y, en cada iteración, los puntos de datos que no son similares se separan del grupo. Los puntos de datos separados se tratan como un grupo individual. Finalmente, nos quedan N grupos.
Ventajas de la agrupación jerárquica
- Es sencillo de implementar y ofrece el mejor resultado en algunos casos.
- Es fácil y da como resultado una jerarquía, una estructura que contiene más información.
- No es necesario que especifiquemos previamente el número de grupos.
Desventajas de la agrupación jerárquica
- Rompe los grandes racimos.
- Es difícil manejar grupos de diferentes tamaños y formas convexas.
- Es sensible al ruido y a los valores atípicos.
- El algoritmo nunca podrá modificarse ni eliminarse una vez realizado anteriormente.