La agrupación o análisis de conglomerados es una técnica de aprendizaje automático que agrupa el conjunto de datos sin etiquetar. Se puede definir como 'Una forma de agrupar los puntos de datos en diferentes grupos, que constan de puntos de datos similares. Los objetos con posibles similitudes permanecen en un grupo que tiene menos o ninguna similitud con otro grupo.'
Lo hace encontrando algunos patrones similares en el conjunto de datos sin etiquetar, como forma, tamaño, color, comportamiento, etc., y los divide según la presencia y ausencia de esos patrones similares.
Es un aprendizaje sin supervisión método, por lo tanto, no se proporciona supervisión al algoritmo y se ocupa del conjunto de datos sin etiquetar.
Después de aplicar esta técnica de agrupación, a cada clúster o grupo se le proporciona un ID de clúster. El sistema ML puede utilizar esta identificación para simplificar el procesamiento de conjuntos de datos grandes y complejos.
burlarse cuando sea
La técnica de agrupamiento se utiliza comúnmente para análisis de datos estadísticos.
Nota: La agrupación en clústeres es algo similar a la algoritmo de clasificación , pero la diferencia es el tipo de conjunto de datos que estamos utilizando. En la clasificación, trabajamos con el conjunto de datos etiquetados, mientras que en la agrupación, trabajamos con el conjunto de datos sin etiquetar.
Ejemplo : Entendamos la técnica de agrupamiento con el ejemplo del mundo real de Mall: cuando visitamos cualquier centro comercial, podemos observar que las cosas con uso similar están agrupadas. Por ejemplo, las camisetas están agrupadas en una sección y los pantalones en otras secciones, de manera similar, en las secciones de verduras, manzanas, plátanos, mangos, etc., se agrupan en secciones separadas, para que podamos encontrar las cosas fácilmente. La técnica del clustering también funciona de la misma forma. Otros ejemplos de agrupación son agrupar documentos según el tema.
La técnica de agrupamiento se puede utilizar ampliamente en diversas tareas. Algunos usos más comunes de esta técnica son:
- Segmentación de mercado
- Análisis de datos estadísticos.
- Análisis de redes sociales
- Segmentación de imagen
- Detección de anomalías, etc.
Aparte de estos usos generales, es utilizado por el Amazonas en su sistema de recomendación para proporcionar las recomendaciones según la búsqueda anterior de productos. netflix también utiliza esta técnica para recomendar películas y series web a sus usuarios según el historial de visualización.
El siguiente diagrama explica el funcionamiento del algoritmo de agrupación. Podemos ver las diferentes frutas divididas en varios grupos con propiedades similares.
Tipos de métodos de agrupación
Los métodos de agrupamiento se dividen en términos generales en Agrupación dura (el punto de datos pertenece a un solo grupo) y Agrupación suave (Los puntos de datos también pueden pertenecer a otro grupo). Pero también existen otros enfoques diversos de agrupación. A continuación se muestran los principales métodos de agrupación utilizados en el aprendizaje automático:
¿Cómo actualizo Java?
Agrupación de particiones
Es un tipo de agrupamiento que divide los datos en grupos no jerárquicos. También se le conoce como el método basado en centroide . El ejemplo más común de agrupamiento de particiones es el Algoritmo de agrupación de K-medias .
En este tipo, el conjunto de datos se divide en un conjunto de k grupos, donde K se utiliza para definir el número de grupos predefinidos. El centro del grupo se crea de tal manera que la distancia entre los puntos de datos de un grupo sea mínima en comparación con el centroide de otro grupo.
lista enlazada y lista de matrices
Agrupación basada en densidad
El método de agrupamiento basado en la densidad conecta las áreas altamente densas en grupos, y las distribuciones de forma arbitraria se forman siempre que la región densa pueda conectarse. Este algoritmo lo hace identificando diferentes grupos en el conjunto de datos y conecta las áreas de alta densidad en grupos. Las áreas densas del espacio de datos están divididas entre sí por áreas más dispersas.
Estos algoritmos pueden tener dificultades para agrupar los puntos de datos si el conjunto de datos tiene densidades variables y dimensiones elevadas.
Agrupación basada en modelos de distribución
En el método de agrupación basado en modelos de distribución, los datos se dividen en función de la probabilidad de cómo un conjunto de datos pertenece a una distribución particular. La agrupación se realiza asumiendo algunas distribuciones comúnmente Distribución gaussiana .
El ejemplo de este tipo es el Algoritmo de agrupación en clústeres de maximización de expectativas que utiliza modelos de mezcla gaussianos (GMM).
Agrupación jerárquica
La agrupación en clústeres jerárquica se puede utilizar como alternativa a la agrupación en clústeres particionados, ya que no es necesario especificar previamente el número de clústeres que se crearán. En esta técnica, el conjunto de datos se divide en grupos para crear una estructura similar a un árbol, que también se denomina dendograma . Las observaciones o cualquier número de grupos se pueden seleccionar cortando el árbol al nivel correcto. El ejemplo más común de este método es el Algoritmo jerárquico aglomerativo .
Agrupación difusa
La agrupación difusa es un tipo de método suave en el que un objeto de datos puede pertenecer a más de un grupo o clúster. Cada conjunto de datos tiene un conjunto de coeficientes de membresía, que dependen del grado de membresía de un grupo. Algoritmo difuso de medias C es el ejemplo de este tipo de agrupamiento; A veces también se le conoce como algoritmo Fuzzy k-means.
Algoritmos de agrupamiento
Los algoritmos de agrupación se pueden dividir según los modelos que se explican anteriormente. Hay diferentes tipos de algoritmos de agrupamiento publicados, pero solo unos pocos se usan comúnmente. El algoritmo de agrupamiento se basa en el tipo de datos que estamos utilizando. Por ejemplo, algunos algoritmos necesitan adivinar la cantidad de grupos en el conjunto de datos dado, mientras que otros deben encontrar la distancia mínima entre las observaciones del conjunto de datos.
Aquí analizamos principalmente algoritmos de agrupación en clústeres populares que se utilizan ampliamente en el aprendizaje automático:
jdbc
Aplicaciones de la agrupación
A continuación se muestran algunas aplicaciones comúnmente conocidas de la técnica de agrupación en clústeres en el aprendizaje automático: