logo

Agrupación en aprendizaje automático

La agrupación o análisis de conglomerados es una técnica de aprendizaje automático que agrupa el conjunto de datos sin etiquetar. Se puede definir como 'Una forma de agrupar los puntos de datos en diferentes grupos, que constan de puntos de datos similares. Los objetos con posibles similitudes permanecen en un grupo que tiene menos o ninguna similitud con otro grupo.'

Lo hace encontrando algunos patrones similares en el conjunto de datos sin etiquetar, como forma, tamaño, color, comportamiento, etc., y los divide según la presencia y ausencia de esos patrones similares.

Es un aprendizaje sin supervisión método, por lo tanto, no se proporciona supervisión al algoritmo y se ocupa del conjunto de datos sin etiquetar.

Después de aplicar esta técnica de agrupación, a cada clúster o grupo se le proporciona un ID de clúster. El sistema ML puede utilizar esta identificación para simplificar el procesamiento de conjuntos de datos grandes y complejos.

burlarse cuando sea

La técnica de agrupamiento se utiliza comúnmente para análisis de datos estadísticos.

Nota: La agrupación en clústeres es algo similar a la algoritmo de clasificación , pero la diferencia es el tipo de conjunto de datos que estamos utilizando. En la clasificación, trabajamos con el conjunto de datos etiquetados, mientras que en la agrupación, trabajamos con el conjunto de datos sin etiquetar.

Ejemplo : Entendamos la técnica de agrupamiento con el ejemplo del mundo real de Mall: cuando visitamos cualquier centro comercial, podemos observar que las cosas con uso similar están agrupadas. Por ejemplo, las camisetas están agrupadas en una sección y los pantalones en otras secciones, de manera similar, en las secciones de verduras, manzanas, plátanos, mangos, etc., se agrupan en secciones separadas, para que podamos encontrar las cosas fácilmente. La técnica del clustering también funciona de la misma forma. Otros ejemplos de agrupación son agrupar documentos según el tema.

La técnica de agrupamiento se puede utilizar ampliamente en diversas tareas. Algunos usos más comunes de esta técnica son:

  • Segmentación de mercado
  • Análisis de datos estadísticos.
  • Análisis de redes sociales
  • Segmentación de imagen
  • Detección de anomalías, etc.

Aparte de estos usos generales, es utilizado por el Amazonas en su sistema de recomendación para proporcionar las recomendaciones según la búsqueda anterior de productos. netflix también utiliza esta técnica para recomendar películas y series web a sus usuarios según el historial de visualización.

El siguiente diagrama explica el funcionamiento del algoritmo de agrupación. Podemos ver las diferentes frutas divididas en varios grupos con propiedades similares.

Agrupación en aprendizaje automático

Tipos de métodos de agrupación

Los métodos de agrupamiento se dividen en términos generales en Agrupación dura (el punto de datos pertenece a un solo grupo) y Agrupación suave (Los puntos de datos también pueden pertenecer a otro grupo). Pero también existen otros enfoques diversos de agrupación. A continuación se muestran los principales métodos de agrupación utilizados en el aprendizaje automático:

¿Cómo actualizo Java?
    Agrupación de particiones Agrupación basada en densidad Agrupación basada en modelos de distribución Agrupación jerárquica Agrupación difusa

Agrupación de particiones

Es un tipo de agrupamiento que divide los datos en grupos no jerárquicos. También se le conoce como el método basado en centroide . El ejemplo más común de agrupamiento de particiones es el Algoritmo de agrupación de K-medias .

En este tipo, el conjunto de datos se divide en un conjunto de k grupos, donde K se utiliza para definir el número de grupos predefinidos. El centro del grupo se crea de tal manera que la distancia entre los puntos de datos de un grupo sea mínima en comparación con el centroide de otro grupo.

lista enlazada y lista de matrices
Agrupación en aprendizaje automático

Agrupación basada en densidad

El método de agrupamiento basado en la densidad conecta las áreas altamente densas en grupos, y las distribuciones de forma arbitraria se forman siempre que la región densa pueda conectarse. Este algoritmo lo hace identificando diferentes grupos en el conjunto de datos y conecta las áreas de alta densidad en grupos. Las áreas densas del espacio de datos están divididas entre sí por áreas más dispersas.

Estos algoritmos pueden tener dificultades para agrupar los puntos de datos si el conjunto de datos tiene densidades variables y dimensiones elevadas.

Agrupación en aprendizaje automático

Agrupación basada en modelos de distribución

En el método de agrupación basado en modelos de distribución, los datos se dividen en función de la probabilidad de cómo un conjunto de datos pertenece a una distribución particular. La agrupación se realiza asumiendo algunas distribuciones comúnmente Distribución gaussiana .

El ejemplo de este tipo es el Algoritmo de agrupación en clústeres de maximización de expectativas que utiliza modelos de mezcla gaussianos (GMM).

Agrupación en aprendizaje automático

Agrupación jerárquica

La agrupación en clústeres jerárquica se puede utilizar como alternativa a la agrupación en clústeres particionados, ya que no es necesario especificar previamente el número de clústeres que se crearán. En esta técnica, el conjunto de datos se divide en grupos para crear una estructura similar a un árbol, que también se denomina dendograma . Las observaciones o cualquier número de grupos se pueden seleccionar cortando el árbol al nivel correcto. El ejemplo más común de este método es el Algoritmo jerárquico aglomerativo .

Agrupación en aprendizaje automático

Agrupación difusa

La agrupación difusa es un tipo de método suave en el que un objeto de datos puede pertenecer a más de un grupo o clúster. Cada conjunto de datos tiene un conjunto de coeficientes de membresía, que dependen del grado de membresía de un grupo. Algoritmo difuso de medias C es el ejemplo de este tipo de agrupamiento; A veces también se le conoce como algoritmo Fuzzy k-means.

Algoritmos de agrupamiento

Los algoritmos de agrupación se pueden dividir según los modelos que se explican anteriormente. Hay diferentes tipos de algoritmos de agrupamiento publicados, pero solo unos pocos se usan comúnmente. El algoritmo de agrupamiento se basa en el tipo de datos que estamos utilizando. Por ejemplo, algunos algoritmos necesitan adivinar la cantidad de grupos en el conjunto de datos dado, mientras que otros deben encontrar la distancia mínima entre las observaciones del conjunto de datos.

Aquí analizamos principalmente algoritmos de agrupación en clústeres populares que se utilizan ampliamente en el aprendizaje automático:

jdbc
    Algoritmo K-medias:El algoritmo k-means es uno de los algoritmos de agrupamiento más populares. Clasifica el conjunto de datos dividiendo las muestras en diferentes grupos de varianzas iguales. El número de clústeres debe especificarse en este algoritmo. Es rápido y requiere menos cálculos, con la complejidad lineal de En). Algoritmo de cambio medio:El algoritmo de desplazamiento medio intenta encontrar áreas densas en la densidad suave de los puntos de datos. Es un ejemplo de modelo basado en centroide, que funciona actualizando los candidatos para que el centroide sea el centro de los puntos dentro de una región determinada.Algoritmo DBSCAN:Se destaca para agrupación espacial de aplicaciones con ruido basada en la densidad . Es un ejemplo de un modelo basado en densidad similar al cambio medio, pero con algunas ventajas notables. En este algoritmo, las áreas de alta densidad están separadas por las áreas de baja densidad. Debido a esto, los grupos se pueden encontrar en cualquier forma arbitraria.Agrupación de maximización de expectativas mediante GMM:Este algoritmo se puede utilizar como alternativa al algoritmo k-means o para aquellos casos en los que K-means puede fallar. En GMM, se supone que los puntos de datos tienen una distribución gaussiana.Algoritmo jerárquico aglomerativo:El algoritmo jerárquico aglomerativo realiza la agrupación jerárquica ascendente. En esto, cada punto de datos se trata como un único grupo al principio y luego se fusiona sucesivamente. La jerarquía del clúster se puede representar como una estructura de árbol.Propagación por afinidad:Se diferencia de otros algoritmos de agrupación en clústeres porque no requiere especificar el número de agrupaciones. En esto, cada punto de datos envía un mensaje entre el par de puntos de datos hasta la convergencia. Tiene O(N2T) complejidad temporal, que es el principal inconveniente de este algoritmo.

Aplicaciones de la agrupación

A continuación se muestran algunas aplicaciones comúnmente conocidas de la técnica de agrupación en clústeres en el aprendizaje automático:

    En Identificación de células cancerosas:Los algoritmos de agrupamiento se utilizan ampliamente para la identificación de células cancerosas. Divide los conjuntos de datos cancerosos y no cancerosos en diferentes grupos.En motores de búsqueda:Los motores de búsqueda también trabajan con la técnica del clustering. El resultado de la búsqueda aparece según el objeto más cercano a la consulta de búsqueda. Lo hace agrupando objetos de datos similares en un grupo que está lejos de otros objetos diferentes. El resultado preciso de una consulta depende de la calidad del algoritmo de agrupamiento utilizado.Segmentación de clientes:Se utiliza en investigaciones de mercado para segmentar a los clientes en función de sus elecciones y preferencias.En biología:Se utiliza en la corriente biológica para clasificar diferentes especies de plantas y animales mediante la técnica de reconocimiento de imágenes.En Uso de Suelo:La técnica de agrupamiento se utiliza para identificar el área de uso de tierras similar en la base de datos SIG. Esto puede ser muy útil para determinar para qué se debe utilizar el terreno en particular, es decir, para qué propósito es más adecuado.