logo

Aprendizaje supervisado y no supervisado

El aprendizaje automático es un campo de la informática que brinda a las computadoras la capacidad de aprender sin estar programadas explícitamente. El aprendizaje supervisado y el aprendizaje no supervisado son dos tipos principales de aprendizaje automático .

En aprendizaje supervisado , la máquina se entrena con un conjunto de datos etiquetados, lo que significa que los datos de entrada se emparejan con la salida deseada. Luego, la máquina aprende a predecir la salida de nuevos datos de entrada. El aprendizaje supervisado se utiliza a menudo para tareas como clasificación, regresión y detección de objetos.

En el aprendizaje no supervisado, la máquina se entrena con un conjunto de datos sin etiquetar, lo que significa que los datos de entrada no están emparejados con la salida deseada. Luego, la máquina aprende a encontrar patrones y relaciones en los datos. El aprendizaje no supervisado se utiliza a menudo para tareas como agrupamiento , reducción de dimensionalidad y detección de anomalías.



¿Qué es el aprendizaje supervisado?

El aprendizaje supervisado es un tipo de algoritmo de aprendizaje automático que aprende de los datos etiquetados. Los datos etiquetados son datos que han sido etiquetados con una respuesta o clasificación correcta.

El aprendizaje supervisado, como su nombre indica, cuenta con la presencia de un supervisor como docente. El aprendizaje supervisado es cuando enseñamos o entrenamos la máquina utilizando datos bien etiquetados. Lo que significa que algunos datos ya están etiquetados con la respuesta correcta. Después de eso, la máquina recibe un nuevo conjunto de ejemplos (datos) para que el algoritmo de aprendizaje supervisado analice los datos de entrenamiento (conjunto de ejemplos de entrenamiento) y produzca un resultado correcto a partir de los datos etiquetados.

Por ejemplo, un conjunto de datos etiquetado de imágenes de Elefante, Camello y Vaca tendría cada imagen etiquetada con Elefante, Camello o Vaca.

Aprendizaje supervisado

Puntos clave:

  • El aprendizaje supervisado implica entrenar una máquina a partir de datos etiquetados.
  • Los datos etiquetados constan de ejemplos con la respuesta o clasificación correcta.
  • La máquina aprende la relación entre las entradas (imágenes de frutas) y las salidas (etiquetas de frutas).
  • Luego, la máquina entrenada puede hacer predicciones sobre datos nuevos sin etiquetar.

Ejemplo:

Digamos que tienes una canasta de frutas que quieres identificar. La máquina primero analizaría la imagen para extraer características como su forma, color y textura. Luego, compararía estas características con las características de las frutas que ya conoce. Si las características de la nueva imagen son más similares a las de una manzana, la máquina predeciría que la fruta es una manzana.

llave de inserción del ordenador portátil

Por ejemplo , supongamos que te dan una canasta llena de diferentes tipos de frutas. Ahora el primer paso es entrenar la máquina con todas las diferentes frutas una por una así:

colecciones java java
  • Si la forma del objeto es redondeada y tiene una depresión en la parte superior, es de color rojo, entonces se etiquetará como: Manzana .
  • Si la forma del objeto es un cilindro largo y curvo de color verde-amarillo, se etiquetará como: Banana .

Ahora supongamos que después de entrenar los datos, le ha dado una nueva fruta separada, digamos un plátano de la canasta, y le ha pedido que la identifique.

Dado que la máquina ya ha aprendido las cosas de los datos anteriores y esta vez tiene que usarla sabiamente. Primero clasificará la fruta por su forma y color y confirmará el nombre de la fruta como PLÁTANO y la colocará en la categoría Plátano. Por lo tanto, la máquina aprende las cosas a partir de los datos de entrenamiento (canasta que contiene frutas) y luego aplica el conocimiento a los datos de prueba (fruta nueva).

Tipos de aprendizaje supervisado

El aprendizaje supervisado se clasifica en dos categorías de algoritmos:

  • Regresión : Un problema de regresión ocurre cuando la variable de salida es un valor real, como dólares o peso.
  • Clasificación : Un problema de clasificación ocurre cuando la variable de salida es una categoría, como Rojo o Azul, enfermedad o ninguna enfermedad.

El aprendizaje supervisado trata o aprende con datos etiquetados. Esto implica que algunos datos ya están etiquetados con la respuesta correcta.

1- Regresión

La regresión es un tipo de aprendizaje supervisado que se utiliza para predecir valores continuos, como los precios de la vivienda, los precios de las acciones o la pérdida de clientes. Los algoritmos de regresión aprenden una función que se asigna desde las características de entrada al valor de salida.

Algo comun algoritmos de regresión incluir:

  • Regresión lineal
  • Regresión polinomial
  • Regresión de máquina de vectores de soporte
  • Regresión del árbol de decisión
  • Regresión forestal aleatoria

2- Clasificación

La clasificación es un tipo de aprendizaje supervisado que se utiliza para predecir valores categóricos, como si un cliente abandonará o no, si un correo electrónico es spam o no, o si una imagen médica muestra un tumor o no. Los algoritmos de clasificación aprenden una función que asigna las características de entrada a una distribución de probabilidad sobre las clases de salida.

Algo comun algoritmos de clasificación incluir:

  • Regresión logística
  • Máquinas de vectores de soporte
  • Árboles de decisión
  • Bosques aleatorios
  • Baye ingenuo

Evaluación de modelos de aprendizaje supervisado

La evaluación de modelos de aprendizaje supervisado es un paso importante para garantizar que el modelo sea preciso y generalizable. Hay una serie de diferentes métrica que se puede utilizar para evaluar modelos de aprendizaje supervisado, pero algunos de los más comunes incluyen:

Para la regresión

  • Error cuadrático medio (MSE): MSE mide la diferencia cuadrática promedio entre los valores previstos y los valores reales. Los valores de MSE más bajos indican un mejor rendimiento del modelo.
  • Error cuadrático medio (RMSE): RMSE es la raíz cuadrada de MSE y representa la desviación estándar de los errores de predicción. Al igual que en MSE, los valores de RMSE más bajos indican un mejor rendimiento del modelo.
  • Error absoluto medio (MAE): MAE mide la diferencia absoluta promedio entre los valores previstos y los valores reales. Es menos sensible a valores atípicos en comparación con MSE o RMSE.
  • R-cuadrado (Coeficiente de Determinación): R cuadrado mide la proporción de la varianza en la variable objetivo que explica el modelo. Los valores de R cuadrado más altos indican un mejor ajuste del modelo.

Para clasificación

  • Exactitud: La precisión es el porcentaje de predicciones que el modelo hace correctamente. Se calcula dividiendo el número de predicciones correctas por el número total de predicciones.
  • Precisión: La precisión es el porcentaje de predicciones positivas que hace el modelo y que realmente son correctas. Se calcula dividiendo el número de verdaderos positivos por el número total de predicciones positivas.
  • Recordar: El recuerdo es el porcentaje de todos los ejemplos positivos que el modelo identifica correctamente. Se calcula dividiendo el número de verdaderos positivos por el número total de ejemplos positivos.
  • Puntuación F1: La puntuación F1 es un promedio ponderado de precisión y recuperación. Se calcula tomando la media armónica de precisión y recuperación.
  • Matriz de confusión: Una matriz de confusión es una tabla que muestra la cantidad de predicciones para cada clase, junto con las etiquetas de clase reales. Se puede utilizar para visualizar el rendimiento del modelo e identificar áreas en las que el modelo tiene dificultades.

Aplicaciones del aprendizaje supervisado

El aprendizaje supervisado se puede utilizar para resolver una amplia variedad de problemas, que incluyen:

  • Filtrado de spam: Se pueden entrenar algoritmos de aprendizaje supervisado para identificar y clasificar correos electrónicos no deseados en función de su contenido, lo que ayuda a los usuarios a evitar mensajes no deseados.
  • Clasificación de imágenes: El aprendizaje supervisado puede clasificar automáticamente imágenes en diferentes categorías, como animales, objetos o escenas, facilitando tareas como la búsqueda de imágenes, la moderación de contenido y las recomendaciones de productos basadas en imágenes.
  • Diagnostico medico: El aprendizaje supervisado puede ayudar en el diagnóstico médico mediante el análisis de datos del paciente, como imágenes médicas, resultados de pruebas e historial del paciente, para identificar patrones que sugieran enfermedades o afecciones específicas.
  • Detección de fraude: Los modelos de aprendizaje supervisado pueden analizar transacciones financieras e identificar patrones que indican actividad fraudulenta, ayudando a las instituciones financieras a prevenir el fraude y proteger a sus clientes.
  • Procesamiento del lenguaje natural (PNL): El aprendizaje supervisado desempeña un papel crucial en las tareas de PNL, incluido el análisis de sentimientos, la traducción automática y el resumen de texto, lo que permite a las máquinas comprender y procesar el lenguaje humano de forma eficaz.

Ventajas del aprendizaje supervisado

  • El aprendizaje supervisado permite recopilar datos y producir datos de experiencias previas.
  • Ayuda a optimizar los criterios de desempeño con la ayuda de la experiencia.
  • El aprendizaje automático supervisado ayuda a resolver varios tipos de problemas computacionales del mundo real.
  • Realiza tareas de clasificación y regresión.
  • Permite estimar o mapear el resultado a una nueva muestra.
  • Tenemos control total sobre la elección del número de clases que queremos en los datos de entrenamiento.

Desventajas del aprendizaje supervisado

  • Clasificar big data puede ser un desafío.
  • La formación para el aprendizaje supervisado necesita mucho tiempo de cálculo. Por tanto, requiere mucho tiempo.
  • El aprendizaje supervisado no puede manejar todas las tareas complejas del aprendizaje automático.
  • El tiempo de cálculo es enorme para el aprendizaje supervisado.
  • Requiere un conjunto de datos etiquetados.
  • Requiere un proceso de formación.

¿Qué es el aprendizaje no supervisado?

El aprendizaje no supervisado es un tipo de aprendizaje automático que aprende a partir de datos sin etiquetar. Esto significa que los datos no tienen etiquetas o categorías preexistentes. El objetivo del aprendizaje no supervisado es descubrir patrones y relaciones en los datos sin ninguna guía explícita.

eliminación de un árbol de búsqueda binario

El aprendizaje no supervisado es el entrenamiento de una máquina utilizando información que no está clasificada ni etiquetada y permitiendo que el algoritmo actúe sobre esa información sin guía. Aquí la tarea de la máquina es agrupar información sin clasificar según similitudes, patrones y diferencias sin ningún entrenamiento previo de los datos.

A diferencia del aprendizaje supervisado, no se proporciona ningún profesor, lo que significa que no se impartirá formación a la máquina. Por lo tanto, la máquina está restringida a encontrar por sí misma la estructura oculta en datos sin etiquetar.

Puede utilizar el aprendizaje no supervisado para examinar los datos de animales que se han recopilado y distinguir entre varios grupos según los rasgos y acciones de los animales. Estas agrupaciones pueden corresponder a varias especies animales, lo que le permite clasificar las criaturas sin depender de etiquetas que ya existen.

Aprendizaje sin supervisión

Puntos clave

  • El aprendizaje no supervisado permite que el modelo descubra patrones y relaciones en datos sin etiquetar.
  • Los algoritmos de agrupamiento agrupan puntos de datos similares en función de sus características inherentes.
  • La extracción de características captura información esencial de los datos, lo que permite que el modelo haga distinciones significativas.
  • La asociación de etiquetas asigna categorías a los grupos en función de los patrones y características extraídos.

Ejemplo

Imagine que tiene un modelo de aprendizaje automático entrenado en un gran conjunto de datos de imágenes sin etiquetar, que contiene perros y gatos. El modelo nunca antes había visto una imagen de un perro o un gato y no tiene etiquetas o categorías preexistentes para estos animales. Su tarea es utilizar el aprendizaje no supervisado para identificar perros y gatos en una imagen nueva e invisible.

Por ejemplo , supongamos que se le da una imagen que tiene perros y gatos que nunca ha visto.

Por lo tanto, la máquina no tiene idea de las características de los perros y gatos, por lo que no podemos clasificarla como 'perros y gatos'. Pero puede categorizarlos según sus similitudes, patrones y diferencias, es decir, podemos categorizar fácilmente la imagen de arriba en dos partes. El primero puede contener todas las fotografías que tengan perros en ellos y la segunda parte puede contener todas las fotografías que tengan gatos en ellos. Aquí no aprendiste nada antes, lo que significa que no hay datos de entrenamiento ni ejemplos.

Permite que el modelo funcione por sí solo para descubrir patrones e información que antes no se habían detectado. Se trata principalmente de datos sin etiquetar.

Tipos de aprendizaje no supervisado

El aprendizaje no supervisado se clasifica en dos categorías de algoritmos:

  • Agrupación : Un problema de agrupación se produce cuando se desea descubrir las agrupaciones inherentes a los datos, como agrupar a los clientes según su comportamiento de compra.
  • Asociación : Un problema de aprendizaje de reglas de asociación es cuando desea descubrir reglas que describen grandes porciones de sus datos, como por ejemplo, las personas que compran X también tienden a comprar Y.

Agrupación

La agrupación es un tipo de aprendizaje no supervisado que se utiliza para agrupar puntos de datos similares. Algoritmos de agrupamiento funcionan moviendo iterativamente los puntos de datos más cerca de los centros de sus grupos y más lejos de los puntos de datos de otros grupos.

  1. Exclusivo (particionamiento)
  2. Aglomerativo
  3. superpuestas
  4. probabilístico

Tipos de agrupación: -

  1. Agrupación jerárquica
  2. K-medias agrupación
  3. Análisis de componentes principales
  4. Valor singular de descomposición
  5. Análisis de componentes independientes
  6. Modelos de mezcla gaussiana (GMM)
  7. Agrupación espacial de aplicaciones con ruido basada en densidad (DBSCAN)

Aprendizaje de reglas de asociación

El aprendizaje de reglas de asociación es un tipo de aprendizaje no supervisado que se utiliza para identificar patrones en unos datos. regla de asociación Los algoritmos de aprendizaje funcionan encontrando relaciones entre diferentes elementos de un conjunto de datos.

Algunos algoritmos comunes de aprendizaje de reglas de asociación incluyen:

  • Algoritmo a priori
  • Algoritmo Éclat
  • Algoritmo de crecimiento FP

Evaluación de modelos de aprendizaje no supervisados

La evaluación de modelos de aprendizaje no supervisados ​​es un paso importante para garantizar que el modelo sea eficaz y útil. Sin embargo, puede ser más desafiante que evaluar modelos de aprendizaje supervisado, ya que no hay datos reales con los que comparar las predicciones del modelo.

nick pulos rayo negro

Existen varias métricas diferentes que se pueden utilizar para evaluar modelos de aprendizaje no supervisados, pero algunas de las más comunes incluyen:

  • Puntuación de silueta: La puntuación de silueta mide qué tan bien se agrupa cada punto de datos con sus propios miembros del grupo y se separa de otros grupos. Varía de -1 a 1, y las puntuaciones más altas indican una mejor agrupación.
  • Puntuación de Calinski-Harabasz: La puntuación de Calinski-Harabasz mide la relación entre la varianza entre conglomerados y la varianza dentro de los conglomerados. Varía de 0 a infinito, y las puntuaciones más altas indican una mejor agrupación.
  • Índice de Rand ajustado: El índice Rand ajustado mide la similitud entre dos agrupaciones. Varía de -1 a 1, y las puntuaciones más altas indican agrupaciones más similares.
  • Índice de Davies-Bouldin: El índice de Davies-Bouldin mide la similitud promedio entre conglomerados. Varía de 0 a infinito, y las puntuaciones más bajas indican una mejor agrupación.
  • Puntuación F1: La puntuación F1 es un promedio ponderado de precisión y recuperación, dos métricas que se utilizan comúnmente en el aprendizaje supervisado para evaluar modelos de clasificación. Sin embargo, la puntuación F1 también se puede utilizar para evaluar modelos de aprendizaje no supervisados, como los modelos de agrupación.

Solicitud de aprendizaje no supervisado

El aprendizaje no supervisado se puede utilizar para resolver una amplia variedad de problemas, que incluyen:

  • Detección de anomalías: el aprendizaje no supervisado puede identificar patrones inusuales o desviaciones del comportamiento normal en los datos, lo que permite la detección de fraudes, intrusiones o fallas del sistema.
  • Descubrimiento científico: el aprendizaje no supervisado puede descubrir relaciones y patrones ocultos en los datos científicos, lo que conduce a nuevas hipótesis y conocimientos en diversos campos científicos.
  • Sistemas de recomendación: el aprendizaje no supervisado puede identificar patrones y similitudes en el comportamiento y las preferencias del usuario para recomendar productos, películas o música que se alineen con sus intereses.
  • Segmentación de clientes: el aprendizaje no supervisado puede identificar grupos de clientes con características similares, lo que permite a las empresas orientar campañas de marketing y mejorar el servicio al cliente de forma más eficaz.
  • Análisis de imágenes: el aprendizaje no supervisado puede agrupar imágenes según su contenido, facilitando tareas como clasificación de imágenes, detección de objetos y recuperación de imágenes.

Ventajas de aprendizaje no supervisado

  • No requiere etiquetar los datos de entrenamiento.
  • La reducción de la dimensionalidad se puede lograr fácilmente mediante el aprendizaje no supervisado.
  • Capaz de encontrar patrones previamente desconocidos en los datos.
  • El aprendizaje no supervisado puede ayudarle a obtener información a partir de datos sin etiquetar que de otro modo no habría podido obtener.
  • El aprendizaje no supervisado es bueno para encontrar patrones y relaciones en los datos sin que le digan qué buscar. Esto puede ayudarle a aprender cosas nuevas sobre sus datos.

Desventajas de aprendizaje no supervisado

  • Es difícil medir la precisión o eficacia debido a la falta de respuestas predefinidas durante la capacitación.
  • Los resultados suelen tener menos precisión.
  • El usuario necesita dedicar tiempo a interpretar y etiquetar las clases que siguen esa clasificación.
  • El aprendizaje no supervisado puede ser sensible a la calidad de los datos, incluidos valores faltantes, valores atípicos y datos ruidosos.
  • Sin datos etiquetados, puede resultar difícil evaluar el rendimiento de los modelos de aprendizaje no supervisados, lo que dificulta evaluar su eficacia.

Aprendizaje automático supervisado versus no supervisado

Parámetros Aprendizaje automático supervisado Aprendizaje automático no supervisado
Datos de entrada Los algoritmos se entrenan utilizando datos etiquetados. Los algoritmos se utilizan contra datos que no están etiquetados.
Complejidad computacional Método más simple Computacionalmente complejo
Exactitud Alta precisión Menos precisa
No. de clases Se conoce el número de clases. No se conoce el número de clases.
Análisis de los datos Utiliza análisis fuera de línea Utiliza análisis de datos en tiempo real.
Algoritmos utilizados

Regresión lineal y logística, bosque aleatorio, clasificación multiclase, árbol de decisión, máquina de vectores de soporte, red neuronal, etc.

Agrupación K-Means, agrupación jerárquica, KNN, algoritmo a priori, etc.

Producción Se proporciona el resultado deseado. No se proporciona el resultado deseado.
Datos de entrenamiento Utilice datos de entrenamiento para inferir el modelo. No se utilizan datos de entrenamiento.
Modelo complejo No es posible aprender modelos más grandes y complejos que con el aprendizaje supervisado. Es posible aprender modelos más grandes y complejos con aprendizaje no supervisado.
Modelo Podemos probar nuestro modelo. No podemos probar nuestro modelo.
Llamado El aprendizaje supervisado también se llama clasificación. El aprendizaje no supervisado también se denomina agrupación.
Ejemplo Ejemplo: reconocimiento óptico de caracteres. Ejemplo: encontrar una cara en una imagen.

Supervisión

hora de la cena versus la hora de la cena

El aprendizaje supervisado necesita supervisión para entrenar el modelo.

El aprendizaje no supervisado no necesita ninguna supervisión para entrenar el modelo.

Conclusión

El aprendizaje supervisado y no supervisado son dos herramientas poderosas que pueden usarse para resolver una amplia variedad de problemas. El aprendizaje supervisado es adecuado para tareas en las que se conoce el resultado deseado, mientras que el aprendizaje no supervisado es adecuado para tareas en las que se desconoce el resultado deseado.

Preguntas frecuentes (FAQ)

1. ¿Cuál es la diferencia entre lenguaje de máquina supervisado y no supervisado?

El aprendizaje supervisado y no supervisado son dos enfoques fundamentales del aprendizaje automático que difieren en sus datos de entrenamiento y objetivos de aprendizaje.

  • Aprendizaje supervisado Implica entrenar un modelo de aprendizaje automático en un conjunto de datos etiquetados, donde cada punto de datos tiene una etiqueta o valor de salida correspondiente. El algoritmo aprende a asignar los datos de entrada a la salida deseada, lo que le permite hacer predicciones para datos nuevos e invisibles.
  • Aprendizaje sin supervisión , por otro lado, trata con conjuntos de datos sin etiquetar, donde los puntos de datos no tienen etiquetas ni valores de salida asociados.

2. ¿Qué es el aprendizaje supervisado?

El aprendizaje supervisado es un tipo de aprendizaje automático en el que el algoritmo se entrena en un conjunto de datos etiquetados, donde cada punto de datos tiene una etiqueta o valor de salida correspondiente. El algoritmo aprende a asignar los datos de entrada a la salida deseada, lo que le permite hacer predicciones para datos nuevos e invisibles.

3. ¿Cuáles son los algoritmos de aprendizaje supervisado comunes?

Los algoritmos de aprendizaje supervisado comunes incluyen:

  • Clasificación: Se utiliza para asignar categorías a puntos de datos. Los ejemplos incluyen máquinas de vectores de soporte (SVM), regresión logística y árboles de decisión.
  • Regresión: Se utiliza para predecir valores numéricos continuos. Los ejemplos incluyen regresión lineal, regresión polinómica y regresión de crestas.

4. ¿Cuáles son los algoritmos comunes de aprendizaje no supervisado?

Los algoritmos de aprendizaje no supervisados ​​comunes incluyen:

  • Agrupación: Agrupar puntos de datos en grupos según su similitud. Los ejemplos incluyen agrupación de k-medias y agrupación jerárquica.
  • Reducción de dimensionalidad: Reducir la cantidad de características en un conjunto de datos preservando al mismo tiempo la información más importante. Los ejemplos incluyen análisis de componentes principales (PCA) y codificadores automáticos.

5. ¿Qué es el aprendizaje no supervisado?

El aprendizaje no supervisado es un tipo de aprendizaje automático en el que el algoritmo se entrena en un conjunto de datos sin etiquetar, donde los puntos de datos no tienen etiquetas ni valores de salida correspondientes. El algoritmo aprende a identificar patrones y estructuras en los datos sin una guía explícita.

6. ¿Cuándo utilizar el aprendizaje supervisado frente al aprendizaje no supervisado?

Utilice el aprendizaje supervisado cuando tenga un conjunto de datos etiquetado y desee hacer predicciones para datos nuevos. Utilice el aprendizaje no supervisado cuando tenga un conjunto de datos sin etiquetar y desee identificar patrones o estructuras en los datos.