La regresión lineal y la regresión logística son los dos famosos algoritmos de aprendizaje automático que se incluyen en la técnica de aprendizaje supervisado. Dado que ambos algoritmos son de naturaleza supervisada, estos algoritmos utilizan un conjunto de datos etiquetados para hacer las predicciones. Pero la principal diferencia entre ellos es cómo se utilizan. La regresión lineal se utiliza para resolver problemas de regresión, mientras que la regresión logística se utiliza para resolver problemas de clasificación. La descripción de ambos algoritmos se proporciona a continuación junto con la tabla de diferencias.
Regresión lineal:
- La regresión lineal es uno de los algoritmos de aprendizaje automático más simples que se incluye en la técnica de aprendizaje supervisado y se utiliza para resolver problemas de regresión.
- Se utiliza para predecir la variable dependiente continua con la ayuda de variables independientes.
- El objetivo de la regresión lineal es encontrar la línea de mejor ajuste que pueda predecir con precisión el resultado de la variable dependiente continua.
- Si se utiliza una sola variable independiente para la predicción, se denomina regresión lineal simple y si hay más de dos variables independientes, dicha regresión se denomina regresión lineal múltiple.
- Al encontrar la línea de mejor ajuste, el algoritmo establece la relación entre la variable dependiente y la variable independiente. Y la relación debería ser de naturaleza lineal.
- El resultado de la regresión lineal solo deben ser valores continuos como precio, edad, salario, etc. La relación entre la variable dependiente y la variable independiente se puede mostrar en la siguiente imagen:
En la imagen de arriba, la variable dependiente está en el eje Y (salario) y la variable independiente está en el eje x (experiencia). La recta de regresión se puede escribir como:
y= a<sub>0</sub>+a<sub>1</sub>x+ ε
Donde un0y un1son los coeficientes y ε es el término de error.
Regresión logística:
- La regresión logística es uno de los algoritmos de aprendizaje automático más populares que se incluyen en las técnicas de aprendizaje supervisado.
- Puede usarse tanto para problemas de clasificación como para problemas de regresión, pero se usa principalmente para problemas de clasificación.
- La regresión logística se utiliza para predecir la variable dependiente categórica con la ayuda de variables independientes.
- El resultado del problema de regresión logística solo puede estar entre 0 y 1.
- La regresión logística se puede utilizar cuando se requieren probabilidades entre dos clases. Por ejemplo, si lloverá hoy o no, 0 o 1, verdadero o falso, etc.
- La regresión logística se basa en el concepto de estimación de máxima verosimilitud. Según esta estimación, los datos observados deberían ser los más probables.
- En la regresión logística, pasamos la suma ponderada de las entradas a través de una función de activación que puede asignar valores entre 0 y 1. Dicha función de activación se conoce como función sigmoidea y la curva obtenida se denomina curva sigmoidea o curva S. Considere la siguiente imagen:
- La ecuación de regresión logística es:
Diferencia entre regresión lineal y regresión logística:
Regresión lineal | Regresión logística |
---|---|
La regresión lineal se utiliza para predecir la variable dependiente continua utilizando un conjunto determinado de variables independientes. | La regresión logística se utiliza para predecir la variable dependiente categórica utilizando un conjunto determinado de variables independientes. |
La regresión lineal se utiliza para resolver problemas de regresión. | La regresión logística se utiliza para resolver problemas de clasificación. |
En regresión lineal, predecimos el valor de variables continuas. | En regresión logística, predecimos los valores de variables categóricas. |
En la regresión lineal, encontramos la línea de mejor ajuste, mediante la cual podemos predecir fácilmente el resultado. | En Regresión Logística encontramos la curva S mediante la cual podemos clasificar las muestras. |
El método de estimación de mínimos cuadrados se utiliza para estimar la precisión. | El método de estimación de máxima verosimilitud se utiliza para estimar la precisión. |
El resultado de la regresión lineal debe ser un valor continuo, como precio, edad, etc. | El resultado de la regresión logística debe ser un valor categórico como 0 o 1, sí o no, etc. |
En la regresión lineal, se requiere que la relación entre la variable dependiente y la variable independiente sea lineal. | En la regresión logística, no es necesario tener una relación lineal entre la variable dependiente y la independiente. |
En la regresión lineal, puede haber colinealidad entre las variables independientes. | En la regresión logística, no debería haber colinealidad entre la variable independiente. |