Requisito previo: minería de datos, la medida de similitud se refiere a la distancia con dimensiones que representan características del objeto de datos, en un conjunto de datos. Si esta distancia es menor, habrá un alto grado de similitud, pero cuando la distancia es grande, habrá un bajo grado de similitud. Algunas de las medidas de similitud populares son:
- Distancia euclidiana.
- Distancia de Manhattan.
- Similitud de Jaccard.
- Distancia Minkowski.
- Similitud del coseno.
Similitud del coseno es una métrica útil para determinar qué tan similares son los objetos de datos independientemente de su tamaño. Podemos medir la similitud entre dos oraciones en Python usando Cosine Similarity. En la similitud coseno, los objetos de datos de un conjunto de datos se tratan como un vector. La fórmula para encontrar la similitud del coseno entre dos vectores es:
(x, y) = x . y / ||x|| ||y||>
dónde,
- X . y = producto (punto) de los vectores 'x' e 'y'.||x|| y ||y|| = longitud (magnitud) de los dos vectores 'x' e 'y'.||x||

Ejemplo : Considere un ejemplo para encontrar la similitud entre dos vectores: 'X' y ‘y’ , usando similitud de coseno. El vector 'x' tiene valores, x = {3, 2, 0, 5} El vector 'y' tiene valores, y = { 1, 0, 0, 0 } La fórmula para calcular la similitud del coseno es: (x, y) = x . y / ||x||
||y||
propiedades ácidas en dbms
x . y = 3*1 + 2*0 + 0*0 + 5*0 = 3 ||x|| = √ (3)^2 + (2)^2 + (0)^2 + (5)^2 = 6.16 ||y|| = √ (1)^2 + (0)^2 + (0)^2 + (0)^2 = 1 ∴ (x, y) = 3 / (6.16 * 1) = 0.49>
La disimilitud entre los dos vectores 'x' e 'y' viene dada por -
∴ (x, y) = 1 - (x, y) = 1 - 0.49 = 0.51>
- La similitud del coseno entre dos vectores se mide en 'θ'.
- Si θ = 0°, los vectores 'x' e 'y' se superponen, demostrando así que son similares.
- Si θ = 90°, los vectores 'x' e 'y' son diferentes.

Coseno Similitud entre dos vectores
Ventajas:
- La similitud del coseno es beneficiosa porque incluso si los dos objetos de datos similares están separados por la distancia euclidiana debido al tamaño, aún podrían tener un ángulo menor entre ellos. Cuanto menor sea el ángulo, mayor será la similitud.
- Cuando se traza en un espacio multidimensional, la similitud del coseno captura la orientación (el ángulo) de los objetos de datos y no la magnitud.