logo

Algoritmo a priori

El algoritmo a priori se refiere al algoritmo que se utiliza para calcular las reglas de asociación entre objetos. Significa cómo se relacionan dos o más objetos entre sí. En otras palabras, podemos decir que el algoritmo a priori es una regla de asociación que analiza que las personas que compraron el producto A también compraron el producto B.

El objetivo principal del algoritmo a priori es crear la regla de asociación entre diferentes objetos. La regla de asociación describe cómo se relacionan dos o más objetos entre sí. El algoritmo a priori también se denomina minería de patrones frecuentes. Generalmente, el algoritmo Apriori se opera en una base de datos que consta de una gran cantidad de transacciones. Entendamos el algoritmo a priori con la ayuda de un ejemplo; Supongamos que vas al Gran Bazar y compras diferentes productos. Ayuda a los clientes a comprar sus productos con facilidad y aumenta el rendimiento de ventas del Gran Bazar. En este tutorial, discutiremos el algoritmo a priori con ejemplos.

Introducción

Tomemos un ejemplo para entender mejor el concepto. Debes haber notado que el vendedor de la pizzería prepara una combinación de pizza, refresco y palitos de pan juntos. También ofrece un descuento a sus clientes que compren estos combos. ¿Alguna vez pensaste por qué lo hace? Piensa que los clientes que compran pizza también compran refrescos y palitos de pan. Sin embargo, al hacer combos, se lo pone fácil a los clientes. Al mismo tiempo, también aumenta su rendimiento de ventas.

Del mismo modo, vas al Gran Bazar y encontrarás galletas, patatas fritas y chocolate agrupados. Muestra que el comerciante hace que sea cómodo para los clientes comprar estos productos en el mismo lugar.

Los dos ejemplos anteriores son los mejores ejemplos de reglas de asociación en

  • Apoyo
  • Confianza
  • Elevar
  • Pongamos un ejemplo para entender este concepto.

    Ya lo hemos comentado anteriormente; necesita una base de datos enorme que contenga una gran cantidad de transacciones. Suponga que tiene transacciones de 4000 clientes en un Gran Bazar. Tienes que calcular el Apoyo, la Confianza y el Incremento de dos productos, y puedes decir Galletas y Chocolate. Esto se debe a que los clientes suelen comprar estos dos artículos juntos.

    De 4000 transacciones, 400 contienen galletas, mientras que 600 contienen chocolate, y estas 600 transacciones incluyen 200 que incluyen galletas y chocolates. Utilizando estos datos, descubriremos el apoyo, la confianza y el impulso.

    Apoyo

    El soporte se refiere a la popularidad predeterminada de cualquier producto. El soporte se encuentra como el cociente de la división del número de transacciones que componen ese producto por el número total de transacciones. Por lo tanto, obtenemos

    Soporte (Galletas) = ​​(Transacciones relacionadas con galletas) / (Transacciones totales)

    = 400/4000 = 10 por ciento.

    Confianza

    La confianza se refiere a la posibilidad de que los clientes hayan comprado galletas y chocolates juntos. Por lo tanto, debe dividir la cantidad de transacciones que comprenden galletas y chocolates por la cantidad total de transacciones para obtener confianza.

    Por eso,

    Confianza = (Transacciones tanto de Galletas como de Chocolate) / (Total de transacciones de Galletas)

    = 200/400

    java reemplaza toda la cadena

    = 50 por ciento.

    Esto significa que el 50 por ciento de los clientes que compraron galletas también compraron chocolates.

    Elevar

    Considere el ejemplo anterior; El aumento se refiere al aumento en el ratio de venta de chocolates cuando se venden galletas. Las ecuaciones matemáticas de sustentación se dan a continuación.

    Elevación = (Confianza (Galletas - chocolates)/ (Apoyo (Galletas)

    = 50/10 = 5

    Esto significa que la probabilidad de que las personas compren galletas y chocolates juntos es cinco veces mayor que la de comprar las galletas solas. Si el valor de elevación es inferior a uno, es poco probable que las personas compren ambos artículos juntos. Cuanto mayor sea el valor, mejor será la combinación.

    ¿Cómo funciona el Algoritmo Apriori en Minería de Datos?

    Entenderemos este algoritmo con la ayuda de un ejemplo.

    Considere un escenario del Gran Bazar donde el conjunto de productos es P = {Arroz, Legumbres, Aceite, Leche, Manzana}. La base de datos comprende seis transacciones donde 1 representa la presencia del producto y 0 representa la ausencia del producto.

    ID de transacción Arroz Legumbres Leche de aceite Manzana
    t1 1 1 1 0 0
    t2 0 1 1 1 0
    t3 0 0 0 1 1
    t4 1 1 0 1 0
    t5 1 1 1 0 1
    t6 1 1 1 1 1

    El algoritmo a priori hace las suposiciones dadas

    • Todos los subconjuntos de un conjunto de elementos frecuentes deben ser frecuentes.
    • Los subconjuntos de un conjunto de elementos poco frecuentes deben ser poco frecuentes.
    • Fijar un nivel de soporte umbral. En nuestro caso, lo hemos fijado en el 50 por ciento.

    Paso 1

    Realiza una tabla de frecuencia de todos los productos que aparecen en todas las transacciones. Ahora, reduzca la tabla de frecuencias para agregar solo aquellos productos con un nivel de soporte umbral superior al 50 por ciento. Encontramos la tabla de frecuencias dada.

    puerto de escucha
    Producto Frecuencia (Número de transacciones)
    Arroz (R) 4
    Pulso(P) 5
    Aceite(O) 4
    Leche(M) 4

    La tabla anterior indica los productos comprados con frecuencia por los clientes.

    Paso 2

    Cree pares de productos como RP, RO, RM, PO, PM, OM. Obtendrá la tabla de frecuencias proporcionada.

    conjunto de elementos Frecuencia (Número de transacciones)
    PR 4
    RO 3
    RM 2
    DESPUÉS 4
    PM 3
    ACERCA DE 2

    Paso 3

    Implementar el mismo umbral de soporte del 50 por ciento y considerar los productos que superen el 50 por ciento. En nuestro caso son más de 3

    Así obtenemos RP, RO, PO y PM.

    Etapa 4

    Ahora busque un conjunto de tres productos que los clientes compren juntos. Obtenemos la combinación dada.

    1. RP y RO dan RPO
    2. PO y PM dan POM

    Paso 5

    Calcule la frecuencia de los dos conjuntos de elementos y obtendrá la tabla de frecuencias proporcionada.

    conjunto de elementos Frecuencia (Número de transacciones)
    RPO 4
    POM 3

    Si implementa el supuesto del umbral, puede descubrir que el conjunto de tres productos de los clientes es RPO.

    Hemos considerado un ejemplo sencillo para discutir el algoritmo a priori en la minería de datos. En realidad, encontrarás miles de combinaciones de este tipo.

    ¿Cómo mejorar la eficiencia del Algoritmo Apriori?

    Existen varios métodos utilizados para la eficiencia del algoritmo Apriori.

    Recuento de conjuntos de elementos basado en hash

    En el recuento de conjuntos de elementos basado en hash, debe excluir el conjunto de elementos k cuyo recuento de depósitos de hash equivalente sea menor que el umbral si es un conjunto de elementos poco frecuente.

    Reducción de transacciones

    En la reducción de transacciones, una transacción que no involucra ningún conjunto de elementos X frecuente deja de ser valiosa en escaneos posteriores.

    lenguaje maravilloso

    Algoritmo apriori en minería de datos

    Ya hemos discutido un ejemplo del algoritmo a priori relacionado con la generación frecuente de conjuntos de elementos. El algoritmo a priori tiene muchas aplicaciones en la minería de datos.

    Los requisitos principales para encontrar las reglas de asociación en la minería de datos se detallan a continuación.

    Usa la fuerza bruta

    Analice todas las reglas y encuentre los niveles de apoyo y confianza para cada regla individual. Luego, elimine los valores que sean inferiores al umbral de soporte y los niveles de confianza.

    Los enfoques de dos pasos

    El enfoque de dos pasos es una mejor opción para encontrar las reglas de asociación que el método de Fuerza Bruta.

    Paso 1

    En este artículo, ya hemos discutido cómo crear la tabla de frecuencia y calcular conjuntos de elementos que tienen un valor de soporte mayor que el del umbral de soporte.

    Paso 2

    Para crear reglas de asociación, debe utilizar una partición binaria de los conjuntos de elementos frecuentes. Debe elegir los que tengan los niveles de confianza más altos.

    En el ejemplo anterior, puede ver que la combinación de RPO era el conjunto de elementos frecuentes. Ahora, descubrimos todas las reglas usando RPO.

    RP-O, RO-P, PO-R, O-RP, P-RO, R-PO

    Puedes ver que hay seis combinaciones diferentes. Por lo tanto, si tienes n elementos, habrá 2norte- 2 reglas de asociación de candidatos.

    Ventajas del algoritmo a priori

    • Se utiliza para calcular conjuntos de elementos grandes.
    • Sencillo de entender y aplicar.

    Desventajas de los algoritmos a priori

    • El algoritmo a priori es un método costoso para encontrar soporte ya que el cálculo debe pasar por toda la base de datos.
    • A veces, se necesita una gran cantidad de reglas candidatas, por lo que resulta computacionalmente más costoso.