logo

¿Qué es CRISP en minería de datos?

CRISP-DM significa el proceso estándar intersectorial para la minería de datos. La metodología CRISP-DM proporciona un enfoque estructurado para planificar un proyecto de minería de datos. Es una metodología robusta y bien probada. No reclamamos ninguna propiedad sobre él. No lo inventamos nosotros. Somos un convertidor de su poderosa practicidad, flexibilidad y utilidad al utilizar la analítica para resolver problemas comerciales. Es el hilo dorado que recorre casi todas las reuniones con los clientes.

Este modelo es una secuencia idealizada de eventos. En la práctica, muchas tareas se pueden realizar en un orden diferente y, a menudo, será necesario retroceder a tareas anteriores y repetir ciertas acciones. El modelo no intenta capturar todas las rutas posibles a través del proceso de minería de datos.

¿Cómo ayuda CRISP?

CRISP DM proporciona una hoja de ruta, le brinda mejores prácticas y proporciona estructuras para obtener resultados mejores y más rápidos en el uso de la minería de datos, por lo que ayuda a la empresa a seguir mientras planifica y lleva a cabo un proyecto de minería de datos.

Fases de CRISP-DM

CRISP-DM proporciona una descripción general del ciclo de vida de la minería de datos como modelo de proceso. El modelo de ciclo de vida consta de seis fases, con flechas que indican las dependencias más importantes y frecuentes entre las fases. La secuencia de las fases no es estricta. Y la mayoría de los proyectos avanzan y retroceden entre fases según sea necesario. El modelo CRISP-DM es flexible y se puede personalizar fácilmente.

Por ejemplo, si su organización tiene como objetivo detectar el lavado de dinero, probablemente examinará grandes cantidades de datos sin un objetivo de modelado específico. En lugar de modelar, su trabajo se centrará en la exploración y visualización de datos para descubrir patrones sospechosos en los datos financieros. CRISP-DM le permite crear un modelo de minería de datos que se ajuste a sus necesidades.

Incluye descripciones de las fases típicas de un proyecto, las tareas involucradas en cada fase y una explicación de las relaciones entre estas tareas.

¿Qué es CRISP en la minería de datos?

Fase 1: Entendimiento Empresarial

La primera etapa del proceso CRISP-DM es comprender lo que desea lograr desde una perspectiva empresarial. Su organización puede tener objetivos y limitaciones en competencia que deben equilibrarse adecuadamente. Esta etapa del proceso tiene como objetivo descubrir factores importantes que influyen en el resultado del proyecto. Descuidar este paso puede significar que se dedique mucho esfuerzo a producir las respuestas correctas a las preguntas equivocadas.

¿Cuáles son los resultados deseados del proyecto?

    Objetivos fijados:Describe tu objetivo principal desde una perspectiva empresarial. También puede haber otras preguntas relacionadas que le gustaría mencionar. Por ejemplo, su objetivo principal podría ser retener a los clientes actuales prediciendo cuándo son propensos a migrar a un competidor.Producir el plan de proyecto:Describa el plan para lograr los objetivos comerciales y de minería de datos. El plan debe especificar los pasos a realizar durante el resto del proyecto, incluida la selección inicial de herramientas y técnicas.Criterios de éxito empresarial:Aquí, establecerá los criterios que utilizará para determinar si el proyecto ha tenido éxito desde el punto de vista empresarial. Idealmente, estos deberían ser específicos y mensurables, por ejemplo, reduciendo el ritmo de los clientes a un cierto nivel. Sin embargo, a veces puede ser necesario tener criterios más subjetivos, como dar información útil sobre las relaciones.

Evaluar la situación actual.

texto de ajuste css

Esto implica una investigación más detallada sobre los recursos, las limitaciones, las suposiciones y otros factores que deberá considerar al determinar su objetivo de análisis de datos y su plan de proyecto.

    Inventario de recursos:Enumere los recursos disponibles para el proyecto, incluyendo:
    • Personal (expertos en negocios, expertos en datos, soporte técnico, expertos en minería de datos)
    • Datos (extractos fijos, acceso a datos en vivo, almacenados u operativos)
    • Recursos informáticos (plataformas de hardware)
    • Software (herramientas de minería de datos, otro software relevante)
    Requisitos, supuestos y limitaciones:Enumere todos los requisitos del proyecto, incluido el cronograma de finalización, la comprensibilidad y calidad requeridas de los resultados, y cualquier inquietud sobre la seguridad de los datos y cuestiones legales. Asegúrese de tener permiso para utilizar los datos. Enumere los supuestos hechos por el proyecto. Estas pueden ser suposiciones sobre los datos que pueden verificarse durante la extracción de datos, pero también pueden incluir suposiciones no verificables sobre el negocio relacionado con el proyecto. Es importante enumerar estos últimos si afectan la validez de los resultados. Enumere las restricciones del proyecto. Estas pueden ser limitaciones a la disponibilidad de recursos, pero también pueden incluir limitaciones tecnológicas, como el tamaño del conjunto de datos que es práctico utilizar para la modelización.Riesgos y contingencias:Enumere los riesgos o eventos que podrían retrasar el proyecto o provocar su fracaso. Enumere los planes de contingencia correspondientes, como ¿qué medidas tomará si ocurren estos riesgos o eventos?Terminología:Compilar un glosario de terminología relevante para el proyecto. Esto generalmente tendrá dos componentes:
    • Un glosario de terminología empresarial relevante forma parte del conocimiento empresarial disponible para el proyecto. La elaboración de este glosario es un útil ejercicio educativo y de 'obtención de conocimientos'.
    • Se ilustra un glosario de terminología de minería de datos con ejemplos relevantes para el problema empresarial.
    Costos y beneficios:Construya un análisis de costo-beneficio para el proyecto, que compare los costos del proyecto con los beneficios potenciales para el negocio si tiene éxito. Esta comparación debe ser lo más específica posible. Por ejemplo, debería utilizar medidas financieras en una situación comercial.

Determinar los objetivos de la minería de datos.

Una meta empresarial establece objetivos en terminología empresarial. Una meta de minería de datos establece los objetivos del proyecto en términos técnicos. Por ejemplo, el objetivo empresarial podría ser aumentar las ventas por catálogo a los clientes existentes. Un objetivo de minería de datos podría ser predecir cuántos widgets comprará un cliente, teniendo en cuenta sus compras durante los últimos tres años, la información demográfica (edad, salario, ciudad, etc.) y el precio del artículo.

    Criterios de éxito empresarial:Describe los resultados previstos del proyecto que permiten el logro de los objetivos comerciales.Criterios de éxito de la minería de datos:Define los criterios para un resultado exitoso del proyecto. Por ejemplo, un cierto nivel de precisión predictiva o un perfil de propensión a comprar con un determinado grado de 'incremento'. Al igual que con los criterios de éxito empresarial, puede ser necesario describirlos en términos subjetivos, en cuyo caso se debe identificar a la persona o personas que emiten el juicio subjetivo.

Producir el plan de proyecto

Describa el plan previsto para lograr los objetivos de minería de datos y los objetivos comerciales. Su plan debe especificar los pasos a realizar durante el resto del proyecto, incluida la selección inicial de herramientas y técnicas.

1. Plan del proyecto: Enumerar las etapas a ejecutar en el proyecto, con su duración, recursos requeridos, entradas, salidas y dependencias. Cuando sea posible, intente hacer explícitas las iteraciones a gran escala en el proceso de extracción de datos, por ejemplo, repeticiones de las fases de modelado y evaluación.

Como parte del plan del proyecto, es importante analizar las dependencias entre los cronogramas y los riesgos. Marque los resultados de estos análisis explícitamente en el plan del proyecto, idealmente con acciones y recomendaciones si los riesgos se manifiestan. Decida qué estrategia de evaluación se utilizará en la fase de evaluación.

El plan de su proyecto será un documento dinámico. Al final de cada fase, revisará el progreso y los logros y actualizará el plan del proyecto en consecuencia. Los puntos de revisión específicos para estas actualizaciones deben ser parte del plan del proyecto.

2. Evaluación inicial de herramientas y técnicas: Al final de la primera fase, se debe realizar una evaluación inicial de herramientas y técnicas. Por ejemplo, selecciona una herramienta de minería de datos que admita varios métodos para diferentes etapas del proceso. Es importante evaluar las herramientas y técnicas en las primeras etapas del proceso, ya que la selección de herramientas y técnicas puede influir en todo el proyecto.

Fase 2: comprensión de los datos

La segunda fase del proceso CRISP-DM requiere que usted adquiera los datos enumerados en los recursos del proyecto. Esta recopilación inicial incluye la carga de datos si es necesario para comprenderlos. Por ejemplo, si utiliza una herramienta específica para la comprensión de datos, tiene mucho sentido cargar sus datos en esta herramienta. Si adquiere varias fuentes de datos, debe considerar cómo y cuándo las integrará.

álgebra de conjuntos
    Informe inicial de recogida de datos:Enumere las fuentes de datos adquiridas, sus ubicaciones, los métodos utilizados para adquirirlas y cualquier problema encontrado. Registre los problemas que encontró y las resoluciones logradas. Esto ayudará con la replicación futura de este proyecto y la ejecución de proyectos futuros similares.

Describir datos

Examine las propiedades 'brutas' o 'superficiales' de los datos adquiridos e informe sobre los resultados.

    Informe de descripción de datos:Describa los datos que se han adquirido, incluido su formato, su cantidad, las identidades de los campos y cualquier otra característica de la superficie que se haya descubierto. Evalúe si los datos adquiridos satisfacen sus requisitos.

Explorar datos

Durante esta etapa, abordará preguntas sobre minería de datos mediante consultas, visualización de datos y técnicas de generación de informes. Estos pueden incluir:

  • Distribución de atributos clave
  • Relaciones entre pares o pequeños números de atributos.
  • Resultados de agregaciones simples
  • Propiedades de subpoblaciones importantes.
  • Análisis estadísticos simples

Estos análisis pueden abordar directamente sus objetivos de extracción de datos. Pueden contribuir o perfeccionar la descripción de los datos y los informes de calidad y contribuir a la transformación y otros pasos de preparación de los datos necesarios para un análisis posterior.

    Informe de exploración de datos:Describa los resultados de su exploración de datos, incluidos los primeros hallazgos o hipótesis iniciales y su impacto en el resto del proyecto. Si corresponde, podría incluir gráficos y diagramas aquí para indicar las características de los datos que sugieren un examen más detallado de subconjuntos de datos interesantes.

Verificar la calidad de los datos

Examinar la calidad de los datos, abordando preguntas como:

  • ¿Los datos están completos o cubren todos los casos requeridos?
  • ¿Es correcto o contiene errores? Si hay errores, ¿qué tan comunes son?
  • ¿Faltan valores en los datos? Si es así, ¿cómo se representan, dónde ocurren y qué tan comunes son?

Informe de calidad de datos

Enumere los resultados de la verificación de la calidad de los datos. Si existen problemas de calidad, sugiera posibles soluciones. Las soluciones a los problemas de calidad de los datos generalmente dependen en gran medida de los datos y del conocimiento empresarial.

cadena para char java

Fase 3: Preparación de datos

En esta fase del proyecto, usted decide los datos que utilizará para el análisis. Los criterios que puede utilizar para tomar esta decisión incluyen la relevancia de los datos para sus objetivos de minería de datos, la calidad de los datos y restricciones técnicas, como límites en el volumen o los tipos de datos.

    El fundamento de la inclusión/exclusión:Enumere los datos que se incluirán/excluirán y los motivos de estas decisiones.

Limpia tus datos

Esta tarea implica elevar la calidad de los datos al nivel requerido por las técnicas de análisis que ha seleccionado. Esto puede implicar la selección de subconjuntos limpios de datos, la inserción de valores predeterminados adecuados o técnicas más ambiciosas, como la estimación de los datos faltantes mediante modelización.

    Informe de limpieza de datos:Describa qué decisiones y acciones tomó para abordar los problemas de calidad de los datos. Considere cualquier transformación de datos realizada con fines de limpieza y su posible impacto en los resultados del análisis.

Construir datos requeridos

Esta tarea incluye operaciones constructivas de preparación de datos, como la producción de atributos derivados, registros completamente nuevos o valores transformados para atributos existentes.

    Atributos derivados:Son atributos nuevos construidos a partir de uno o más atributos existentes en el mismo registro. Por ejemplo, podría utilizar las variables de largo y ancho para calcular una nueva variable de área.Registros generados:Aquí se describe la creación de registros completamente nuevos. Por ejemplo, es posible que necesite crear registros para los clientes que no compraron durante el año pasado. No había ninguna razón para tener tales registros en los datos sin procesar. Aun así, podría tener sentido representar que determinados clientes explícitamente no realizaron ninguna compra con fines de modelado.

Integrar datos

Estos métodos combinan información de múltiples bases de datos, tablas o registros para crear nuevos registros o valores.

    Datos fusionados:Fusionar tablas se refiere a unir dos o más tablas con información diferente sobre los mismos objetos. Por ejemplo, una cadena minorista podría tener una tabla con información sobre las características generales de cada tienda (por ejemplo, espacio, tipo de centro comercial), otra tabla con datos de ventas resumidos (por ejemplo, ganancias, cambio porcentual en las ventas respecto al año anterior) y otro con información sobre la demografía de los alrededores. Cada una de estas tablas contiene un registro para cada tienda. Estas tablas se pueden fusionar en una nueva tabla con un registro para cada tienda, combinando campos de las tablas de origen.Agregaciones:Las agregaciones son operaciones en las que se calculan nuevos valores resumiendo información de múltiples registros o tablas. Por ejemplo, convertir una tabla de compras de clientes donde hay un registro para cada compra en una nueva tabla y un registro para cada cliente, con campos como el número de compras, el monto promedio de compra, el porcentaje de pedidos cargados a la tarjeta de crédito, el porcentaje de artículos. en promoción, etc.

Fase 4: Modelado

Selecciona la técnica de modelado: como primer paso, seleccionarás la técnica de modelado básica que utilizarás. Aunque es posible que ya haya seleccionado una herramienta durante la fase de comprensión del negocio, en esta etapa seleccionará la técnica de modelado específica, p. construcción de árboles de decisión con C5.0 o generación de redes neuronales con retropropagación. Si se aplican varias técnicas, realice esta tarea por separado para cada técnica.

    Técnica de modelado:Documentar la técnica básica de modelado que se va a utilizar.Supuestos de modelado:Muchas técnicas de modelado hacen suposiciones específicas sobre los datos, por ejemplo, que todos los atributos tienen distribuciones uniformes, no se permiten valores faltantes, el atributo de clase debe ser simbólico, etc. Registre las suposiciones realizadas.

Generar diseño de prueba

Antes de construir un modelo, necesita generar un procedimiento o mecanismo para probar la calidad y validez del modelo. Por ejemplo, en tareas de minería de datos supervisadas, como la clasificación, es común utilizar tasas de error como medidas de calidad para los modelos de minería de datos. Por lo tanto, normalmente se separa el conjunto de datos en conjuntos de tren y de prueba, se construye el modelo en el conjunto de tren y se estima su calidad en el conjunto de prueba separado.

    Diseño de prueba:Describa el plan previsto para entrenar, probar y evaluar los modelos. Un componente principal del plan es determinar cómo dividir el conjunto de datos disponible en conjuntos de datos de entrenamiento, prueba y validación.

modelo de construcción

Ejecute la herramienta de modelado en el conjunto de datos preparado para crear uno o más modelos.

    Configuración de parámetros:Con cualquier herramienta de modelado, suele haber una gran cantidad de parámetros que se pueden ajustar. Enumere los parámetros, sus valores y la justificación para seleccionar la configuración de los parámetros.Modelos:Estos son los modelos producidos por la herramienta de modelado, no un informe sobre los modelos.Descripciones de modelos:Describa los modelos resultantes, informe sobre la interpretación de los modelos y documente cualquier dificultad encontrada con sus significados.

Evaluar modelo

Interprete los modelos según su conocimiento del dominio, los criterios de éxito de la minería de datos y el diseño de prueba deseado. Juzgue el éxito de la aplicación de técnicas de modelado y descubrimiento, y luego comuníquese con analistas de negocios y expertos en el dominio para discutir los resultados de la minería de datos en el contexto comercial. Esta tarea solo considera modelos, mientras que la fase de evaluación también considera todos los demás resultados producidos durante el proyecto.

sitios como bedpage

En esta etapa, debes clasificar los modelos y evaluarlos según los criterios de evaluación. Aquí debe considerar los objetivos comerciales y los criterios de éxito en la medida de lo posible. En la mayoría de los proyectos de minería de datos, se aplica una única técnica más de una vez y los resultados de la minería de datos se generan con varias técnicas diferentes.

    Evaluación del modelo:Resume los resultados de esta tarea, enumera las cualidades de los modelos generados (por ejemplo, en términos de precisión) y clasifica su calidad entre sí.Configuración de parámetros revisada:De acuerdo con la evaluación del modelo, revíselos y ajústelos para la siguiente ejecución de modelado. Repita la construcción y evaluación del modelo hasta que crea firmemente que ha encontrado los mejores modelos. Documente todas esas revisiones y evaluaciones.

Fase 5: Evaluación

Evalúe sus resultados: los pasos de evaluación anteriores abordaron factores como la precisión y la generalidad del modelo. Durante este paso, evaluará el grado en que el modelo cumple con sus objetivos comerciales y tratará de determinar si existe alguna razón comercial por la cual este modelo es deficiente. Otra opción es probar el modelo en aplicaciones de prueba en la aplicación real si las limitaciones de tiempo y presupuesto lo permiten. La fase de evaluación también implica evaluar cualquier otro resultado de extracción de datos que haya generado. Los resultados de la minería de datos involucran modelos que están necesariamente relacionados con los objetivos comerciales originales y todos los demás hallazgos que no están necesariamente relacionados con los objetivos comerciales originales, pero que también pueden revelar desafíos, información o sugerencias adicionales para direcciones futuras.

    Evaluación de los resultados de la minería de datos:Resumir los resultados de la evaluación en criterios de éxito empresarial, incluida una declaración final sobre si el proyecto ya cumple con los objetivos comerciales iniciales.Modelos homologados:Después de evaluar los modelos según los criterios de éxito empresarial, los modelos generados que cumplen con los criterios seleccionados se convierten en modelos aprobados.

Proceso de revisión

En este punto, los modelos resultantes parecen ser satisfactorios y satisfacer las necesidades del negocio. Ahora es apropiado que usted haga una revisión más exhaustiva del compromiso de minería de datos para determinar si hay un factor o tarea importante que de alguna manera se ha pasado por alto. Esta revisión también cubre cuestiones de garantía de calidad. Por ejemplo: ¿construimos correctamente el modelo? ¿Usamos sólo los atributos que podemos usar y que están disponibles para análisis futuros?

    Revisión del proceso:Resuma la revisión del proceso y resalte las actividades que se han omitido y aquellas que deberían repetirse.

Determinar los próximos pasos

Ahora usted decide cómo proceder dependiendo de los resultados de la evaluación y la revisión del proceso. ¿Terminas este proyecto y pasas a la implementación, inicias más iteraciones o configuras nuevos proyectos de minería de datos? También debe hacer un balance de los recursos y el presupuesto restantes, que pueden influir en sus decisiones.

    Lista de posibles acciones:Enumere las posibles acciones futuras y las razones a favor y en contra de cada opción.Decisión:Describa la decisión sobre cómo proceder, junto con el fundamento.

Fase 6: Implementación

Planificar la implementación: en la etapa de implementación, tomará los resultados de su evaluación y determinará una estrategia para su implementación. Si se ha identificado un procedimiento general para crear los modelos relevantes, este procedimiento se documenta aquí para su implementación posterior. Tiene sentido considerar las formas y los medios de implementación durante la fase de comprensión del negocio porque la implementación es crucial para el éxito del proyecto. Aquí es donde el análisis predictivo ayuda a mejorar el aspecto operativo de su empresa.

    Plan de empleo:Resuma su estrategia de implementación, incluidos los pasos necesarios y cómo realizarlos.

Plan de seguimiento y mantenimiento.

La monitorización y el mantenimiento son cuestiones importantes si el resultado de la minería de datos pasa a formar parte del día a día del negocio y su entorno. La preparación cuidadosa de una estrategia de mantenimiento ayuda a evitar períodos innecesariamente largos de uso incorrecto de los resultados de la minería de datos. El proyecto necesita un plan de proceso de monitoreo detallado para monitorear la implementación de los resultados de la minería de datos. Este plan tiene en cuenta el tipo específico de implementación.

    Plan de seguimiento y mantenimiento:Resumir la estrategia de monitoreo y mantenimiento, incluidos los pasos necesarios y cómo realizarlos.

producir informe final

Al final del proyecto, redactarás un informe final. Dependiendo del plan de implementación, este informe puede ser solo un resumen del proyecto y sus experiencias (si aún no se han documentado como una actividad en curso), o puede ser una presentación final y completa del resultado de la minería de datos.

    Reporte final:Este es el informe escrito final del compromiso de minería de datos. Incluye todos los entregables anteriores, resumiendo y organizando los resultados.Presentación final:A menudo habrá una reunión después del proyecto en la que se presentarán los resultados al cliente.

Revisar proyecto

¿Por qué la interfaz de marcador en Java?

Evalúe lo que salió bien y lo que salió mal, lo que se hizo bien y lo que necesita mejorar.

    Documentación de experiencia:Resumir la experiencia importante adquirida durante el proyecto. Por ejemplo, esta documentación podría incluir cualquier dificultad que haya encontrado, enfoques engañosos o sugerencias para seleccionar las técnicas de minería de datos más adecuadas en situaciones similares. En proyectos ideales, la documentación de la experiencia también cubre cualquier informe que los miembros individuales del proyecto hayan escrito durante las fases anteriores del proyecto.