CRISP-DM significa el proceso estándar intersectorial para la minería de datos. La metodología CRISP-DM proporciona un enfoque estructurado para planificar un proyecto de minería de datos. Es una metodología robusta y bien probada. No reclamamos ninguna propiedad sobre él. No lo inventamos nosotros. Somos un convertidor de su poderosa practicidad, flexibilidad y utilidad al utilizar la analítica para resolver problemas comerciales. Es el hilo dorado que recorre casi todas las reuniones con los clientes.
Este modelo es una secuencia idealizada de eventos. En la práctica, muchas tareas se pueden realizar en un orden diferente y, a menudo, será necesario retroceder a tareas anteriores y repetir ciertas acciones. El modelo no intenta capturar todas las rutas posibles a través del proceso de minería de datos.
¿Cómo ayuda CRISP?
CRISP DM proporciona una hoja de ruta, le brinda mejores prácticas y proporciona estructuras para obtener resultados mejores y más rápidos en el uso de la minería de datos, por lo que ayuda a la empresa a seguir mientras planifica y lleva a cabo un proyecto de minería de datos.
Fases de CRISP-DM
CRISP-DM proporciona una descripción general del ciclo de vida de la minería de datos como modelo de proceso. El modelo de ciclo de vida consta de seis fases, con flechas que indican las dependencias más importantes y frecuentes entre las fases. La secuencia de las fases no es estricta. Y la mayoría de los proyectos avanzan y retroceden entre fases según sea necesario. El modelo CRISP-DM es flexible y se puede personalizar fácilmente.
Por ejemplo, si su organización tiene como objetivo detectar el lavado de dinero, probablemente examinará grandes cantidades de datos sin un objetivo de modelado específico. En lugar de modelar, su trabajo se centrará en la exploración y visualización de datos para descubrir patrones sospechosos en los datos financieros. CRISP-DM le permite crear un modelo de minería de datos que se ajuste a sus necesidades.
Incluye descripciones de las fases típicas de un proyecto, las tareas involucradas en cada fase y una explicación de las relaciones entre estas tareas.
Fase 1: Entendimiento Empresarial
La primera etapa del proceso CRISP-DM es comprender lo que desea lograr desde una perspectiva empresarial. Su organización puede tener objetivos y limitaciones en competencia que deben equilibrarse adecuadamente. Esta etapa del proceso tiene como objetivo descubrir factores importantes que influyen en el resultado del proyecto. Descuidar este paso puede significar que se dedique mucho esfuerzo a producir las respuestas correctas a las preguntas equivocadas.
¿Cuáles son los resultados deseados del proyecto?
Evaluar la situación actual.
texto de ajuste css
Esto implica una investigación más detallada sobre los recursos, las limitaciones, las suposiciones y otros factores que deberá considerar al determinar su objetivo de análisis de datos y su plan de proyecto.
- Personal (expertos en negocios, expertos en datos, soporte técnico, expertos en minería de datos)
- Datos (extractos fijos, acceso a datos en vivo, almacenados u operativos)
- Recursos informáticos (plataformas de hardware)
- Software (herramientas de minería de datos, otro software relevante)
- Un glosario de terminología empresarial relevante forma parte del conocimiento empresarial disponible para el proyecto. La elaboración de este glosario es un útil ejercicio educativo y de 'obtención de conocimientos'.
- Se ilustra un glosario de terminología de minería de datos con ejemplos relevantes para el problema empresarial.
Determinar los objetivos de la minería de datos.
Una meta empresarial establece objetivos en terminología empresarial. Una meta de minería de datos establece los objetivos del proyecto en términos técnicos. Por ejemplo, el objetivo empresarial podría ser aumentar las ventas por catálogo a los clientes existentes. Un objetivo de minería de datos podría ser predecir cuántos widgets comprará un cliente, teniendo en cuenta sus compras durante los últimos tres años, la información demográfica (edad, salario, ciudad, etc.) y el precio del artículo.
Producir el plan de proyecto
Describa el plan previsto para lograr los objetivos de minería de datos y los objetivos comerciales. Su plan debe especificar los pasos a realizar durante el resto del proyecto, incluida la selección inicial de herramientas y técnicas.
1. Plan del proyecto: Enumerar las etapas a ejecutar en el proyecto, con su duración, recursos requeridos, entradas, salidas y dependencias. Cuando sea posible, intente hacer explícitas las iteraciones a gran escala en el proceso de extracción de datos, por ejemplo, repeticiones de las fases de modelado y evaluación.
Como parte del plan del proyecto, es importante analizar las dependencias entre los cronogramas y los riesgos. Marque los resultados de estos análisis explícitamente en el plan del proyecto, idealmente con acciones y recomendaciones si los riesgos se manifiestan. Decida qué estrategia de evaluación se utilizará en la fase de evaluación.
El plan de su proyecto será un documento dinámico. Al final de cada fase, revisará el progreso y los logros y actualizará el plan del proyecto en consecuencia. Los puntos de revisión específicos para estas actualizaciones deben ser parte del plan del proyecto.
2. Evaluación inicial de herramientas y técnicas: Al final de la primera fase, se debe realizar una evaluación inicial de herramientas y técnicas. Por ejemplo, selecciona una herramienta de minería de datos que admita varios métodos para diferentes etapas del proceso. Es importante evaluar las herramientas y técnicas en las primeras etapas del proceso, ya que la selección de herramientas y técnicas puede influir en todo el proyecto.
Fase 2: comprensión de los datos
La segunda fase del proceso CRISP-DM requiere que usted adquiera los datos enumerados en los recursos del proyecto. Esta recopilación inicial incluye la carga de datos si es necesario para comprenderlos. Por ejemplo, si utiliza una herramienta específica para la comprensión de datos, tiene mucho sentido cargar sus datos en esta herramienta. Si adquiere varias fuentes de datos, debe considerar cómo y cuándo las integrará.
álgebra de conjuntos
Describir datos
Examine las propiedades 'brutas' o 'superficiales' de los datos adquiridos e informe sobre los resultados.
Explorar datos
Durante esta etapa, abordará preguntas sobre minería de datos mediante consultas, visualización de datos y técnicas de generación de informes. Estos pueden incluir:
- Distribución de atributos clave
- Relaciones entre pares o pequeños números de atributos.
- Resultados de agregaciones simples
- Propiedades de subpoblaciones importantes.
- Análisis estadísticos simples
Estos análisis pueden abordar directamente sus objetivos de extracción de datos. Pueden contribuir o perfeccionar la descripción de los datos y los informes de calidad y contribuir a la transformación y otros pasos de preparación de los datos necesarios para un análisis posterior.
Verificar la calidad de los datos
Examinar la calidad de los datos, abordando preguntas como:
- ¿Los datos están completos o cubren todos los casos requeridos?
- ¿Es correcto o contiene errores? Si hay errores, ¿qué tan comunes son?
- ¿Faltan valores en los datos? Si es así, ¿cómo se representan, dónde ocurren y qué tan comunes son?
Informe de calidad de datos
Enumere los resultados de la verificación de la calidad de los datos. Si existen problemas de calidad, sugiera posibles soluciones. Las soluciones a los problemas de calidad de los datos generalmente dependen en gran medida de los datos y del conocimiento empresarial.
cadena para char java
Fase 3: Preparación de datos
En esta fase del proyecto, usted decide los datos que utilizará para el análisis. Los criterios que puede utilizar para tomar esta decisión incluyen la relevancia de los datos para sus objetivos de minería de datos, la calidad de los datos y restricciones técnicas, como límites en el volumen o los tipos de datos.
Limpia tus datos
Esta tarea implica elevar la calidad de los datos al nivel requerido por las técnicas de análisis que ha seleccionado. Esto puede implicar la selección de subconjuntos limpios de datos, la inserción de valores predeterminados adecuados o técnicas más ambiciosas, como la estimación de los datos faltantes mediante modelización.
Construir datos requeridos
Esta tarea incluye operaciones constructivas de preparación de datos, como la producción de atributos derivados, registros completamente nuevos o valores transformados para atributos existentes.
Integrar datos
Estos métodos combinan información de múltiples bases de datos, tablas o registros para crear nuevos registros o valores.
Fase 4: Modelado
Selecciona la técnica de modelado: como primer paso, seleccionarás la técnica de modelado básica que utilizarás. Aunque es posible que ya haya seleccionado una herramienta durante la fase de comprensión del negocio, en esta etapa seleccionará la técnica de modelado específica, p. construcción de árboles de decisión con C5.0 o generación de redes neuronales con retropropagación. Si se aplican varias técnicas, realice esta tarea por separado para cada técnica.
Generar diseño de prueba
Antes de construir un modelo, necesita generar un procedimiento o mecanismo para probar la calidad y validez del modelo. Por ejemplo, en tareas de minería de datos supervisadas, como la clasificación, es común utilizar tasas de error como medidas de calidad para los modelos de minería de datos. Por lo tanto, normalmente se separa el conjunto de datos en conjuntos de tren y de prueba, se construye el modelo en el conjunto de tren y se estima su calidad en el conjunto de prueba separado.
modelo de construcción
Ejecute la herramienta de modelado en el conjunto de datos preparado para crear uno o más modelos.
Evaluar modelo
Interprete los modelos según su conocimiento del dominio, los criterios de éxito de la minería de datos y el diseño de prueba deseado. Juzgue el éxito de la aplicación de técnicas de modelado y descubrimiento, y luego comuníquese con analistas de negocios y expertos en el dominio para discutir los resultados de la minería de datos en el contexto comercial. Esta tarea solo considera modelos, mientras que la fase de evaluación también considera todos los demás resultados producidos durante el proyecto.
sitios como bedpage
En esta etapa, debes clasificar los modelos y evaluarlos según los criterios de evaluación. Aquí debe considerar los objetivos comerciales y los criterios de éxito en la medida de lo posible. En la mayoría de los proyectos de minería de datos, se aplica una única técnica más de una vez y los resultados de la minería de datos se generan con varias técnicas diferentes.
Fase 5: Evaluación
Evalúe sus resultados: los pasos de evaluación anteriores abordaron factores como la precisión y la generalidad del modelo. Durante este paso, evaluará el grado en que el modelo cumple con sus objetivos comerciales y tratará de determinar si existe alguna razón comercial por la cual este modelo es deficiente. Otra opción es probar el modelo en aplicaciones de prueba en la aplicación real si las limitaciones de tiempo y presupuesto lo permiten. La fase de evaluación también implica evaluar cualquier otro resultado de extracción de datos que haya generado. Los resultados de la minería de datos involucran modelos que están necesariamente relacionados con los objetivos comerciales originales y todos los demás hallazgos que no están necesariamente relacionados con los objetivos comerciales originales, pero que también pueden revelar desafíos, información o sugerencias adicionales para direcciones futuras.
Proceso de revisión
En este punto, los modelos resultantes parecen ser satisfactorios y satisfacer las necesidades del negocio. Ahora es apropiado que usted haga una revisión más exhaustiva del compromiso de minería de datos para determinar si hay un factor o tarea importante que de alguna manera se ha pasado por alto. Esta revisión también cubre cuestiones de garantía de calidad. Por ejemplo: ¿construimos correctamente el modelo? ¿Usamos sólo los atributos que podemos usar y que están disponibles para análisis futuros?
Determinar los próximos pasos
Ahora usted decide cómo proceder dependiendo de los resultados de la evaluación y la revisión del proceso. ¿Terminas este proyecto y pasas a la implementación, inicias más iteraciones o configuras nuevos proyectos de minería de datos? También debe hacer un balance de los recursos y el presupuesto restantes, que pueden influir en sus decisiones.
Fase 6: Implementación
Planificar la implementación: en la etapa de implementación, tomará los resultados de su evaluación y determinará una estrategia para su implementación. Si se ha identificado un procedimiento general para crear los modelos relevantes, este procedimiento se documenta aquí para su implementación posterior. Tiene sentido considerar las formas y los medios de implementación durante la fase de comprensión del negocio porque la implementación es crucial para el éxito del proyecto. Aquí es donde el análisis predictivo ayuda a mejorar el aspecto operativo de su empresa.
Plan de seguimiento y mantenimiento.
La monitorización y el mantenimiento son cuestiones importantes si el resultado de la minería de datos pasa a formar parte del día a día del negocio y su entorno. La preparación cuidadosa de una estrategia de mantenimiento ayuda a evitar períodos innecesariamente largos de uso incorrecto de los resultados de la minería de datos. El proyecto necesita un plan de proceso de monitoreo detallado para monitorear la implementación de los resultados de la minería de datos. Este plan tiene en cuenta el tipo específico de implementación.
producir informe final
Al final del proyecto, redactarás un informe final. Dependiendo del plan de implementación, este informe puede ser solo un resumen del proyecto y sus experiencias (si aún no se han documentado como una actividad en curso), o puede ser una presentación final y completa del resultado de la minería de datos.
Revisar proyecto
¿Por qué la interfaz de marcador en Java?
Evalúe lo que salió bien y lo que salió mal, lo que se hizo bien y lo que necesita mejorar.