Procesos de Análisis de Datos

Procesos de Análisis de Datos

El proceso de Análisis de Datos conlleva la recolección, transformación, limpieza y modelado de datos para descubrir la información útil y de interés para una organización. Todos los datos obtenidos se transforman en conclusiones y se usan para la toma de decisiones. Para llevar a cabo un proyecto de Análisis de Datos existen varias metodologías a seguir. Aunque KDDSEMMA y CRISP-DM son las tres más utilizadas ¡Conócelas!

Conociendo los Procesos de Análisis de Datos

KDD, SEMMA y CRISP-DM son metodologías populares utilizadas en el campo del análisis de datos y la minería de datos. Estas metodologías proporcionan un marco estructurado para el análisis de datos y la minería de datos, lo que ayuda a garantizar que los procesos sean sistemáticos, repetibles y conduzcan a resultados útiles y confiables.

KDD o Knowledge Discover Database

Es un proceso centrado en la extracción de conocimiento de un repositorio, enfatizando las aplicaciones de alto nivel de ciertos métodos de Minería de Datos.

Es interactivo e iterativo y consta de 5 etapas:

  • Selección: A través de esta fase se seleccionan las variables, o si se va a trabajar con muestras, los datos que deben ir a las mismas, su distribución, etc.
  • Preprocesamiento: En esta etapa los datos se limpian y se adecúan para poder ser consumidos por la herramienta de Análisis de datos.
  • Transformación: Aquí se utilizan métodos de reducción de la dimensión u otros métodos de transformación, para poder aplicar las técnicas de Data Mining que son elegidas.
  • Minería de datos: Aquí se intenta resolver las preguntas planteadas con las técnicas de Minería de datos escogidas, o se emprende la búsqueda de nuevos hallazgos, se intenta detectar patrones en los datos.
  • Interpretación / Evaluación: A través de esta última etapa se extraen las conclusiones del estudio, y se evalúan los modelos de Minería de datos utilizados.

SEMMA o Sample, Explore, Modify, Model and Assess

Como metodología se puede aplicar a cualquier proceso de Minería de Datos, está ligado al Software de SAS para Minería de Datos.

Consta de 5 etapas:

  • Muestrear: En esta etapa se obtienen muestras de los datos que sean representativas para el análisis, pero de tamaño adecuado para poder manipularlas en un tiempo y con unos recursos razonables.
  • Explorar: Análisis preliminar de los datos, obteniendo unas primeras conclusiones sobre su morfología, tendencias, etc., para ayudarnos a decidir qué camino seguir.
  • Modificar: En esta fase se modifican los datos, se aplican transformaciones y realizan selecciones para crear las variables ya orientadas al proceso de selección del modelo. 
  • Modelar: Aplicando Modelos de Minería de Datos, se obtienen funciones o combinaciones de las variables de elegidas como predictoras, que nos ayudan a predecir la variable objetivo.
  • Evaluar: En esta última fase se evalúa la utilidad y fiabilidad de los insights obtenidos con el Modelo, y se estima su rendimiento.

CRISP-DM o Cross Industry Standard Process for Data Mining

Es un proceso iterativo y centrado en el negocio. Es independiente de la herramienta de Minería de datos que se utilice y está muy ligado a SPSS Clementine.  

Es cíclico y consta de seis etapas flexibles:

  • Entendimiento del Negocio: Entender los objetivos y requisitos desde un punto de vista de Negocio, como paso previo a la definición del problema de Minería de Datos.
  • Entendimiento de los datos: Se recolectan los datos, se exploran, se detectan problemas con la calidad de los mismos, y se obtienen los primeros insights, subconjuntos de datos, primeras hipótesis.
  • Preparación de los datos: Se construye un dataset a partir de los datos en crudo.
  • Modelado: Se seleccionan y aplican técnicas de Modelado, y se calibran sus parámetros en búsqueda de los mejores resultados.
  • Evaluación: Se evalúan los modelos y se revisan los pasos seguidos para la construcción de los Modelos, en relación a los objetivos de Negocio.
  • Despliegue: El/los modelo/s se “industrializa/n”. Se puede llegar a desplegar en un sistema o entorno de producción, o al menos se genera un entregable que el cliente pueda usar

 Para llevar a cabo un proyecto de Análisis de Datos existen varias metodologías a seguir. Aunque KDD, SEMMA y CRISP-DM son las tres más utilizadas

KDD, SEMMA y CRISP-DM y la Computación en la nube

Si bien KDD, SEMMA y CRISP-DM son metodologías utilizadas en el análisis de datos y la minería de datos, no están directamente relacionadas con la computación en la nube. La computación en la nube puede ser un entorno en el que se lleven a cabo los procesos de análisis de datos utilizando estas metodologías ¿Cómo?

KDD y la computación en la nube: La computación en la nube proporciona recursos de almacenamiento y procesamiento escalables y flexibles. Esto es beneficioso para el proceso de KDD, ya que el almacenamiento en la nube permite almacenar grandes volúmenes de datos de manera rentable y accesible. Además, la capacidad de procesamiento en la nube permite realizar análisis intensivos en datos utilizando técnicas de KDD, como minería de datos y aprendizaje automático, de manera eficiente y rápida.

SEMMA y la computación en la nube: La computación en la nube también se puede utilizar en el proceso SEMMA. Almacenar y procesar datos en la nube puede facilitar el muestreo, la exploración, la transformación y el modelado de datos, ya que la infraestructura en la nube puede escalar según las necesidades. La flexibilidad de la computación en la nube permite implementar y ajustar fácilmente los pasos de SEMMA según sea necesario, sin preocuparse por la infraestructura subyacente.

CRISP-DM y la computación en la nube: Al igual que con KDD y SEMMA, la computación en la nube puede ser un entorno adecuado para llevar a cabo los pasos de CRISP-DM. La capacidad de almacenamiento en la nube permite gestionar grandes conjuntos de datos, mientras que la capacidad de procesamiento escalable puede acelerar el análisis y el modelado de datos. Además, la colaboración y el intercambio de datos entre los diferentes equipos de trabajo involucrados en el proceso CRISP-DM pueden ser facilitados por la computación en la nube a través de servicios y herramientas de colaboración en línea.

En resumen, la computación en la nube puede ser un entorno beneficioso para realizar el análisis de datos y la minería de datos utilizando estas metodologías (KDD, SEMMA y CRISP-DM), debido a su escalabilidad, flexibilidad y capacidad de procesamiento.

¿Quieres saber más sobre los Procesos de Análisis de Datos?

Dejar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *