El data mining se conoce de muchas formas: minería de datos, business intelligence, big data… El nombre escogido depende, y mucho, del área en el que se use, y Big data parece ahora la que está más de moda. Pero independientemente del nombre que se le dé, todos ellos hacen referencia al mismo concepto: extraer conocimiento a partir de bases de datos.

Qué es el data mining o minería de datos

La definición formal de data mining o minería de datos sería: la extracción no trivial de información implícita, previamente desconocida y potencialmente útil a partir de datos. Otra manera de definirlo podría ser: la exploración y el análisis -por medios automáticos o semiautomáticos- de grandes cantidades de datos con el fin de descubrir patrones con significado.

El data mining nació con la idea de aprovechar dos cosas: la ingente cantidad de datos que se almacenaban en áreas como el comercio, la banca o la sanidad y la potencia de los nuevos ordenadores para realizar operaciones de análisis sobre esos datos.

Técnicas de minería de datos

En el ámbito de la investigación las técnicas de data mining pueden ayudar a los científicos a clasificar y segmentar datos y a formar hipótesis. El data mining permite encontrar información escondida en los datos que no siempre resulta aparente, ya que, dado el gigantesco volumen de datos existentes, gran parte de ese volumen nunca será analizado.

Las técnicas de data mining pueden ser de dos tipos:

  • Métodos descriptivos– Buscan patrones interpretables para describir datos. Son los siguientes: clustering, descubrimiento de reglas de asociación y descubrimiento de patrones secuenciales.

Los métodos descriptivos se han utilizado, por ejemplo, para ver que productos suelen adquirirse conjuntamente en el supermercado.

  • Métodos predictivos- Usan algunas variables para predecir valores futuros o desconocidos de otras variables. Son los siguientes: clasificación, regresión y detección de la desviación.

Los métodos predictivos pueden emplearse en tareas como clasificar tumores en benignos o malignos.

Al igual que otros muchos procesos, el data mining tiene su propio estándar, el CRISP-DM (Cross-Industry Standar Process for Data Mining), que establece los seis pasos a seguir para aplicar data mining:

  1. Entender el área en el que queremos usar data mining para definir con claridad el problema.
  2. Recolectar y entender los datos.
  3. Preparación de los datos: hacer tablas con los campos requeridos, eliminar datos innecesarios.
  4. Selección de la técnica de modelado, construcción del modelo y puesta a prueba del modelo. Data mining.
  5. Evaluación de los resultados y revisión del proceso.
  6. Despliegue: implementación de un proceso de data mining repetible.

Es increíble pensar la cantidad de datos que generamos en nuestro día a día, ya sea en compras, transacciones bancarias o navegando por internet. Muchas empresas han visto un filón en estos y han sacado multitud de estudios de mercado basados en ellos. Algunos tan curiosos como uno en el que una cadena de supermercados de EEUU descubrió que la combinación más habitual de artículos en la cesta de la compra eran pañales y cerveza (cosa que atribuyeron a los padres solteros). Tras eso se decidieron a colocar la cerveza al lado de los pañales.

No obstante, el uso de minería de datos en medicina e investigación es  muy diferente pues no busca, en principio, el beneficio privado sino el bien común. En este sentido las técnicas de data mining han resultado ser de gran utilidad en casos como el diagnóstico de enfermedades.