¿Qué es la minería de datos?

Cuando hacemos compras o registramos nuestro perfil en una red social estamos generando datos que contienen, de forma implícita, información que puede ser muy valiosa. Aunque no nos percatemos de ello, generalmente tenemos patrones de compra, de comportamiento, de cómo navegamos, entre muchos otros, que pueden ser encontrados mediante técnicas automáticas. Para encontrar este tipo de patrones, segmentar datos, clasificarlos se usa la minería de datos, también conocida como KDD (Knowledge Discovery in Databases).

La definición clásica (William J. Frawley)  dice que:

La minería de datos es la extracción de información implícita, desconocida y potencialmente útil a partir de datos.

Sin embargo, la definición que más me gusta, atribuida al profesor de química Fred Mengler es:

La minería de datos no es mas que torturar los datos hasta que confiesen… y si los torturas lo suficiente, los harás confesar cualquier cosa.

La cita es muy descriptiva de lo que es un proceso minero.

La minería de datos se ha aplicado en áreas como las siguientes:

  • Medicina: biomedicina, efectos colaterales de medicamentos, análisis de secuencias genéticas y predicción.
  • Finanzas: aprobación de créditos, predicción de quiebras, predicción en el mercado de valores, detección de fraudes, detección de acceso no autorizado a datos de crédito.
  • Agricultura: clasificación de enfermedades en tomates y soya.
  • Social: datos demográficos, tendencias electorales.
  • Mercadotecnia y ventas: identificación de sub-grupos socioeconómicos que muestran comportamiento inusual, patrones de compra, análisis de productos.
  • Publicidad: ediciones personalizadas.

Actualmente, con el cúmulo de información que los medios digitales generan, existen áreas donde la minería es útil: minería de web, minería de blogs, minería de opinión, minería de sentimientos entre muchas otras aplicaciones que se abren conforme el uso de las tecnologías se extiende.

Suena bien pero, ¿cómo se hace?. Un proceso de minería básico consta de los siguientes pasos:

  1. Adquisición de datos. ¿De dónde los voy a obtener? ¿cuáles serán mis fuentes?
  2. Análisis de los datos. ¿De qué tipo son los datos?, ¿numéricos?, ¿cadenas?, ¿faltan datos?, ¿tienen estructura?, ¿qué propiedades tienen?. En esta fase es común graficar los datos, ver histogramas, etc. para darse una idea general del comportamiento de los datos, irlos conociendo, familiarizarse con ellos. Algo que suele pasar es que conforme los usas, los conoces tanto que al verlos, puedes tener una idea de qué pasará en las fases siguientes.
  3. Selección de técnicas a aplicar. De acuerdo a las propiedades de los datos, se eligen los algoritmos para obtener los modelos que mejor describan los datos. Es bueno usar varios algoritmos para analizar distintos tipos de resultado. Las técnicas más comunes son los árboles de decisión, reglas de asociación, regresión lineal y agrupamientos (clustering).
  4. Transformación. Una vez que se han seleccionado los algoritmos, se les da el formato apropiado.
  5. Obtener y evaluar el modelo.Se genera el modelo y se analiza la salida: variables relevantes, relaciones entre variables, etc. La validez del modelo generalmente se verifica mediante métodos estadísticos.

Los pasos 1-4 son las que más tiempo consumen. Tal vez un 80% del tiempo del proceso total nos la vamos a pasar adquiriendo, limpiando, dando formato, en pocas palabras, pre-procesando los datos.

El descubrimiento de datos lleva implícito problemas de ética, invasión de privacidad que deben ser considerados. Recientemente una competencia fué cancelada por este motivo.

La minería de datos es un área que ha ido evolucionando, extendiéndose. Descubrir información oculta o que a partir de ella se pueda predecir algo sin necesidad de una bola de cristal es una actividad que puede ser muy divertida.

Referencias:
Knowledge Discovery in Databases: An Overview
http://dataminingarticles.com/

Imagen: Suat Eman / FreeDigitalPhotos.net

Anuncios

2 respuestas a ¿Qué es la minería de datos?

  1. Mauricio dice:

    Excelente artículo y muy comprensible. Es un disparador para fomentar la actividad de investigación. Una muy buena herramienta si la tratas C8como a todo, con los principios éticos correspondientes.
    Saludos desde Mendoza (Arg).

  2. Muchas gracias Mauricio.

    Saludos

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: