Minería de datos en SQL Server 2012

18/03/2014

Cuando trabajamos con grandes bases de datos, tipo datawarehouse, hay veces que analizando distintos datos es posible predecir algunos patrones. Por ejemplo, analizando las ventas de los últimos 5 años y analizando distintos factores de nuestros clientes, es posible por ejemplo, descubrir que los “clientes que van en bicicleta y tienen 2 hijos son más propensos a comprar un coche”, o que si “vendemos el producto en los meses de Febrero y Marzo las ventas de dicho producto subirá un 30%”. Dichos patrones es lo que denominamos Minería de datos.

La minería de datos, es una técnica en la que aplicamos a una gran base de datos, algoritmos de búsqueda de patrones de comparación. Para poder trabajar con la minería de datos necesitamos 2 cosas: una base de datos (la del datawarehouse) en una instancia de Analysis Services de SQL Server con un modelo de minería y el complemento de minería de datos de Office 2010.

Primeramente necesitamos generar un modelo de datos para trabajar con la minería. Para ello abrimos nuestra base de datos en Analysis Services con SQL Data Tools y seleccionamos la opción de generar un nuevo modelo de datos de minería de datos.

Minería de datos en un proyecto de Analysis Services de SQL Data Tools

Minería de datos en un proyecto de Analysis Services de SQL Data Tools

Nos aparecerá un asistente para generar el modelo de minería. Primeramente debemos indicar desde dónde vamos a obtener los datos:

Asistente de minería de datos: Donde obtener los datos

Asistente de minería de datos: Donde obtener los datos

Después debemos indicar el algoritmo de patrones que queremos utilizar

Algoritmo de minería

Algoritmo de minería

En este caso vamos a seleccionar la técnica de árboles de decisión. Seguidamente en el asistente debemos indicar qué tabla tiene los datos sobre los que vamos a aplicar el algoritmo

Tabla del datawarehouse que tiene los datos que queremos analizar

Tabla del datawarehouse que tiene los datos que queremos analizar

En el siguiente paso del asistente nos aparecen la tabla de entrenamiento. La tabla de entrenamiento sirve para indicar sobre qué columnas queremos que se aplique el algoritmo. Para ello aparecen todos los campos de la tabla y 3 columnas: Key, Predictable e Input.

La columna Key indica qué columna identifica únicamente todos los datos (tipicamente la clave primaria).

La columna Predictable es el dato que queremos predecir o sobre el que queremos obtener algún Patrón. En nuestro caso BikeBuyer que es el campo que dice si el cliente ha comprado o no una bicicleta y sobre el que queremos predecir posibles ventas.

La columna Input, son los posibles factores que afectan a la columna Predictable y que sirven para buscar un posible patrón . Por ejemplo la edad, si está casado, si tiene hijos, si tiene coche, y si estos factores afectan o no a la posible compra de bicicletas.

Tabla de entrenamiento con las columnas Key, Input y Predictable

Tabla de entrenamiento con las columnas Key, Input y Predictable

En el siguiente paso indicamos el tipo de los datos. Por ejemplo si son valores discretos, continuos, ordenados, cíclicos

Tipo de dato que queremos modelar

Tipo de dato que queremos modelar

En el último paso del asistente indicamos el porcentaje de los datos reales que queremos analizar.

Porcentaje que queremos analiza

Porcentaje que queremos analiza

Una vez finalizado el asistente, publicamos el proyecto de SQL Data Tools en Analysis Services y desde la pestaña del visor de minería de datos podemos ver el análisis. En este caso vemos en círculos más grandes, los factores que más influyen en la compra de bicicletas.

Predicción de ventas de bicicletas

Predicción de ventas de bicicletas

Para comprobar que estos valores son coherentes a nuestras necesidades de ventas, podemos intentar utilizar otro algoritmo de análisis y ver los datos que tenemos y compararlos. Para hacer esto, utilizaremos el complemento de minería de datos de Office 2010. El complemento añadirá una pestaña nueva a Excel 2010 con todas las herramientas necesarias para la minería. Puede ser descargado desde aquí:

http://www.microsoft.com/es-es/download/details.aspx?id=29061

y este es el aspecto que tendría

Complemento de minería de datos para Office 2010 y SQL Server 2012

Complemento de minería de datos para Office 2010 y SQL Server 2012

En el complemento podemos ver que tenemos la posibilidad de lanzar otros algoritmos y compararlos. Por ejemplo, podemos analizar estos mismos datos con la técnica del modelo de Bayes y el modelo de Árbol de decisión y el complemento nos generaría un gráfico con la comparativa. Para ello usamos el botón de “Accuracy Chart“.

Comparativa de modelos analíticos

Comparativa de modelos analíticos

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: