Gestión IT: Aplicando Big Data siguiendo la estrategia iterativa de ACEMS

12-08-2016
 

Para que nuestros proyectos Big Data lleguen a buen puerto es muy importante tener muy claro el proceso a seguir para llegar al éxito. En este sentido, ACENS(Centre of Excellence for Mathematical & Statistical Frontiers) nos aporta una estrategia iterativa para abordar este typo proyectos.

La metodología se basa en la siguiente rueda:

ACEMS Bigdata Wheel

ACEMS Bigdata Wheel

1. Diseñando para capturar y generar datos

En este primer paso debemos plantearnos cual es el propósito de los datos, que queremos hacer con ellos, que respuestas queremos encontrar o que decisiones queremos tomar a partir de estos datos.

Es muy importante tener muy claros los objetivos del proyecto desde el minuto cero. Si no tenemos unos objetivos claros terminaremos gastando mucho dinero y seguramente no obtendremos buenos resultados.

2. Captura y generación de datos

Una vez tenemos los objetivos claros debemos plantearnos la captura de datos(Que datos tenemos disponibles? CRM, ERP, RRSS, otras fuentes como datos meteorológicos, etc.). Estos datos también pueden ser tratados, por ejemplo con algún algoritmo de machine learning.

Los software encargados de hacer este tipo de trabajo normalmente se les conoce como ETL(Extract, Transform and Load). Aunque no tenemos porque usar siempre este tipo de herramientas, por ejemplo, si vamos a usar datos de logs podemos usar una herramienta tipo Fluentd.

3. Almacenado, acceso y manipulación de datos

Ahora es tiempo de plantearnos donde vamos a guardar los datos para tenerlos disponibles. Tenemos cantidad de opciones: Soluciones cloud como las de Google o Amazon, Soluciones in-house con bases de datos como MongoDB o Hadoop FS, etc.

4. Modelado y análisis de los datos

Que tipo de operaciones aplicaremos a los datos? Regresión, Clustering, Ranking, Comparaciones o Algoritmos. Es importante hacer un modelo que haga que todas estas operaciones las permita hacer rápido y sea muy escalable.

5. Visualización de modelos y análisis

Una vez tenemos los modelos y los análisis deberemos diseñar una buena interfície para que el usuario pueda consultar y analizar la información. El reto aquí muchas veces es que los resultados obtenidos son complicados de plasmar usando métodos tradicionales(Cubos OLAP, gráficas, etc.).

6. Visiones basadas en los datos

En este punto es donde los ‘Data Scientists'(Científicos de datos) se lo pasan bien. Llegados aquí hay que transformar los modelos matemáticos, datos, gráficos, etc. en una visión para el negocio. Como estos datos ayudarán a encontrar las respuestas que buscamos o a tomar las decisiones que esperamos?

Aquí nos podemos imaginar a un doctor estudiando unos resultados de unos análisis para después hacer un diagnostico. Debemos encontrar esa correlación de datos que crea un diagnostico.

7. Toma de decisiones basadas en los datos bajo incerteza

Ahora llega el momento de la verdad, con todo el sistema funcionando llega el momento de hacer uso de el. Llega el momento de tomar decisiones basándonos en el sistema creado.

Es muy importante planificar este punto para correr solo riesgos calculados. Una opción es mantener un tiempo el sistema funcionando en paralelo para ir comprobando si las decisiones que toman dan buenos resultados.

8. Monitorización y evaluación

Como en toda estrategia iterativa, este es el punto mas importante. Una buena monitorización y evaluación de los resultados obtenidos para tener un feedback efectivo antes de volver al punto primero.

Leave a Reply

© Albert Coronado Calzada