El Big Data suele definirse por las 5 V: Volumen, Velocidad, Variedad, Veracidad y Valor.
Las más importante es la quinta V, Valor, ya que es quien da sentido al resto, la que permite identificar que Big Data es la solución al garantizar el ROI.
Big Data nos permite estar preparados para manejar el volumen de datos que nuestro negocio va a gestionar en los próximos años, con diferentes fuentes, tipos y estructuras, y reaccionar a tiempo solo con un único objetivo, crear Valor.
Desde SBD creemos en el Valor como punto de partida para desarrollar las otras 4 Vs. Si no crea valor, Big Data carece de sentido.
Esto nos hace pensar que tenemos que prepararnos para la gestión de volúmenes de datos que mediremos en Teras y Peta bytes como unidades normales del día a día.
Existen plataformas para manejar el análisis masivo de datos, bien conocidas por todos. Sin embargo es muy importante resaltar que la aparición de bases de datos verticales, In-Memory, NoSQL, y una variada oferta de servicios Cloud, así como las mejoras de los proveedores tradicionales, hacen que estas plataformas no sean la única solución a esta V.
El origen de los datos así como su naturaleza y uso define su estructura de almacenamiento o ausencia de la misma (no estructurados). Tenemos que usar todas las fuentes de datos disponibles para mejorar nuestra competitividad y ser más precisos en el análisis.
Desde luego los datos deben ser veraces, pero lo realmente importante es que deben ser analizables y analizados. Tenemos que modelar los datos, caracterizarlos y construir modelos alineados con el negocio.
Dependiendo de la naturaleza y origen de los datos podemos usar ETL/ELT convencionales, normalmente se requiere de mayor procesado, con lo que estas herramientas son utilices parcialmente, podemos recurrir a plataformas de procesado masivo como hadoop o spark, con su ecosistema de utilidades. Debemos caracterizar los datos, normalizar las características y construir el modelo.
Una vez tenemos el modelo, podemos aplicar algoritmos de data mining adaptados al modelo y al problema a resolver y optimizados para grandes volúmenes de datos. Procesar grandes volúmenes de datos con altas dimensiones, análisis de información en grafos, y aplicar algoritmos de machine learning.
Con la salida de estos algoritmos, solo queda usar las herramientas de visualización idóneas.
Los proyectos de Big Data deben generar valor y garantizar el retorno de la inversión.