El Big Data es un concepto que apareció en los años 90, a través de un artículo de un informático estadounidense, John Masey. En ese artículo explicaba como en el futuro la sociedad no podría procesar toda la cantidad de información que esta le daba. El Big Data consiste en la recopilación, acumulación y búsqueda de patrones similares de información de toda clase. En este artículo desarrollaremos los principales aspectos del Big Data.
1. Obtención de los datos
El primer paso en el proceso de la utilización del Big Data es la recogida de la información. Este paso es esencial de todo el proceso, ya que, si no se obtiene una información fiable, de calidad y con cierto sentido de coherente todo el proceso estaría mal y no serviría para nada.
Pongamos un ejemplo muy sencillo. Una gran cantidad de personas buscan desde sus smartphones una misma información en un lugar determinado y a una hora determinada. En el registro de esa base de datos quedan almacenados 3 datos, lugar, hora y la búsqueda realizada. Estos datos están desordenados y dispersos en la nube. En la realidad estos datos se multiplicarían por miles de miles de registros, de ahí su complejidad en el manejo y la necesidad de procesarlos.
2. Procesamiento
El segundo paso, después de haber recogido la información, consiste en transformar los datos recogidos para su posterior almacenamiento. Estos datos se caracterizan por estar en diferentes formatos, desordenados y con diferentes registros, es decir, serían inaccesibles para su posterior análisis.
Un ejemplo de esa transformación la tenemos en los datos referidos al sexo de una persona, se puede recoger como Hombre y Mujer o como Masculino o Femenino, aquí se transforma en dos formas, por ejemplo, H para hombre y M para mujer. Después de que todos los datos estén ordenados y colocados en filas y columnas son enviados a una base de datos para su análisis.
3. Almacenamiento
Después de transformar los datos, estos pasan a grandes bases de datos. Estas bases de datos pueden tener diferentes estructuras. Estas estructuras se caracterizan en como guardan la información, por variables, por claves o por nodos, entre otras. Cada una ordena y guarda la información de una forma distinta, el motivo es debido a las diferentes técnicas de análisis, que requieren disponer la información de una forma u otra.
4. Análisis
Por último el análisis, este paso es el más importante, a mi parecer, ya que, sin un buen análisis el Big Data no serviría sino para contabilizar datos sin ver porqué, cómo o qué sucede en el mundo real. Existen muchos tipos de análisis, dependiendo la base de datos con la que se trabaje.
Análisis de texto
Como el propio nombre explica, consiste en analizar el texto que se encuentra ordenado en la base de datos. Por ejemplo, este sistema facilita mucho la contabilización de artículos escritos sobre un tema, los tweets o publicaciones en foros. Esto puede determinar la repercusión de un tema a lo largo de un tiempo.
Asociación
Este tipo de análisis sirve para unir diferentes variables y poder determinar un hecho determinado. Un ejemplo sería las ventas de un producto (primera variable) en unas zonas determinadas (segunda variable), juntándolas podemos determinar el impacto que ha tenido la celebración de un acontecimiento.
Minería de datos
Con la minería de datos, podemos encontrar patrones de comportamiento predictivo de una forma estable. Un ejemplo sería que después de un acontecimiento deportivo muy importante, las visitas a una web se disparan. Este patrón de comportamiento es aprovechado por las diferentes empresas relacionadas en ese sector para incorporar su publicidad en esas páginas.
Después de haber visto una aproximación al mundo del Big Data y que se esconde detrás, ¿crees que el Big Data será un elemento clave para cualquier empresa?