Herramientas Big Data

By 5 enero, 2016 Sin categoría No Comments

Julio 2015

Big Data se define conceptualmente como un conjunto de datos que exceden la capacidad de proceso de los sistemas convencionales. A partir o alrededor de este concepto se están desarrollando muchas herramientas encaminadas a la explotación  de las ingentes cantidades de datos englobadas en Big Data.

Los datos, convenientemente tratados pueden proporcionar informaciones de alto valor, que normalmente se utilizan para la toma de decisiones, encaminadas a la rentabilización tanto de negocios como a la prestación de servicios públicos, de ahí la alta relevancia que está adquiriendo el concepto de Big Data, y las tecnologías asociadas a él.

De forma muy esquemática podemos enumerar las principales funciones que paradigmáticamente componen un proceso verticalizado (diseñado para un negocio o servicio determinado) de Big Data:

  • Extracción de los datos. Localización de la fuente o fuentes válidas, y extracción de los datos.
  • Limpieza. Eliminación de los protocolos de encapsulación y transmisión.
  • Selección. Opcionalmente, selección de los registros que van a ser útiles de entre todos los extraídos. Este proceso puede ser anterior o posterior a la normalización.
  • Normalización. Opcionalmente, manipulación de los datos para ubicarlos en estructuras de información normalizadas.
  • Sumarización. Opcionalmente, agrupar los registros normalizados por  conceptos clave, a fin de reducir los volúmenes de almacenamiento.
  • Almacenamiento. Salvaguardar la información obtenida usando la tecnología de Base de Datos más adecuada a los volúmenes existentes.
  • Obtención de Información. Dependiendo de los volúmenes finales, se pueden usar herramientas tradicionales de Data Mining, de BI, o bien herramientas de análisis específicas para Big Data.

Todas estas etapas del proceso requieren del uso de herramientas específicas que faciliten la consecución de cada uno de los objetivos. En Carver hemos desarrollado, utilizando la plataforma Minerva, un módulo de clasificación de textos (MTC), basado en tecnología de análisis semántico. Partiendo de información no estructurada MTC es capaz de identificar conceptos útiles y adecuados para la correcta clasificación de datos. Estos conceptos pueden añadirse como información de referencia a los datos extraidos y ser utilizados tanto en las fases de cribado como de normalización.