Eïnes Big Data

By 16 February, 2016 Uncategorized @ca No Comments

Juliol 2015

Big Data es defineix conceptualment com un conjunt de dades que excedeixen la capacitat de procés dels sistemes convencionals. A partir o al voltant d’aquest concepte s’estan desenvolupant moltes eines encaminades a l’explotació de les ingents quantitats de dades englobades en Big Data.

Les dades, convenientment tractats poden proporcionar informacions d’alt valor, que normalment s’utilitzen per a la presa de decisions, encaminades a la rendibilització tant de negocis com a la prestació de serveis públics, d’aquí l’alta rellevància que està adquirint el concepte de Big Data , i les tecnologies associades a ell.

De forma molt esquemàtica podem enumerar les principals funcions que paradigmàticament componen un procés verticalitzat (dissenyat per a un negoci o servei determinat) de Big Data:

  • Extracció de les dades. Localització de la font o fonts vàlides, i extracció de les dades.
  • Neteja. Eliminació dels protocols d’encapsulació i transmissió.
  • Selecció. Opcionalment, selecció dels registres que van a ser útils d’entre tots els extrets. Aquest procés pot ser anterior o posterior a la normalització.
  • Normalització. Opcionalment, manipulació de les dades per ubicar-los en estructures d’informació normalitzades.
  • Sumarització. Opcionalment, agrupar els registres normalitzats per conceptes clau, per tal de reduir els volums d’emmagatzematge.
  • Emmagatzematge. Salvaguardar la informació obtinguda usant la tecnologia de base de dades més adequada als volums existents.
  • Obtenció d’Informació. Depenent dels volums finals, es poden fer servir eines tradicionals de Data Mining, de BI, o bé eines d’anàlisi específiques per Big Data.

Totes aquestes etapes del procés requereixen de l’ús d’eines específiques que facilitin la consecució de cada un dels objectius. En Carver hem desenvolupat, utilitzant la plataforma Minerva, un mòdul de classificació de textos (MTC), basat en tecnologia d’anàlisi semàntic. Partint d’informació no estructurada MTC és capaç d’identificar conceptes útils i adequats per a la correcta classificació de dades. Aquests conceptes poden afegir com a informació de referència a les dades extrets i ser utilitzats tant en les fases de cribratge com de normalització.