Big Data o Datos masivos es un término que hace referencia a una cantidad de datos tal que supera la capacidad del software convencional para ser capturados, administrados y procesados en un tiempo razonable. El volumen de los datos masivos crece constantemente. En 2012 se estimaba su tamaño de entre una docena de terabytes hasta varios petabytes de datos en un único conjunto de datos. En la metodología MIKE2.0 dedicada a investigar temas relacionados con la gestión de información,definen Big Data en términos de permutaciones útiles, complejidad y dificultad para borrar registros individuales.
Si bien sabemos que existe una amplia variedad de tipos de datos a analizar, una buena clasificación nos ayudaría a entender mejor su representación, aunque es muy probable que estas categorías puedan extenderse con el avance tecnológico.
Figura 1. Tipos de datos de Big Data
1.- Web and Social Media: Incluye contenido web e información que es obtenida de las redes sociales como Facebook, Twitter, LinkedIn, etc, blogs.
2.- Machine-to-Machine (M2M): M2M se refiere a las tecnologías que permiten conectarse a otros dispositivos. M2M utiliza dispositivos como sensores o medidores que capturan algún evento en particular (velocidad, temperatura, presión, variables meteorológicas, variables químicas como la salinidad, etc.) los cuales transmiten a través de redes alámbricas, inalámbricas o híbridas a otras aplicaciones que traducen estos eventos en información significativa.
3.- Big Transaction Data: Incluye registros de facturación, en telecomunicaciones registros detallados de las llamadas (CDR), etc. Estos datos transaccionales están disponibles en formatos tanto semiestructurados como no estructurados.
4.- Biometrics: Información biométrica en la que se incluye huellas digitales, escaneo de la retina, reconocimiento facial, genética, etc. En el área de seguridad e inteligencia, los datos biométricos han sido información importante para las agencias de investigación.
5.- Human Generated: Las personas generamos diversas cantidades de datos como la información que guarda un call center al establecer una llamada telefónica, notas de voz, correos electrónicos, documentos electrónicos, estudios médicos, etc.
Ejemplos:
- Hadoop Common Components son un conjunto de librerías que soportan varios subproyectos de Hadoop.
- Avro es un proyecto de Apache que provee servicios de serialización.
- Cassandra es una base de datos no relacional distribuida y basada en un modelo de almacenamiento de <clave-valor>, desarrollada en Java. Permite grandes volúmenes de datos en forma distribuida. Twitter es una de las empresas que utiliza Cassandra dentro de su plataforma.
- Chukwa Diseñado para la colección y análisis a gran escala de "logs". Incluye un toolkit para desplegar los resultados del análisis y monitoreo.
Big Data - Facebook
Facebook está comprando el conocimiento de qué escriben, desde dónde y a qué hora lo hacen los usuarios de la compañía del logo verde. Estamos hablando de 55000 millones de mensajes diarios. Toda esa información va a estar ahora en manos de mayor red social de occidente. Es de Big Data de lo que estamos hablando, por eso el movimiento que ha hecho Facebook es magnífico. Quien controle más información de los usuarios de este planeta, tendrá más herramientas para generar nuevas fuentes de ingresos. Facebook sabe que la movilidad es el presente y será el futuro inmediato de las comunicaciones.
No hay comentarios:
Publicar un comentario