Qué significa Big Data, para curiosos

Big Data hace referencia a un conjunto de datos cuyo volumen (hasta del orden de petabytes, 1015 bytes), variedad (datos de distinta naturaleza) y velocidad de crecimiento (se disponen de nuevos datos continuamente) dificultan que se puedan gestionar los datos mediante las tecnologías y herramientas convencionales, lo que hace imposible su análisis y obtención de resultados en plazos de tiempos razonables para que las conclusiones resulten útiles. Aunque Big Data se traduce frecuentemente al español con el término macrodatos, son pocos los que lo utilizan.

A pesar de que el estudio del manejo de grandes volúmenes de datos viene de los años 60, el término big data aparece por primera vez en 1997 en un artículo de dos investigadores de la Nasa, Michael Cox y David Ellsworth. El término big data quedaría finalmente aclarado en 2001 por Doug Laney, de la empresa Gartner, al definirlo por las tres V: volumen, velocidad y variedad. A partir de 2003 empiezan a aparecer en el mercado las herramientas software que permiten su desarrollo: GFS, MapReduce, Hadoop, Cloudera, Hottonworks, etc. Por último, la aparición de tecnologías como Internet de las cosas, IoT, Smart cities o Business intelligence, dispara el ya creciente volumen de datos almacenados en tiempo real.

Internet de las cosas, IoT. Dispositivos conectados

La sociedad actual está cada vez más conectada con los sistemas de información. A nivel personal es muy común que utilicemos agendas, calendarios, dispositivos biométricos (por ejemplo, en smart watchs) o sistemas de mensajería que registran toda nuestra actividad. La tecnología de Internet de las cosas (IoT) está registrando también la actividad de los objetos que nos rodean, desde televisores a cafeteras o lavadoras. Incluso los asistentes personales, como Siri, Alexa o Google, registran nuestras conversaciones y preferencias. Por otro lado, la actividad empresarial y profesional está cada vez más basada en el uso de las tecnologías de la información, que lo registran todo. El Business Intelligence (inteligencia de negocio) hace referencia a un conjunto de estrategias que se basan en crear conocimiento a partir del análisis de todos los datos recopilados en la empresa. Por último, las tecnologías de Smart Cities (ciudades inteligentes), las distintas industrias, la protección del medio ambiente o la seguridad ciudadana tienen instalados una gran variedad de dispositivos que registran todo tipo de parámetros de forma constante.

Las empresas y organizaciones se han dado cuenta de que los datos pueden convertirse en un auténtico valor para todas y cada una de las áreas de la economía global. Disponer de la posibilidad de analizar grandes volúmenes de datos puede generar conocimientos que hacen posible que, decisiones que antes estaban basadas en intuiciones y conjeturas, ahora se puedan fundamentar en conclusiones extraídas de los datos. El resultado es que el Big Data tiene el potencial suficiente para influir muy positivamente en campos como la salud, la ciencia, el comercio, la educación, la cultura, las finanzas, la agricultura o la industria.

La tecnología Big Data

Gestionar grandes volúmenes de datos, analizarlos y sacar conclusiones en un corto periodo de tiempo requiere de una tecnología especializada, tanto hardware como software. El hardware se basa en utilizar supercomputadores o, lo que es más común, clusters de ordenadores. Por su parte, el software se basa en utilizar algoritmos de inteligencia artificial, IA, o machine learning (aprendizaje automático) con los que poder interpretar datos de todo tipo, incluidos audio e imágenes, y aprender de ellos de forma automática para inferir los resultados de predicción buscados.

La tecnología hardware de Big Data se basa, principalmente, en que el software necesario se ejecute sobre una multitud de ordenadores o sistemas trabajando en paralelo, simultáneamente. Las empresas que más han desarrollado esta tecnología de paralelización son los grandes gigantes de Internet. Algunas de las tecnologías de este tipo más utilizadas en la actualidad son Hadoop MapReduce, Apache Spark o Apache Lynx.

Tecnología Big Data

Esta tecnología permite utilizar cientos o miles de servidores interconectados que actúan en modo simultáneo y cooperativo como si fueran una única máquina, es lo que se conoce como cluster. Cada máquina del cluster es un ordenador independiente y completo, pero realiza sus acciones coordinadas con el resto. Este sistema no tiene límites a la hora de añadir nuevas máquinas, por lo que es normal disponer de sistemas del orden de miles de máquinas.

En lo que respecta al software, en este entorno de Big Data no es posible utilizar la tecnología de las tradicionales bases de datos relacionales (tipo SQL), que son las que utilizan la mayoría de los sistemas corporativos actuales, incluido los servicios webs online. Para poder manejar estos datos masivos se crearon las bases de datos NoSQL (not only SQL). Existen distintos tipos, cada uno orientado a resolver un escenario particular de una forma óptima. Algunas de las tecnologías de bases de datos Big Data más utilizadas en la actualidad son Amazon DynamoDB, Google BigTable, Apache Cassandra o Hbase.

Big Data en la empresa

El análisis de la multitud de datos que tiene la empresa a su alcance le permite descubrir patrones, leyes o reglas que explican la realidad de una manera más precisa que como lo hacen sus estudios tradicionales basados en fórmulas, teoremas y modelos. Hoy en día, la empresa y organizaciones utiliza el Big Data, fundamentalmente, para realizar análisis predictivos, esto es, conseguir hacer predicciones sobre casi cualquier ámbito de nuestra vida: ventas de un producto o servicio, morosidad en la banca, intereses financieros, uso del transporte, evolución del medioambiente, planificación sanitaria o aspectos de la Administración Pública, por ejemplo.

No se trata de analizar hechos pasados para deducir un posible futuro, sino de analizar el presente en tiempo real para predecir el futuro próximo. La clave es predecir, conocer lo que va a ocurrir. Para ello, las organizaciones deben ser capaces de almacenar, depurar y obtener resultados en tiempo real a partir de la masa ingente de datos que ingresan (básicamente de sus distintos dispositivos con sensores y aplicaciones empresariales: web, CRM, ERP, etc.).

Business intelligence

Gracias a la adopción de Big Data, las empresas y organizaciones pueden tomar decisiones:

  • Más inteligentes y de mayor valor.
  • Más rápidas, debido a la captura y análisis de los datos en tiempo real.
  • Que les permite diferenciarse de la competencia.

El término Business intelligence hace referencia al conjunto de estrategias, aplicaciones, datos, productos y tecnologías orientadas a la creación de conocimiento mediante el análisis de datos con el objetivo de facilitar la toma de decisiones.

Ejemplos de Big Data

El uso de la tecnología Big Data está en todos lados. Cualquier acción que se realice con cualquier dispositivo que esté conectado genera un rastro de datos que seguramente serán analizados, con mayor o menor grado de detalle, por algún sistema de Big Data. Según el MIT (Instituto Tecnológico de Massachusetts) hoy en día se están generando 2.5 quintillones de bytes cada día (1030 bytes).

En el comercio, las grandes empresas, como Amazon o Netflix, recopilan y analizan toda la información que le es posible, no solo para conseguir más ventas, sino para fidelizar a sus clientes atrayéndoles con productos y servicios que saben que coinciden con sus gustos. Los algoritmos de sus plataformas le ofrecen una experiencia única a cada usuario basándose en su historial de compras, en dónde hace clic, en las cosas que ve o que busca. Amazon utiliza análisis predictivos tan elaborados que incluso pueden generar una orden de envío antes de que el cliente realice efectivamente la compra. Amazon lo llama Method and System for Anticipatory Package Shipping (Método y sistema para el envío anticipado). Esta tecnología incluye modelos teóricos de comportamientos futuros, lo que le permite a Amazon conocer anticipadamente lo que comprará cada cliente, ante que ellos mismos. Con esto, no solo puede organizar las comunicaciones con sus clientes, sino que le permite planificar su logística y aprovisionamiento.

Por otro lado, se están desarrollando tiendas físicas en las que el cliente registrado solo tiene que entrar, tomar los productos que desee y salir, sin colas, sin cajeros y sin esperas. Estos centros tienen multitud de sensores repartidos por todo el centro, lo que permiten detectar, no solo lo que cada cliente coge o lo que suelta, sino dónde se para, qué mira o los comentarios que hace. Todos estos datos son procesados por un sistema de Deep Learning (autoaprendizaje profundo) que le permite al centro definir unos patrones de consumo con muchos más detalles que las actuales tarjetas y programas de fidelización.

Tienda sin caja Amazon Go

El sector de la banca y las finanzas ha estado siempre dispuesto a utilizar las últimas tecnologías de la información para mejorar su rendimiento. La banca dispone de mucha información sobre los hábitos de sus clientes: sus ingresos, sus gastos, los comercios a los que suele ir, cuánto se gasta en cada uno de ellos, cuáles son online, cuánto ahorra, etc. Del análisis de todos estos datos se puede inferir con bastante exactitud su capacidad para pagar un préstamo, su probabilidad de endeudamiento para hacer compras menores o la posibilidad de comprar otros productos o servicios del banco (seguros, inversiones, etc.).

Uno de los ámbitos en los que está teniendo más relevancia el Big Data es en la política. Siempre se pone de ejemplo el uso que se hizo en Estados Unidos en 2012 para la campaña de reelección del presidente Obama. Congregaron un equipo de expertos de Big Data que pudieran identificar datos que les permitieran localizar a sus votantes indecisos, lo que les permitiría tener la posibilidad de convencerlos; así como movilizar a sus votantes para que, efectivamente, fueran a votar. El uso del Big Data junto con el trabajo de campo y la estrategia de comunicación se indican siempre como la clave del éxito de una campaña política, sea del tipo que sea.

Big Data en el deporte

El mundo del deporte es otro campo donde la tecnología Big Data puede aportar mucho. Los smartwatch o relojes inteligentes incorporan sensores que permiten registra los kilómetros recorridos, las calorías quemadas, el ritmo cardíaco o la actividad física realizada. Las técnicas de Big Data permiten detectar la eficiencia de los ejercicios y realizar recomendaciones de mejora del rendimiento. A nivel profesional, los sensores pueden ser más complejos y variados y los estudios, muy orientados a cada deporte concreto, son totalmente personalizados.

La sanidad encuentra en el Big Data una gran aliado para la investigación. Gracias al Big Data se puede trabajar con estadísticas e informaciones mucho más amplias lo que, en mucho casos, son determinantes para estudios como los patrones de enfermedades, análisis de ADN o conocer la demanda a corto plazo de los distintos servicios sanitarios. Por ejemplo, del análisis de múltiples parámetros se puede llegar a determinar con antelación la probabilidad de que aparezcan determinadas enfermedades graves.

Smart cities, seguridad ciudadana, transporte público, automoción, recomendaciones de compras en tiendas online, personalización del servicio web, etc. La lista de aplicaciones del Big Data es realmente extensa.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *