Mes: febrero 2016

¿Aún hablas de ‘big data’? Estás obsoleto

Posted on

Elena ArrietaMadrid@elenaarrieta

Actualizado: 09/02/2016 14:28 horas

Cada poco tiempo surgen en el mundo tecnológico nuevos términos y conceptos. Lo (pen)último en analítica avanzada de datos es el ‘data lake’, que va un paso más allá del ‘big data’.

¿Qué es el big data? En esencia, se trata de aprovechar la inteligencia de analizar y cruzar ingentes cantidades de datos para detectar nuevos patrones de consumo o identificar nuevas oportunidades de negocio.

Por ejemplo, gracias al big data, una cadena de supermercados es capaz de realizar una segmentación de sus clientes en base al histórico de compra en las distintas tiendas, y una empresa de telecomunicaciones puede saber por qué zonas de una ciudad se mueven los turistas, y vender esa información a los responsables turísticos de la ciudad para que busquen cómo atraer turistas a otros barrios.

Hay dos grandes formas de entender el big data: como una evolución del business intelligence -herramientas que extraen inteligencia de la información de una compañía y sobre ésta elaboran algunas predicciones-, o como una disrupción. Alejandro Giménez, director de tecnología de EMC España y profesor de big data de la EOI, forma parte del segundo grupo. “La disrupción está no sólo en la cantidad de datos de la que hablamos, que en algunas ocasiones permite hacer correlaciones antes inimaginables, sino de su procedencia. Son datos desestructurados, que ya no sólo proceden de la propia compañía sino también de blogs, redes sociales y otras fuentes”, comenta.

En este momento, la mayor parte de las grandes compañías está aún en la fase inicial del big data: recopilan la información y la almacenan, pero aún no saben cómo explotarla.

Pese a esta inmadurez, emergen ya nuevos conceptos, que suponen un paso más en la estrategia de analytics de una compañía. Uno de los que pisa con más fuerza es el data lake.

¿Qué es ‘data lake’?

Como su nombre indica, un data lake “viene a ser como un gran lago, donde conviven peces de distintos colores y tamaños. Aplicado a los datos, hablamos de meter toda la información en un único lugar, incluyendo también los datos desestructurados”, pero con un matiz: “Con el business intelligence, recoges la información desestructurada de diversas fuentes, la filtras y ordenas, y finalmente la almacenas. En un data lake, recoges la información y la almacenas, pero no la limpias, no alteras el original”.

¿Qué diferencia hay? “Al hacer ese filtro, escoges de un documento la información que crees que te será relevante en el futuro (el membrete, el remitente, los números…) y eliminas lo demás. Esa base de datos te dará respuestas útiles a las preguntas de siempre, pero puede que no te permita hacer ciertas correlaciones innovadoras. En cambio, si no alteras el original, puedes hacerle las preguntas que quieras”, señala este experto. En este sentido, los profesionales del sector hablan de cambiar el paradigma ETL (extract, transform, load) por ELT (extract, load, transform).

¿Es esto sostenible?

Un data lake, en definitiva, consiste en un gran charco donde una empresa tiene toda su información, en lugar de en silos separados (ojo, eso no significa que todos los datos estén físicamente en un único lugar).

La pregunta del millón es: ¿puede una empresa pagar por el almacenamiento y capacidad de computación que requiere un data lake? “La clave está en emplear servidores básicos, y reservar las máquinas de gama alta para cuestiones críticas como la información transaccional”, propone Giménez. Y hace el siguiente símil: “Si te dedicas a repartir pizzas, ¿no es más efectivo hacerlo con muchas pequeñas motocicletas, que con un gran camión frigorífico?”.


¿Significa esto que la infraestructura tecnológica que requiere el business intelligence ya no vale para nada? “No. El business intelligence no ha muerto, simplemente se le añaden nuevas capacidades”.

Hay empresas que ya tienen su propio data lake. Un buen ejemplo es General Electric. En Europa también hay casos, aunque menos. Un ejemplo reconocido públicamente es el de la aseguradora ANV, que gracias a contar con esta infraestructura de datos descubrió la oportunidad de lanzar ofertas a clientes de otras aseguradoras que hubieran sido descubiertos conduciendo bajo los efectos del alcohol. Las pólizas de esos clientes inmediatamente se multiplican, y ANV aprovechó para ofrecerles un precio más atractivo y rascar así cuota de mercado.

¿Por qué no está el ‘big data’ más extendido?

Si la oportunidad de negocio de hacer big data es tan grande, ¿por qué no todas las empresas

Leer el resto de esta entrada »