big data

¿Aún hablas de ‘big data’? Estás obsoleto

Posted on

Elena ArrietaMadrid@elenaarrieta

Actualizado: 09/02/2016 14:28 horas

Cada poco tiempo surgen en el mundo tecnológico nuevos términos y conceptos. Lo (pen)último en analítica avanzada de datos es el ‘data lake’, que va un paso más allá del ‘big data’.

¿Qué es el big data? En esencia, se trata de aprovechar la inteligencia de analizar y cruzar ingentes cantidades de datos para detectar nuevos patrones de consumo o identificar nuevas oportunidades de negocio.

Por ejemplo, gracias al big data, una cadena de supermercados es capaz de realizar una segmentación de sus clientes en base al histórico de compra en las distintas tiendas, y una empresa de telecomunicaciones puede saber por qué zonas de una ciudad se mueven los turistas, y vender esa información a los responsables turísticos de la ciudad para que busquen cómo atraer turistas a otros barrios.

Hay dos grandes formas de entender el big data: como una evolución del business intelligence -herramientas que extraen inteligencia de la información de una compañía y sobre ésta elaboran algunas predicciones-, o como una disrupción. Alejandro Giménez, director de tecnología de EMC España y profesor de big data de la EOI, forma parte del segundo grupo. “La disrupción está no sólo en la cantidad de datos de la que hablamos, que en algunas ocasiones permite hacer correlaciones antes inimaginables, sino de su procedencia. Son datos desestructurados, que ya no sólo proceden de la propia compañía sino también de blogs, redes sociales y otras fuentes”, comenta.

En este momento, la mayor parte de las grandes compañías está aún en la fase inicial del big data: recopilan la información y la almacenan, pero aún no saben cómo explotarla.

Pese a esta inmadurez, emergen ya nuevos conceptos, que suponen un paso más en la estrategia de analytics de una compañía. Uno de los que pisa con más fuerza es el data lake.

¿Qué es ‘data lake’?

Como su nombre indica, un data lake “viene a ser como un gran lago, donde conviven peces de distintos colores y tamaños. Aplicado a los datos, hablamos de meter toda la información en un único lugar, incluyendo también los datos desestructurados”, pero con un matiz: “Con el business intelligence, recoges la información desestructurada de diversas fuentes, la filtras y ordenas, y finalmente la almacenas. En un data lake, recoges la información y la almacenas, pero no la limpias, no alteras el original”.

¿Qué diferencia hay? “Al hacer ese filtro, escoges de un documento la información que crees que te será relevante en el futuro (el membrete, el remitente, los números…) y eliminas lo demás. Esa base de datos te dará respuestas útiles a las preguntas de siempre, pero puede que no te permita hacer ciertas correlaciones innovadoras. En cambio, si no alteras el original, puedes hacerle las preguntas que quieras”, señala este experto. En este sentido, los profesionales del sector hablan de cambiar el paradigma ETL (extract, transform, load) por ELT (extract, load, transform).

¿Es esto sostenible?

Un data lake, en definitiva, consiste en un gran charco donde una empresa tiene toda su información, en lugar de en silos separados (ojo, eso no significa que todos los datos estén físicamente en un único lugar).

La pregunta del millón es: ¿puede una empresa pagar por el almacenamiento y capacidad de computación que requiere un data lake? “La clave está en emplear servidores básicos, y reservar las máquinas de gama alta para cuestiones críticas como la información transaccional”, propone Giménez. Y hace el siguiente símil: “Si te dedicas a repartir pizzas, ¿no es más efectivo hacerlo con muchas pequeñas motocicletas, que con un gran camión frigorífico?”.


¿Significa esto que la infraestructura tecnológica que requiere el business intelligence ya no vale para nada? “No. El business intelligence no ha muerto, simplemente se le añaden nuevas capacidades”.

Hay empresas que ya tienen su propio data lake. Un buen ejemplo es General Electric. En Europa también hay casos, aunque menos. Un ejemplo reconocido públicamente es el de la aseguradora ANV, que gracias a contar con esta infraestructura de datos descubrió la oportunidad de lanzar ofertas a clientes de otras aseguradoras que hubieran sido descubiertos conduciendo bajo los efectos del alcohol. Las pólizas de esos clientes inmediatamente se multiplican, y ANV aprovechó para ofrecerles un precio más atractivo y rascar así cuota de mercado.

¿Por qué no está el ‘big data’ más extendido?

Si la oportunidad de negocio de hacer big data es tan grande, ¿por qué no todas las empresas

Leer el resto de esta entrada »

Identifican compras a personas

Posted on

Cuatro gestos tan triviales como pagar el billete de metro, la comida del mediodía, las zapatillas en una tienda deportiva o las entradas al cine permiten identificar a casi cualquier persona.

Aunque no se sepa el nombre o el número de cuenta, un estudio con datos de compra de 1,1 millones de personas revela la identidad en más del 90% de los casos. Es el poder de los metadatos y el big data.

Cuando estalló el caso Snowden, en Estados Unidos se produjo un gran escándalo con uno de los programas de espionaje de la NSA que recopilaba millones de llamadas telefónicas. Las autoridades estadounidenses aclararon enseguida que no espiaban el contenido de las conversaciones en sí sino metadatos como quién llamaba a quién, a qué hora o durante cuánto tiempo.

Google o Facebook también los usan para mejorar sus servicios u ofrecer publicidad más personalizada. En principio, la agregación de este tipo de datos de forma anónima en grandes bases no plantearía una gran amenaza a la privacidad de las personas. Esa presunción se ha demostrado ahora falsa.

Un grupo de investigadores del Media Lab del Instituto Tecnológico de Massachusetts (MIT) ha diseñado un par de algoritmos matemáticos que permiten identificar a una persona basándose en sus hábitos de compra.

Consiguieron que un gran banco de un país de la OCDE (por razones obvias, no dicen ni qué banco ni qué país) les dejara aplicar sus algoritmos a una base de datos con las transacciones de pagos electrónicos de 1,1 millones de clientes en unas 10 mil tiendas durante los meses de enero y marzo de 2014.

“Con un promedio de cuatro transacciones, el día y la tienda, basta para identificar de forma exclusiva a las personas en el 90% de los casos”, dice el investigador del MIT y coautor de la investigación, Yves-Alexandre de Montjoye.

“La lógica que subyace en esto reside en que muchas personas compran algo en una determinada tienda (Mango, por ejemplo) un día determinado (pongamos, ayer). Sin embargo, solo algunas de ellas también comprarán en determinado H&M ese mismo día.

Y aún menos irán a comer al día siguiente en la misma zona. En cuanto sepas cuatro lugares o tiendas y días, el 90% de

Leer el resto de esta entrada »

Internet of Things y la explosión del Big Data

Posted on

iot2Las máquinas están “ganando la batalla”. No sólo cada vez son más, sino que están produciendo más datos de los que en algún momento podemos llegar a gestionar, organizar, consumir. Y no es que seamos alarmistas. El toque de atención lo ha dado alguien tan respetable como Werner Vogels, CTO de Amazon, una de esas empresas que tiene “algo” que decir en el campo del Big Data.

Vogels participó como invitado en la pasada MongoDB World conference, donde entre otras cosas habló sobre “las consecuencias del Big Data”. El ‘problema’ con el Big Data, no se encuentra para Vogels en la necesidad de tener que contar con gigantescos centros de datos o el tener que desarrollar enormes bases de datos para su gestión, sino en que hemos entrado en una nueva era de máquinas, de Internet of Things, que producen datos a una escala como nunca hemos visto hasta ahora. Para explicarlo mejor, puso los siguientes ejemplos:

1. La cantidad de información que se genera durante el primer día de vida de un bebé, equivale a 70 veces la cantidad de información que contiene la Biblioteca del Congreso de Estados Unidos, considerada la más grande del mundo. Y no hablamos de información únicamente generada por el equipamiento médico del hospital (que también), sino por las cámaras y vídeo cámaras de padres y amigos; smartphones,  vigilabebés, etc.

2. Dropcam, la startup de vigilancia del hogar recientemente adquirida por Google, almacena más información por minuto que Youtube, procesando petabyes de información cada mes, a medida que sus cámaras trabajan para vigilar tanto hogares como bebés.

El Internet of Things inaugura por lo tanto su propia categoría de Big Data. Una en la que afortunadamente algunas empresas están empezando a sacar partido, como tiendas que gracias a sus cámaras de seguridad han aprendido a ayudar a sus clientes a encontrar antes lo que estaban buscando, o empresas que saben aplicarlo para mejorar el rendimiento de equipos fútbol o baloncesto.

Para Volgels, el Big Data generado por el Internet of Things, va a ir mucho más allá de un frigorífico que sabe cuándo tiene que pedir leche al supermercado; va a ser increíblemente útil para tareas sofisticadas como el estudio del ADN, cambio climático o la exploración espacial.  Y sin embargo advierte que en el campo del Big Data, más no equivale siempre a mejor: lo importante es saber encontrar el significado.

Fuente: http://www.muycomputerpro.com/2014/07/01/internet-things-y-la-explosion-del-big-data?PageSpeed=noscript&utm_content=bufferd4826&utm_medium=social&utm_source=twitter.com&utm_campaign=buffer

Los nuevos retos para la Agencia Española

Posted on Actualizado enn

Protección de Datos apuesta por una “cultura proactiva de la privacidad”

Resumen: Los nuevos retos para la Agencia son el internet de las cosas, los drones y el fenómeno del “big data” (el análisis y procesamiento de información masiva).

Guía de Evaluación de Impacto de la Protección de Datos, una herramienta para ayudar a las organizaciones a detectar los riesgos que un producto o servicio puede presentar para la privacidad.


 

La Agencia Española de Protección de Datos (AEPD) apuesta por crear una “cultura proactiva de la privacidad” para recuperar la confianza de los usuarios en internet que, debido a los casos de espionaje y a las malas prácticas de algunas empresas, está “sensiblemente dañada”.

Leer el resto de esta entrada »