Meio Bit » Baú » Internet » CIAB 2013 - afogado em números

CIAB 2013 - afogado em números

CIAB 2013: como as empresas lidam com a avalanche de dados coletados?

12/06/2013 às 14:33

Algum tempo atrás as palavras de ordem no mundo da TI eram nuvem e virtualização. Hoje nuvem é commodity, e nem digo isso no sentido de que é mais cômodo pro Obama ler nossos emails. (Hi, Barry)

A palavra-chave é BIG DATA.

Minha primeira experiência com o conceito foi quando desenvolvi um programa gerador de estatísticas em tempo real para um curso online com 40 mil alunos. Descobri que nenhum banco de dados era rápido o suficiente para calcular em tempo real as estatísticas de cada aluno quando ele terminasse um exercício, mas o chefe queria. Eu consegui, mas foi na base da magia negra. Depois me aventurei a analisar logo dos servidores web. Todo dia rodava um job de algumas horas.

Hoje vejo que minha experiência foi Pinto, um nada perto do Big Data de verdade. São terabytes, em alguns casos exabytes de dados que precisam gerar visualizações, do contrário seriam dados inúteis. Lembrem-se, INFORMAÇÃO NÃO É PODER. Se fosse as bibliotecárias dominariam o mundo. Poder é saber interpretar a informação.

Um exemplo enciclo(wiki)pédico de Big Data: o LHC joga fora 99,999% dos dados coletados. Só gravam as colisões interessantes, tipo as câmeras dos carros russos. Só que são mais de 100 colisões por segundo, com uma quantidade absurda de dados em cada uma. No final do ano isso representa 25 petabytes de dados. UM petabyte eqüivale a mil terabytes. A Wikipédia inteira (sem imagens) tem pífios 42 GB.

As empresas estão vendendo soluções para lidar com essa avalanche de dados, pois quase sempre a resposta para os problema do cliente já existem, só é preciso procurar no meio de um monte de informação inútil. O grande receio da história da NSA ter acesso a todos os registros online de todos os americanos não é nem o acesso em si, mas que eles tenham uma ferramenta capaz de cruzar todos esses dados e descobrir as tendências ocultas. É quase como a psicohistória de Isaac Asimov em Fundação.

Big Brother só existe com Big Data, mas o conceito em si não é maléfico, vale para o Facebook vigiar sua vida e para o Google determinar o principio de uma epidemia de sarampo causada por falta de vacinação em uma comunidade hippie qualquer.

Assim como runtimes que parecem cutscenes em games, Big Data só existe por causa dos avanços tecnológicos que permitem o processamento de quantidades obscenas de dados. As técnicas estatísticas em si não surpreenderiam nem Leibniz.

A tendência é que as ferramentas de Big Data migrem para Bigger Data, com o avento de softwares de analise multimídia. Pense bem: o Facebook tem armazenadas 50 bilhões de fotos. Reconhecimento facial é só um aspecto. Imagine que temos junto metadata de geolocalização, data e hora de upload e criação da imagem, modelo da câmera utilizada e nem chegamos a falar em identificar produtos e acidentes geográficos nas fotos.

Agora extrapole isso para o arquivo do YouTube. Pense em quantos ANOS de vídeos inocentes estão esperando por uma ferramenta que os disseque atrás de informação. E informação nesse caso é a música tocando no video, o programa de TV aparecendo ao fundo e a quantidade de pessoas em cada Starbucks onde um hipster filmou o próprio café.

Vivemos um futuro onde nenhuma informação é irrelevante, no máximo ela parece irrelevante para quem não tem como interpretá-la.

    Leia mais sobre: , , , , .

    relacionados


    Comentários