Posts recentes

Série: os “Vs” do Big Data- variedade


Continuando nossa série de artigos sobre os “Vs” do Big Data, hoje falaremos sobre a variedade dos dados. Inúmeras são as fontes de dados: redes sociais, caldeiras de uma indústria, dados de pacientes em uma UTI, entre outras fontes possíveis e imagináveis.

Um contexto muito importante para as tecnologias de Big Data é saber como coletar, armazenar e tratar dados de diferentes tipos. Costuma-se classificar os dados em três grandes categorias: dados estruturados, semiestruturados e não-estruturados.

Os dados estruturados são os mais convencionais no mundo corporativo e fazem parte da rotina das empresas há muito tempo. Esses dados possuem uma estrutura rígida e bem determinada. Sua composição é pensada de maneira lógica para que o resgate e tratamento dos dados seja feito de forma objetiva. Os exemplos mais comuns são as planilhas eletrônicas.

Os dados semiestruturados possuem alguma lógica e organização internas, mas são menos rígidas do que nos dados estruturados. Normalmente possuem tags e outros marcadores semânticos que possibilitam sua classificação. Há algumas linguagens como o XML (Extensible Markup Language) que podem ser referenciadas no trabalho com dados semiestruturados e que são empregadas com amplo uso na internet.

Os dados não-estruturados são os dados que não possuem estrutura rígida de classificação ou arquitetura. Curiosamente, apesar de sua falta de estrutura, são os mais comuns e os que mais são produzidos nos tempos atuais. Há diversos exemplos: arquivos de redes sociais, vídeos, músicas, imagens, textos sem marcações lógicas/semânticas específicas etc.

As tecnologias dos bancos de dados e algoritmos para o trabalho com essa variedade de dados é um ramo em crescente evolução: web semântica, streaming, bancos de dados relacionais ou não, algoritmos de reconhecimento de imagem, entre outras tantas a serem ditas.

Aposto que você se identificou como um produtor de dados pelas redes agora que sabe um pouco mais sobre os tipos de dados existentes e como eles estão diretamente vinculados a nosso cotidiano, não é mesmo?! O mundo do Big Data é fascinante.

Fernando Montini é cientista de dados, pedagogo, químico industrial e mestre em Biologia.

Escreve para o blog sobre tecnologia na área de Ciência de Dados, Business Intelligence e Mercado Financeiro.

111 visualizações0 comentário

Posts recentes

Ver tudo
VEJA TAMBÉM