Metadata...lake?

Featured image

Em anos recentes, os Metadados ganharam uma certa relevância para as organizações. Primeiro, como uma ferramenta essencial para a construção de uma nova arquitetura de dados, mas depois como uma forma de auxiliar consumidores de dados a encontrarem os melhores conjuntos para o desenvolvimento de um solução.

Mas assim como a quantidade de dados vem crescendo cada vez mais, os metadados parecem estar seguindo o mesmo caminho.

Novos tipos de Metadados

Com o surgimento de novas ferramentas no mundo da Qualidade e Governança de Dados, novos tipos de metadados, além dos tradicionais vem surgindo.

Infinitas Combinações

Infinitas Combinações

Com tantas novas fontes de metadados, novas possibilidades de extrair valor começam a surgir a partir da combinação desses diferentes recursos e a sua integração com as demais ferramentas que de fato tratam dos dados. Imagine:

São tantas as novas fontes de metadados e possibilidades, que alguns profissionais já começaram a dizer que…

Metadados estão virando Big Data

Então, combina-se:

Com esses dois fatores em mente, alguns profissionais no mercado já começaram a considerar o armazenamento e gerenciamento de metadados um problema de Big Data.

E assim, o que foi o cenário para os dados a alguns anos atrás, agora é o cenário para os metadados. E bem, se o cenário é o mesmo, a solução talvez seja a mesma: Criar um Data Lake.

Um Data Lake Exclusivo para Metadados

Bem, aqui talvez valha a pena inserir uma breve explicação sobre Data Lakes. Não vou entrar muito em detalhes, visto que é um conceito bem popular, e já existem várias definições por aí.

Um Data Lake basicamente é um grande repositório central de dados que suporta o armazenamento de grandes quantidades de dados de diversos formatos, estejam eles estruturados (em formato tabular, com colunas bem definidas) ou não estruturados (imagens, áudios, vídeos e outros formatos). Sua filosofia central é a de armazenar dados inicialmente em um estado bruto, assim como são gerados, e processá-los para um uso específico apenas quando forem realmente necessários. Além disso, é uma arquitetura bastante baseada na ideia de separar os sistemas de processamento e armazenamento de dados.

É uma solução muito robusta e eficiente que vem sendo bastante utilizada para o armazenamento e processamento de grandes quantidades de dados nos dias atuais. E de fato, também pode ser um forte candidato para o armazenamento centralizado de metadados, atendendo o seu crescimento de volume, de tipos diferentes (já que suporta dados de vários formatos), e de casos de uso (com o armazenamento de dados brutos que podem ser processados futuramente para a construção de uma aplicação).

Fonte: Medium, 2021. Fonte: Medium, 2021.

Mas para os metadados parece existir um fator que merece algumas tratativas próprias: A Capacidade de Integração.

É importante perceber, que ao menos boa parte das soluções envolvendo metadados se baseiam em alguma integração, seja entre ferramentas ou conjuntos de dados diferentes.

Para atender essas necessidades, algumas proposições adicionais já vem sendo sugeridas aos Data Lakes de Metadados.

Fonte: Medium, 2023. Fonte: Medium, 2023.

Mais Novo do que o Recente

Sendo sincero, esse assunto é algo ainda muito novo (e consequentemente meio vago). A extração de valores dos metadados já é algo muito recente para muitas empresas, imagina então falar em armazená-los em data lakes. Mas é interessante perceber a velocidade com que esse conceito já está sendo discutido.

Pode ser que ele aconteça, pode ser que não, mas o aprendizado que fica é que além de importância na indústria, os metadados parecem também estar ganhando volume. Bem rapidamente.

Referências

The Rise of the Metadata Lake por Prukalpa, cofounder da Atlan

Implementing the Metadata Lake… por Anand Govindarajan

The Role of Metadata and Metadata Lake for a Successful Data Architecture por HyperRight