Qualidade de Dados: uma breve visão geral • DiffusiOm Labs

Em nível de negócios, a qualidade dos dados é chave para ótimos produtos de IA e impacta diretamente as vantagens competitivas estratégicas, já que dados são um ativo fundamental das organizações hoje, alimentando o planejamento estratégico e a tomada de decisão diariamente.

Entre várias definições, vale destacar que dados de alta qualidade devem representar os fenômenos do mundo real aos quais se referem de forma apropriada e confiável.

Para alcançar esse objetivo geral, pode-se imaginar a qualidade dos dados como parte de um pipeline de dados como um todo. Especificamente, a dimensão de qualidade do pipeline pode ser vista assim: ela começa com uma modelagem de dados adequada, para abordar o fenômeno da melhor forma possível e; é composta por mecanismos eficientes de checagem, validação e normalização para garantir que os dados produzidos estejam de acordo com a modelagem e os resultados desejados. O que significa que, na prática, procedimentos e frameworks de qualidade de dados surgem para assegurar que os dados se encaixem nas necessidades de tomada de decisão e planejamento tanto no nível de design quanto no nível técnico. Assim, quais são as dimensões da qualidade de dados?

Algumas dimensões críticas que impactam diretamente a qualidade da informação produzida a partir dos dados são: credibilidade, acurácia, reputação, relevância, compreensibilidade e consistência.

Do ponto de vista técnico, assegurar todas essas dimensões significa que os conjuntos de dados devem ser adequados à informação produzida a partir deles. A partir disso, a qualidade de dados nesse nível é pelo menos uma tarefa bipartida:

a) avaliar e b) corrigir problemas de dados em sistemas de informação.

Ambas as tarefas são preferencialmente feitas por algoritmos automatizados. Para realizar essas tarefas há uma infinidade de ferramentas disponíveis. Vamos destacar duas delas:

Great Expectations: É um pacote Python open source projetado para validar, perfilar e documentar dados. Com essa ferramenta, escreve-se assertivas sobre os dados (expectations) na forma de métodos Python, que são usados para validar os dados. O que basicamente significa: verificar se qualquer lote de dados corresponde aos requisitos do conjunto de expectativas previamente definido.

O perfil de dados (conjunto de assertivas) pode ser criado automaticamente com essa biblioteca com base na observação de estatísticas básicas dos dados. Essas configurações são armazenadas em arquivos yaml. Por fim, a documentação é escrita em formato html, onde se pode visualizar tanto as suítes de expectativas quanto os resultados de validação de dados em um fluxo contínuo. Great Expectations permite trabalhar com backends como pandas, Spark, SQL e fontes de dados/armazenamentos como S3, data warehouses, filesystem, Databricks, EMR, Athena e outros.

Deequ: Deequ é uma ferramenta open source baseada em Scala, desenvolvida pela AWS, com API Python disponível. Integrada nativamente ao Apache Spark, Deequ permite procedimentos de checagem de qualidade de dados por meio da criação personalizada ou automatizada de constraints para testar dados organizados como DataFrame do Spark.

Seus componentes centrais são: cálculo de métricas, sugestão de restrições, verificação de restrições e repositório de métricas. Este último dá suporte à persistência e ao acompanhamento das execuções ao longo do tempo, criando um histórico das medições do Deequ.

Seu cálculo stateful de métricas é útil ao lidar com conjuntos de dados que mudam ao longo do dia. O Deequ mede apenas os dados mais novos, permitindo o armazenamento de métricas e a detecção de anomalias para cada lote diferente de dados.

Em comparação, Great Expectations pode ser mais flexível e Deequ mais poderoso. No entanto, a decisão sobre sua adoção depende do desenho da arquitetura e das necessidades do time. Independentemente da tecnologia escolhida, qualidade de dados é imprescindível para alcançar a excelência em qualquer projeto de dados e alavancar as vantagens estratégicas que dados e informação são capazes de gerar na economia atual.

*agradecimento especial a Mariana F. Medeiros pelos comentários sobre frameworks de qualidade de dados.