Qualidade de Dados em Sistemas de Informação: dimensões, desafios e implicações para a tomada de decisão estratégica
A qualidade dos dados para sistemas é um tópico importante, tanto em artigos científicos, quanto para os diversos sistemas que servem as decisões estratégicas tomadas pelo mercado. A escolha para determinar o sucesso de um sistema que gera informações é uma função do objetivo do estudo, do contexto organizacional, do aspecto do sistema de informação abordado pelo estudo e a qualidade dos dados, que é um item essencial (DELONE; MCLEAN, 1992).
O tema qualidade da informação começou a ser discutido no Seminário do Nordic Council for Scientific Information and Research Libraries – NORDINFO, realizado em 1989, em Copenhagem, Dinamarca. Qualidade é substantivo abstrato, um constructo de rápida assimilação por meio do senso comum, mas de complexo entendimento (DUTRA; BARBOSA, 2017). É preciso entender o que a qualidade dos dados significa para os consumidores de dados, a fim de melhorá-la (WANG; STRONG, 1996). O sucesso dos sistemas de informação tem como base a qualidade da informação e a satisfação do usuário.
Lee (2006), propõe uma estrutura centrada no usuário para qualidade de dados, que se concentra em entender as preferências individuais por dimensões de qualidade. Os autores enfatizam a necessidade de definir a qualidade dos dados em relação às necessidades e desejos do consumidor, ao invés da perspectiva dos produtores. A pesquisa de Wang e Strong também destaca a importância de dados de alta qualidade serem intrinsecamente bons, contextualmente apropriados, claramente representados e acessíveis ao consumidor de dados (WANG; STRONG, 1996). Além disso, o artigo menciona a dificuldade em definir, medir, analisar e melhorar a qualidade dos dados, enfatizando a necessidade de uma estrutura válida.
Garvin (1987) afirma que a qualidade dos dados não é definida pelos produtores ou gestores de dados, como os departamentos de Sistemas de Informação (SI), mas em vez disso, é definida pelo consumidor de dados. A qualidade dos dados, definida a partir dessa perspectiva, pode ser usada por pesquisadores e profissionais para direcionar seus esforços em prol da qualidade dos dados por design para os consumidores de dados em vez dos profissionais de SI. Esta definição que vamos adotar para a sequência do artigo.
Qualidade na prática
A qualidade dos dados refere-se ao grau em que os dados são precisos, completos, consistentes, oportunos e relevantes para as necessidades do usuário. É um conceito multidimensional porque envolve vários aspectos que precisam ser considerados para garantir sua qualidade.
Quando os dados são de alta qualidade, eles podem ser usados para tomar decisões informadas, melhorar os processos de negócios e obter uma vantagem competitiva. A integração dos processos de negócios, por sua vez, acelerará as demandas por sistemas de aplicação mais eficazes para o desenvolvimento de produtos, entrega de produtos e atendimento e gestão ao cliente (MORTON, 1989; ROCKART e SHORT, 1989). Dados de alta qualidade reduzem o risco de erros e melhoram a precisão da análise, levando a uma melhor tomada de decisão. Também reduz os custos operacionais e de processo ao eliminar a necessidade de limpeza e correção manual de dados.
No entanto, a qualidade dos dados pode variar significativamente em diferentes conjuntos de dados devido às diferenças nas fontes, formatos e estruturas de dados. Garantir uma qualidade uniforme em toda a plataforma de troca de dados se torna um desafio devido a essas diferenças.
Diversas organizações têm problemas em coletar e utilizar seus próprios dados. A falta de uma metodologia para a saber o que coletar, tratar e utilizar os dados, principalmente em organizações de pequeno porte, é comum no mercado. Certas organizações, mesmo com um pipeline de dados, podem não estar coletando os dados certos, ou podem ainda não saber como utilizá-los.
Atributos da Qualidade de Dados
SENGUPTA e GURTOO (2023), definem entre 54 atributos sobre qualidade nos dados. Os seis principais, cobertos pela maioria das metodologias de avaliação de qualidade dos dados são acessibilidade, precisão, consistência, integridade, interpretabilidade e pontualidade.
As dimensões são importantes como um todo e tem peso igual. A ausência de um ou mais de um, compromete todo o ciclo de extração das informações e tomada de decisão. Abaixo estão as 6 dimensões interpretadas pelo autor deste artigo:
Acessibilidade: é vista como um atributo de qualidade dos dados, pois avalia o quão desafiador pode ser acessar as informações desejadas. Para os usuários, essa é uma característica que define em muitos casos um sistema, pois facilita a utilização dos dados para diferentes análises que desejam realizar. Há duas maneiras principais de abordar a acessibilidade: através do acesso aleatório e do acesso sequencial. O acesso aleatório permite uma conexão direta com os dados desejados, tornando-o preferível para muitos usuários, pois reduz as operações de busca necessárias para localizar um dado específico. Por outro lado, o acesso sequencial envolve alcançar os dados desejados seguindo uma sequência determinada, o que pode demandar mais etapas comparado ao acesso aleatório.
Precisão: indica o quão corretos, confiáveis e certificados eles são ao representar situações reais. É um aspecto vital especialmente no âmbito da tomada de decisões nas organizações, uma vez que dados imprecisos podem elevar os custos operacionais. Portanto, ter dados precisos é fundamental para que as decisões tomadas estejam bem fundamentadas e para que as operações comerciais sejam conduzidas de maneira eficaz e eficiente.
Consistência: a consistência é um aspecto fundamental da qualidade dos dados que se refere à uniformidade dos valores dos dados em todas as ocasiões em que são utilizados. Um dado pode ser preciso, mas se suas representações variam, ele é considerado inconsistente. Esta inconsistência pode ocorrer devido a diferentes formas representacionais. Quando há inconsistência nos valores dos dados, isso implica que pelo menos um deles está incorreto, o que pode impactar negativamente na confiabilidade e na utilidade dos dados. Portanto, manter a consistência dos dados é essencial para garantir sua precisão e confiabilidade ao longo do tempo e em diferentes usos.
Integridade: é uma medida de qualidade de dados que aponta para a presença ou ausência de elementos necessários em um banco de dados. Ela pode ser analisada em diferentes níveis, seja em um esquema específico, em uma coluna específica ou até mesmo em um conjunto de dados inteiro, comparando-o com a população que deveria representar. A ideia é identificar se há alguma lacuna ou elemento faltante que poderia comprometer a representação precisa e a utilidade dos dados. Identificar e abordar questões de completude é essencial para garantir que as análises e decisões baseadas nesses dados sejam sólidas e confiáveis.
Interpretabilidade: a interpretabilidade é uma dimensão da qualidade dos dados que destaca o quão facilmente os elementos de dados podem ser entendidos e analisados dentro de um determinado contexto. Ela envolve o uso de conceitos padronizados, terminologia clara e a disponibilização de informações complementares, facilitando a compreensão e a análise dos dados. A ideia é tornar os dados mais acessíveis e fáceis de serem interpretados, o que é condição básica para a tomada de decisões informadas e para permitir uma análise precisa. A interpretabilidade ajuda os usuários a entenderem melhor o significado e a relevância dos dados, contribuindo para uma melhor qualidade e utilidade.
Pontualidade: a pontualidade é uma medida de qualidade de dados que se refere ao tempo transcorrido entre a ocorrência de um evento e o momento em que os dados relacionados tornam-se disponíveis para análise e tomada de decisões. Essa dimensão é no mercado é fundamental, pois dados entregues de maneira oportuna podem ser extremamente valiosos na tomada de decisões acertadas e em tempo hábil. A pontualidade ajuda a garantir que as informações estejam atualizadas e relevantes para o cenário atual, permitindo que as organizações reajam de maneira eficaz às mudanças e aproveitem oportunidades emergentes. Portanto, a pontualidade é fundamental para maximizar o valor e a utilidade dos dados no apoio à tomada de decisões informadas.
Problemas
Os problemas de qualidade de dados são numerosos e variados, conforme destacado por Lee (2006). Abaixo uma lista dos principais problemas e seus agravantes, caso tenhamos baixa qualidade nos dados coletados para uso em nossos sistemas de informação:
Credibilidade e reputação questionáveis: O julgamento subjetivo no processo de produção de dados pode resultar em dados de credibilidade e reputação questionáveis
Tomada de decisão imprecisa: Dados imprecisos do sistema que gradualmente desenvolvem incompatibilidades com contagens físicas ou outros bancos de dados podem levar a uma tomada de decisão incorreta com base em informações defeituosas.
Inconsistências e discrepâncias: Valores de dados inconsistentes entre registros internos e fontes de dados externas podem criar discrepâncias e dificultar a reconciliação e a integração dos dados.
Ineficiências operacionais: Dados ausentes ou incompletos devido a problemas operacionais ou problemas de design podem prejudicar as operações comerciais e os processos de tomada de decisão.
Falta de consistência e coesão: Dados definidos ou medidos de forma inadequada podem resultar em inconsistências entre as divisões e dificultar os esforços de integração e análise de dados.
Desafios de integração: A dificuldade em integrar dados em sistemas distribuídos devido a decisões de design autônomas e a diferentes regras de negócios pode levar a desafios de integração de dados e prejudicar a garantia da qualidade dos dados
Esses problemas de qualidade de dados podem ter implicações significativas para as organizações, afetando a tomada de decisões, a eficiência operacional e a confiabilidade e confiabilidade gerais dos dados.
Conclusão
Muitas organizações são levadas a acreditar que, se instalarem o pacote de software mais recente, como um sistema de planejamento de recursos empresariais (ERP), ou se seguirem a tendência e desenvolverem um data warehouse, alcançarão níveis mais altos de qualidade de dados. A esperança é que, com esses sistemas em funcionamento, estarão melhor preparados para compartilhar informações em toda a empresa. No processo de integração de dados de diferentes fontes, no entanto, fica claro que existem inconsistências substanciais nas definições de dados, formatos de dados e valores de dados, e que as pressões de tempo forçarão o departamento de tecnologia da informação a continuar as mesmas práticas ruins de dados que existiam antes.
Profissionais de Ciência de Dados são fundamentais nestes casos. Organizações de pequeno ou até mesmo médio porte não necessitam de uma equipe extensa de profissionais. Uma metodologia ajustada e um bom software pode ajudar o Cientista de Dados a fornecer informações para a tomada de decisão.
É fundamental um programa de Governança de Dados para manter a empresa competitiva. Como o tempo, a qualidade dos dados pode deteriorar caso não se tenha uma política de evolução dos sistemas e principalmente da coleta dos dados e seleção de novas fontes.
Os dados de baixa qualidade podem levar os gestores a decisões ruins. A qualidade dos dados está diretamente ligada a eficácia nas decisões estratégicas.
Para escrever este post eu li as seguintes referências:
DELONE, W. H.; MCLEAN, E. R. Information Systems Success: The Quest for the Dependent Variable. Information Systems Research, v. 3, n. 1, p. 60–95, 1992.
DUTRA, F. G.; BARBOSA, R. R. Modelos e critérios para avaliação da qualidade de fontes de informação: 2017.
GARVIN, D. A. (1987). Competing on the eight dimensions of quality. Harvard Business Review, (Novembro-Dezembro), pp. 101-109.
LEE, Y. W. (ED.). Journey to data quality. Cambridge, Mass: MIT Press, 2006.
MORTON, M. (1989). Management in the 1990s: Research Program Final Report. 1989
ROCKART, J. F. & SHORT, J. E. (1989). IT in the 1990s: Managing Organizational Interdependence. Sloan Management Review, Sloan School of Management, MIT, 22(2), pp. 7-17.
SENGUPTA, D.; GURTOO, A. Identifying Data Quality Dimensions. [s.d.].
WANG, R. Y.; STRONG, D. M. Beyond Accuracy: What Data Quality Means to Data Consumers. Journal of Management Information Systems, v. 12, n. 4, p. 5–33, 1996.
Sobre o autor
- Sólida experiência em Metodologias Ágeis e Engenharia de Software, com mais de 15 anos atuando como professor de Scrum e Kanban. No Governo do Estado do Espírito Santo, gerenciou uma variedade de projetos, tanto na área de TI, como em outros setores. Sou cientista de dados formado pela USP e atualmente estou profundamente envolvido na área de dados, desempenhando o papel de DPO (Data Protection Officer) no Governo.
Últimos Posts
- Outros Temas4 de setembro de 2024RMC – ROPA Model Canvas
- Outros Temas28 de agosto de 2024Adequação à LGPD e os desafios do Encarregado Interno
- IT1 de julho de 2024Event Storming nella pratica – Post 1
- Engenharia de Software18 de junho de 2024Event Storming na prática – Post 1
Deixe uma resposta
Want to join the discussion?Feel free to contribute!