Análise da qualidade dos dados do Sistema Nacional de Informações da Educação Profissional e Tecnológica do Instituto Federal de Brasília

dc.contributor.advisorOliveira, Fábio Henrique Monteiro
dc.contributor.advisorIDhttps://orcid.org/0000-0002-0344-5801
dc.contributor.advisorLatteshttp://lattes.cnpq.br/4841327829896452
dc.contributor.authorSilva, Nínive Helen Horácio da
dc.date.accessioned2025-11-22T13:22:32Z
dc.date.available2025-11-22T13:22:32Z
dc.date.defense2025
dc.description.abstractO Conjunto de dados maior e mais complexo (Big Data) está presente em diversos setores públicos e privados, onde grandes volumes de dados são armazenados e usados para apoiar a tomada de decisões. Manter a qualidade e a integridade desses dados é um desafio, pois eles precisam seguir regras de negócio específicas para garantir que as informações sejam confiáveis. Segundo o grupo Total Data Quality Management do MIT, liderado pelo professor Richard Y. Wang, a qualidade dos dados é definida como “adequação para o uso”, considerando dimensões como exatidão, completude, integridade, unicidade, consistência, entre outras. No Brasil, o Sistema Nacional de Informações da Educação Profissional e Tecnológica (Sistec) coleta e armazena dados sobre cursos técnicos e tecnológicos. Este trabalho teve como objetivo validar os dados de matrículas do Sistec referentes ao Instituto Federal de Brasília (IFB), verificando se estão em conformidade com as regras de negócio e analisando a qualidade dos dados por meio de métricas específicas. Para isso, foram desenvolvidos scripts em Python que aplicaram as validações e mensuraram as dimensões da qualidade dos dados. Os resultados mostraram que, embora algumas dimensões apresentem boa qualidade, a consistência dos dados precisa ser melhorada, pois concentra a maioria das inconsistências. Após a análise, são sugeridas correções para reduzir as irregularidades nos dados, o que pode aumentar a qualidade das informações extraídas e evitar perdas causadas pela má qualidade.
dc.description.abstractenLarger and more complex datasets (Big Data) are present across various public and private sectors, where vast volumes of data are stored and used to support decision-making. Ensuring the quality and integrity of this data is a challenge, as it must follow specific business rules to ensure the reliability of the information. According to the Total Data Quality Management group at the Massachusetts Institute of Technology (MIT), led by Professor Richard Y. Wang, data quality is defined as “fitness for use,” considering dimensions such as accuracy, completeness, integrity, uniqueness, consistency, among others. In Brazil, the Sistema Nacional de Informações da Educação Profissional e Tecnológica (National System of Information on Professional and Technological Education – Sistec) collects and stores data on technical and technological courses. This study aimed to validate enrollment data from Sistec related to the Instituto Federal de Brasília (Federal Institute of Brasília – IFB), verifying their compliance with business rules and analyzing data quality through specific metrics. To achieve this, Python scripts were developed to apply validations and measure data quality dimensions. The results showed that, although some dimensions demonstrated good quality, data consistency needs improvement, as it concentrates most of the inconsistencies. Based on the analysis, corrections are suggested to reduce data irregularities, which may improve the quality of extracted information and help prevent losses caused by poor data quality.
dc.identifier.citationSilva, Nínive Helen Horário da. Análise da qualidade dos dados do Sistema Nacional de Informações da Educação Profissional e Tecnológica do Instituto Federal de Brasília. 2025. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Campus Taguatinga, Instituto Federal de Brasília. 2025.
dc.identifier.urihttps://repositorio.ifb.edu.br/handle/1/2049
dc.language.isoPortuguês (Brasil)
dc.publisherInstituto Federal de Brasília
dc.publisher.campusCampus Taguatinga
dc.publisher.countryBrasil
dc.publisher.initialsIFB
dc.publisher.programBacharelado em Ciência da Computação
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazilen
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/
dc.subjectBig data
dc.subjectGovernança de dados
dc.subjectQualidade de dados
dc.subjectAnálise de qualidade de dados
dc.subjectSistec
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.titleAnálise da qualidade dos dados do Sistema Nacional de Informações da Educação Profissional e Tecnológica do Instituto Federal de Brasília
dc.typebachelor thesis
dc.type.brTrabalho de Conclusão de Curso

Arquivo(s)

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
TCC- Nínive Helen Horácio da Silva.pdf
Tamanho:
13.82 MB
Formato:
Adobe Portable Document Format

Licença do Pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
1.62 KB
Formato:
Item-specific license agreed to upon submission
Descrição:

Coleções