Análise da qualidade dos dados do Sistema Nacional de Informações da Educação Profissional e Tecnológica do Instituto Federal de Brasília
| dc.contributor.advisor | Oliveira, Fábio Henrique Monteiro | |
| dc.contributor.advisorID | https://orcid.org/0000-0002-0344-5801 | |
| dc.contributor.advisorLattes | http://lattes.cnpq.br/4841327829896452 | |
| dc.contributor.author | Silva, Nínive Helen Horácio da | |
| dc.date.accessioned | 2025-11-22T13:22:32Z | |
| dc.date.available | 2025-11-22T13:22:32Z | |
| dc.date.defense | 2025 | |
| dc.description.abstract | O Conjunto de dados maior e mais complexo (Big Data) está presente em diversos setores públicos e privados, onde grandes volumes de dados são armazenados e usados para apoiar a tomada de decisões. Manter a qualidade e a integridade desses dados é um desafio, pois eles precisam seguir regras de negócio específicas para garantir que as informações sejam confiáveis. Segundo o grupo Total Data Quality Management do MIT, liderado pelo professor Richard Y. Wang, a qualidade dos dados é definida como “adequação para o uso”, considerando dimensões como exatidão, completude, integridade, unicidade, consistência, entre outras. No Brasil, o Sistema Nacional de Informações da Educação Profissional e Tecnológica (Sistec) coleta e armazena dados sobre cursos técnicos e tecnológicos. Este trabalho teve como objetivo validar os dados de matrículas do Sistec referentes ao Instituto Federal de Brasília (IFB), verificando se estão em conformidade com as regras de negócio e analisando a qualidade dos dados por meio de métricas específicas. Para isso, foram desenvolvidos scripts em Python que aplicaram as validações e mensuraram as dimensões da qualidade dos dados. Os resultados mostraram que, embora algumas dimensões apresentem boa qualidade, a consistência dos dados precisa ser melhorada, pois concentra a maioria das inconsistências. Após a análise, são sugeridas correções para reduzir as irregularidades nos dados, o que pode aumentar a qualidade das informações extraídas e evitar perdas causadas pela má qualidade. | |
| dc.description.abstracten | Larger and more complex datasets (Big Data) are present across various public and private sectors, where vast volumes of data are stored and used to support decision-making. Ensuring the quality and integrity of this data is a challenge, as it must follow specific business rules to ensure the reliability of the information. According to the Total Data Quality Management group at the Massachusetts Institute of Technology (MIT), led by Professor Richard Y. Wang, data quality is defined as “fitness for use,” considering dimensions such as accuracy, completeness, integrity, uniqueness, consistency, among others. In Brazil, the Sistema Nacional de Informações da Educação Profissional e Tecnológica (National System of Information on Professional and Technological Education – Sistec) collects and stores data on technical and technological courses. This study aimed to validate enrollment data from Sistec related to the Instituto Federal de Brasília (Federal Institute of Brasília – IFB), verifying their compliance with business rules and analyzing data quality through specific metrics. To achieve this, Python scripts were developed to apply validations and measure data quality dimensions. The results showed that, although some dimensions demonstrated good quality, data consistency needs improvement, as it concentrates most of the inconsistencies. Based on the analysis, corrections are suggested to reduce data irregularities, which may improve the quality of extracted information and help prevent losses caused by poor data quality. | |
| dc.identifier.citation | Silva, Nínive Helen Horário da. Análise da qualidade dos dados do Sistema Nacional de Informações da Educação Profissional e Tecnológica do Instituto Federal de Brasília. 2025. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Campus Taguatinga, Instituto Federal de Brasília. 2025. | |
| dc.identifier.uri | https://repositorio.ifb.edu.br/handle/1/2049 | |
| dc.language.iso | Português (Brasil) | |
| dc.publisher | Instituto Federal de Brasília | |
| dc.publisher.campus | Campus Taguatinga | |
| dc.publisher.country | Brasil | |
| dc.publisher.initials | IFB | |
| dc.publisher.program | Bacharelado em Ciência da Computação | |
| dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Brazil | en |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | |
| dc.subject | Big data | |
| dc.subject | Governança de dados | |
| dc.subject | Qualidade de dados | |
| dc.subject | Análise de qualidade de dados | |
| dc.subject | Sistec | |
| dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO | |
| dc.title | Análise da qualidade dos dados do Sistema Nacional de Informações da Educação Profissional e Tecnológica do Instituto Federal de Brasília | |
| dc.type | bachelor thesis | |
| dc.type.br | Trabalho de Conclusão de Curso |

