Apresentação de Projeto de Pesquisa
Universidade Federal de Ouro Preto
Rua Padre Rolim, 661, São Cristóvão., Ouro Preto, MG 35400-000
Transformar esses dados em informações úteis, novas, válidas e compreensíveis apresenta novos desafios para os pesquisadores. Dado que essa tarefa não é trivial, estratégias automatizadas são necessárias para a análise dos dados. Nesse contexto, o processo de Descoberta de Conhecimento em Bancos de Dados (KDD) é frequentemente adotado, sendo composto por três etapas principais: pré-processamento de dados, mineração de dados e avaliação de resultados.
No pré-processamento de dados, a Seleção de Atributos (S.A) é uma etapa crucial que visa identificar o máximo possível de atributos relevantes, com o objetivo de melhorar o desempenho das técnicas de mineração de dados. Os principais benefícios da seleção de atributos incluem a melhoria da capacidade preditiva dos classificadores e a redução do tempo de execução dos processos de classificação.
Entre as tarefas de mineração de dados, a classificação é uma das mais destacadas pela comunidade científica. A classificação visa prever o(s) rótulo(s) de classe de um objeto com base em seus atributos. Diversos tipos de problemas de classificação são encontrados na literatura, cada um com seu próprio nível de complexidade. Nos problemas de classificação plana, cada exemplo do conjunto de dados é atribuído a uma ou mais classes que não possuem relações hierárquicas entre si. Em contraste, problemas de classificação hierárquica envolvem classes organizadas naturalmente em hierarquias, representadas por uma árvore ou um Grafo Dirigido Acíclico (GDA).
Em problemas de classificação hierárquica, diferentes abordagens são empregadas para lidar com a hierarquia de classes. Nos modelos de abordagem local, a classificação é realizada utilizando um conjunto de classificadores planos. Já nos modelos de abordagem global, um único classificador é projetado para considerar a hierarquia de classes como um todo. Além disso, os métodos de classificação hierárquica podem prever diferentes caminhos de rótulos dentro da hierarquia [@Cerri2010]. Alguns métodos são restritos a prever apenas um único caminho de rótulos (SL), enquanto outros podem prever vários caminhos de rótulos (ML).