Use este identificador para citar ou linkar para este item: http://repositorio.ufes.br/handle/10/4070
Título: Efeito do ranking sobre métricas de categorização multi-rótulo de texto
Autor(es): Melotti, Bruno Zanetti
Orientador: Souza, Alberto Ferreira de
Data do documento: 27-Nov-2009
Editor: Universidade Federal do Espírito Santo
Resumo: Dado um documento para categorização, um sistema de categorização multi-rótulo de texto tipicamente ordena um conjunto de categorias pré-definido, de acordo com a adequação delas ao documento, e seleciona as categorias do topo do ranking como o conjunto de categorias do documento. Empates no ranking eventualmente existentes podem ser tratados de diferentes maneiras, mas, muito embora isso possa afetar as métricas utilizadas para avaliar o desempenho dos categorizadores multi-rótulo de texto, este problema parece ter sido pouco estudado na literatura. Neste trabalho, analisamos o impacto de diferentes tipos de ranking sobre diversas métricas de avaliação de desempenho de categorizadores multi-rótulo de texto, a saber: one-error, coverage, ranking loss, average precision, R-precision, Hamming loss, exact match, precision, recall, e 1 F . Para isso, reformulamos sua definição de modo a considerar empates de acordo com o tipo de ranking empregado. Utilizamo-las então para avaliar o desempenho das técnicas de categorização multi-rótulo de texto k -vizinhos mais próximos ( k NN), k -vizinhos mais próximos multi-rótulo (ML- k NN), rede neural sem peso do tipo VG-RAM (VG-RAM WNN) e VG-RAM com correlação de dados (VG-RAM WNNCOR) na categorização de duas bases multi-rótulo de texto com grande número de categorias (105 e 692 categorias). Descobrimos que, dependendo do tipo de ranking empregado, os resultados de desempenho são significativamente diferentes para muitas das métricas analisadas, o que sugere que o tipo de ranking deve ser claramente indicado na avaliação de técnicas de categorização multi-rótulo de texto.
A multi-label text categorization system typically ranks a set of predefined labels according to their appropriateness to a given document and then selects the top ranking labels as the document’s label set. Ties occurring in the ranking can be broken in many different ways but, although this may affect the metrics used to evaluate the multi-label text categorizer, the issue seems to have been little addressed in the literature. In this paper, we analyze the impact of different ranking methods on ten multi-label text categorization performance metrics: one-error, coverage, ranking loss, average precision, R-precision, Hamming loss, exact match, precision, recall, and F1. To this end, we first reformulate some of the metrics in order for ties to be taken into account. We then use them to evaluate the performance of three multi-label text categorization techniques, k -nearest neighbors ( k NN), multi label k -nearest neighbors (ML- k NN), virtual generalizing random access memory weightless neural networks (VG-RAM WNN) and VG-RAM Data Correlation (VG-RAM WNN-COR), on the categorization of two multi-label text databases with large numbers of labels (105 and 692 categories). We have found that, depending on the method adopted for ranking, the performance results are significantly different for many of the metrics in question, which suggests that the particular ranking method one uses should always be indicated clearly whenever evaluating multi-label text categorization techniques.
URI: http://repositorio.ufes.br/handle/10/4070
Aparece nas coleções:PPGEE - Dissertações de mestrado

Arquivos associados a este item:
Arquivo TamanhoFormato 
tese_2759_DissertacaoMestradoBrunoZanettiMelotti.pdf1.25 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.