Use este identificador para citar ou linkar para este item: http://repositorio.ufes.br/handle/10/6393
Registro completo de metadados
Campo DCValorIdioma
dc.contributor.advisorGonçalves, Claudine Santos Badue-
dc.date.accessioned2016-12-23T14:33:42Z-
dc.date.available2011-03-24-
dc.date.available2016-12-23T14:33:42Z-
dc.identifier.citationSOUZA, Caribe Zampirolli de. Medida de certeza na categorização multi-rótulo de texto e sua utilização como estratégia de poda do ranking de categorias. 2010. 173 f. Dissertação (Mestrado em Informática) - Programa de Pós-Graduação em Informática, Universidade Federal do Espírito Santo, Vitória, 2010.por
dc.identifier.urihttp://repositorio.ufes.br/handle/10/6393-
dc.publisherUniversidade Federal do Espírito Santopor
dc.rightsopen accesseng
dc.titleMedida de certeza na categorização multi-rótulo de texto e sua utilização como estratégia de poda do ranking de categoriaspor
dc.typemasterThesiseng
dc.subject.udc004-
dc.subject.br-rjbnTeoria bayesiana de decisão estatísticapor
dc.subject.br-rjbnRecuperação da informaçãopor
dcterms.abstractDado um documento de entrada, um sistema de categorização multi-rótulo de texto tipicamente computa graus de crença para as categorias de um conjunto pré-definido, ordena as categorias por grau de crença, e atribui ao documento as categorias com grau de crença superior a um determinado limiar de poda. Idealmente, o grau de crença deveria informar a probabilidade do documento de fato pertencer à categoria. Infelizmente, ainda não existem categorizadores que computam tais probabilidades e mapear graus de crença em probabilidades é um problema ainda pouco explorado na área de RI. Neste trabalho, propomos um método baseado na regra de Bayes para mapear graus de crença em medidas de certeza de categorização multi-rótulo de texto. Propomos também uma estratégia para determinar limiares de poda baseada na medida de certeza de categorização - bayesian cut (BCut) - e uma variante para BCut - position based bayesian CUT (PBCut). Avaliamos experimentalmente o impacto dos métodos propostos no desempenho de duas técnicas de categorização multi-rótulo de texto, k-vizinhos mais próximos multi-rótulo (MLkNN) e rede neural sem peso do tipo VG-RAM com correlação de dados (VG-RAM WNNCOR), no contexto da categorização de descrições de atividades econômicas de empresas brasileiras segundo a Classificação Nacional de Atividades Econômicas (CNAE). Investigamos também o impacto no desempenho de categorização multi-rótulo de texto de três métodos de poda comumente usados na literatura de RI - RCut, PCut, e SCut e uma variante de RCut - RTCut. Além disso, propomos novas variantes para PCut e SCut PCut* e SCut*, respectivamente para tratar problemas existentes nestas abordagens. Nossos resultados experimentais mostram que, usando nosso método de geração de medidas de certeza de categorização, é possível prever o quão certo está o categorizador de que as ategorias por ele preditas são de fato pertinentes para um dado documento. Nossos resultados mostram também que o uso de nossas estratégias de poda BCut e PBCut produz desempenho de categorização superior ao de todas as outras estratégias consideradas em termos de precisão.por
dcterms.abstractA multi-label text categorization system typically computes degrees of belief when it comes to the categories of a pre-defined set, orders the categories by degree of belief, and attributes to the document categories with a higher degree of belief to determined threshold cut. It would be ideal if the degree of belief could inform the probability of the document be part of this category. Unfortunately, there isn t a categorization system that computes such probabilities and to map degrees of belief in probabilities is still a problem that isn`t well explored in IR. In this paper we propose a method based on Bayes rules to map degrees of belief in terms of multi-label text measures of categorization. There are other contributions in this work such as an strategy to determine the limits of threshold cut based on bayesian cut (BCut) and a variant for PBCut (position based bayesian CUT ). As an experience, we evaluated the impact of the proposed methods when performing the two techniques of the multi-label text categorization. The first technique is called knearest neighbor multi-label (ML-KNN) and the second technique is called VG-RAM weightless Neural Networks. Theses evaluations were made in the context of the categorization of economic activities description of Brazilian enterprises, according to the Economic Activities Classification in Brazil (CNAE). In this work we also investigated the impact in the performance of multi-label text categorization of the three cut methods commonly used in the IR literature: RCut, PCut, SCut and RTCut. Moreover, we propose a new variant for the so called PCut* and a new variant for SCut*. Finally, this work shows that the cut approach proposed, BCut and PBCut, produces a categorization performance superior to the other strategies presented in the literature of IR.eng
dcterms.creatorSouza, Caribe Zampirolli de-
dcterms.formatTexteng
dcterms.issued2010-08-27-
dcterms.languageporpor
dc.publisher.countryBRpor
dc.publisher.programPrograma de Pós-Graduação em Informáticapor
dc.publisher.initialsUFESpor
dc.subject.cnpqCiência da Computaçãopor
dc.publisher.courseMestrado em Informáticapor
dc.contributor.refereeOliveira, Elias Silva de-
dc.contributor.refereeMeira Junior, Wagner-
dc.contributor.advisor-coSouza, Alberto Ferreira de-
Aparece nas coleções:PPGI - Dissertações de mestrado

Arquivos associados a este item:
Arquivo TamanhoFormato 
Dissertacao de Caribe Zampirolli de Souza.pdf1.19 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.