Use este identificador para citar ou linkar para este item: http://repositorio.ufes.br/handle/10/11013
Título: CRF+LG : uma abordagem híbrida para o reconhecimento de entidades nomeadas em português
Autor(es): Pirovani, Juliana Pinheiro Campos
Orientador: Oliveira, Elias Silva de
Data do documento: 7-Fev-2019
Editor: Universidade Federal do Espírito Santo
Resumo: O Reconhecimento de Entidades Nomeadas tem como objetivo identificar e classificar automaticamente entidades como pessoas, locais e organizações e é uma tarefa muito importante em Extração de Informação. As abordagens utilizadas no desenvolvimento de sistemas de Reconhecimento de Entidades Nomeadas são: linguística, aprendizado de máquina ou híbrida. Este trabalho propõe o uso de uma abordagem híbrida, denominada CRF+LG, para o Reconhecimento de Entidades Nomeadas em textos em Português buscando explorar as vantagens das abordagens linguística e de aprendizado de máquina. A abordagem proposta usa Campos Aleatórios Condicionais considerando a classificação obtida previamente por uma Gramática Local como uma característica adicional. Campos Aleatórios Condicionais é um método probabilístico para predição estruturada. Gramáticas locais são regras construídas manualmente para identificar expressões em um texto. O objetivo foi estudar essa forma de incluir a expertise humana (Gramática Local) na abordagem de aprendizado de máquina Campos Aleatórios Condicionais e analisar como ela pode contribuir para o desempenho dessa abordagem. Para alcançar esse objetivo, uma Gramática Local foi construída para reconhecer as 10 categorias de entidades nomeadas do HAREM, um evento de avaliação conjunta para o Reconhecimento de Entidades Nomeadas em Português. Inicialmente, as Coleções Douradas do Primeiro e Segundo HAREM, consideradas bases de referência para essa tarefa em Português, foram utilizadas como bases de treino e teste respectivamente para avaliação do CRF+LG. Posteriormente, a abordagem proposta foi avaliada em outras duas bases de dados. Os resultados obtidos superam os resultados de sistemas reportados na literatura que foram avaliados em condições equivalentes. Esse ganho foi de aproximadamente 8% em Medida-F em relação a um sistema que também usou CRF e de 2% em relação a um sistema que usou Redes Neurais. Alguns sistemas que usaram Redes Neurais apresentam resultados superiores para as métricas, mas usando corpora massivo para aprendizado não supervisionado de características, o que não foi utilizado neste trabalho. A Gramática Local construída pode ser utilizada individualmente quando não há corpus de treino disponível e em conjunto com outras técnicas de aprendizado de máquina para melhorar o seu desempenho. Também foram analisados os limites (inferior e superior) da abordagem proposta. O limite superior indica o ganho máximo que pode ser obtido para a tarefa em questão ao usar esta abordagem.
Named Entity Recognition involves automatically identifying and classifying entities such as persons, places, and organizations, and it is a very important task in Information Extraction. Named Entity Recognition systems can be developed using the following approaches: linguistics, machine learning or hybrid. This work proposes the use of a hybrid approach, called CRF+LG, for Named Entity Recognition in Portuguese texts in order to explore the advantages of both linguistics and machine learning approaches. The proposed approach uses Conditional Random Fields (CRF) considering the term classification obtained by a Local Grammar (LG) as an additional informed feature. Conditional Random Fields is a probabilistic method for structured prediction. Local grammars are handmade rules to identify expressions within the text. The aim was to study this way of including the human expertise (Local Grammar) in the machine learning Conditional Random Fields approach and to analyze how it can contribute to the performance of this approach. To achieve this aim, a Local Grammar was built to recognize the 10 named entities categories of HAREM, a joint assessment for the Named Entity Recognition in Portuguese. Initially, the Golden Collection of the First and Second HAREM, considered as a reference for Named Entity Recognition systems in Portuguese, were used as training and test sets, respectively, for evaluation of the CRF+LG. After that, the proposed approach was evaluated in two other datasets. The results obtained outperform the results of systems reported in the literature that were evaluated under equivalent conditions. This gain was approximately 8 percentage points in F-measure in comparison to a system that also used CRF and 2 points in comparison to a system that used Neural Networks. Some systems that used Neural Networks presented superior results, but using massive corpora for unsupervised learning of features, which was not the case of this work. The Local Grammar built can be used individually when there is no training set available and in conjunction with other machine learning techniques to improve its performance. We also analyzed the boundaries (lower bound and upper bound) of the proposed approach. The lower bound indicates the minimum performance and the upper bound indicates the maximum gain that we can achieve for the task in question when using this approach.
URI: http://repositorio.ufes.br/handle/10/11013
Aparece nas coleções:PPGI - Teses de doutorado

Arquivos associados a este item:
Arquivo TamanhoFormato 
tese_12948_Tese-Juliana.pdf1.53 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.