Use este identificador para citar ou linkar para este item: http://hdl.handle.net/1843/ECID-8B3Q6C
Tipo: Tese de Doutorado
Título: Processamento de linguagem natural: caracterizacao da produção científica dos pesquisadores brasileiros
Autor(es): Ana Paula Ladeira
Primeiro Orientador: Lidia Alvarenga
Primeiro membro da banca : Marisa Brascher Basílio Medeiros
Segundo membro da banca: Ana Maria Rezende Cabral
Terceiro membro da banca: Beatriz Valadares Cendon
Quarto membro da banca: Marlene de Oliveira
Quinto membro da banca: Renato Rocha Souza
Resumo: Sinais evidentes de contribuições de grandes campos disciplinares marcaram e têm influenciado fortemente as pesquisas na área de processamento de linguagem natural (PLN), dentre eles a ciência da computação, a ciência da informação e a linguística. Sendo assim, a presente tese pretendeu utilizar o conhecimento acumulado ao longo dos últimos 40 anos em PLN e revelado no ARIST, como referência para selecionar e analisar a produção científica da comunidade acadêmica nacional da área. As publicações nacionais foram coletadasautomaticamente da Plataforma Lattes, e um instrumento de seleção automática foi construído a partir da análise de assunto dos artigos de revisão do ARIST. Este instrumento foi utilizado para selecionar, de maneira automática, as publicações nacionais atinentes para a área de PLN. Dentre as 621 publicações consideradas da área, definiu-se o material empírico, constituído por uma amostra de 68 trabalhos, que foi submetido à análise de conteúdo. Essa análise permitiu elucidar as temáticas discutidas pela comunidade científica nacional. Ao analisar todas as publicações atinentes para a área de PLN, observou-se que a grande maioria da produção científica foi publicada depois do ano 2.000. Além disso, a participação da ciência da informação tem sido muito modesta, sendo que a ciência da computação e a linguística foram responsáveis por quase 85% da produção nacional. Doze pesquisadores foram responsáveis por mais de 20% de toda a produção nacional, sendo que dentre eles, nove são da ciência da computação, dois da linguística, e um é da engenharia elétrica. Além disso, vale destacar que dentre esses doze pesquisadores, sete fazem parte do grupo de pesquisa NILC. Dentre as problemáticas mais discutidas, foi possível observar que: a tradução foi intensamente abordada na década de 90; os estudos com indexação diminuíram apartir da década de 80; e que as pesquisas sobre classificação passaram por um período de dormência na década de 90; e que existe uma tendência clara na área de PLN de desenvolvimento de pesquisas em sumarização automática. Outro aspecto que a pesquisa revelou foi que a ciência da informação tem priorizado as pesquisas em indexação automática, seguido da análise de conteúdo, enquanto que a ciência da computação tem priorizado as pesquisas em tradução e sumarização. A análise de conteúdo realizada nas 68 publicações selecionadaspermitiu revelou que a recuperação de informação foi a problemática que teve maior destaque na produção científica nacional. Dos trabalhos analisados sobre sumarização, observou-se que somente dois usaram a abordagem profunda e produziram sumários, e que a maioria das pesquisas em sumarização automática tem privilegiado a abordagemempírica (para gerar extratos). As pesquisas em tradução automática têm utilizados métodos estatísticos e regras de transferências, com resultados muito próximos. Apesar das pesquisas em PLN estarem ocorrendo em campos disciplinares diferentes da ciência da informação, os estudos realizados precisam ser conhecidos, pois esta última pode se beneficiar das ferramentas computacionais desenvolvidas, aplicando-as em processos clássicos inerentes ao campo, tais como catalogação, recuperação e representação de informação.
Abstract: Natural language processing researchs (NLP) has being made by researchers from areas as computer science, information science and linguistics. This thesis aims to use the knowledge accumulated over the past 40 years in NLP and published in ARIST, as a reference to select and to analyze the scientific production of the Brazilian academic community in the area. Brazilian publications about NLP were collected automatically from Lattes database (http://lattes.cnpq.br/). The tool forautomatic selection of NLP publications from Brazilian Lattes database was built by analyzing the subject of review articles of ARIST. A total of 621 publications were automatically related to NLP area and were retrieved from Lattes database. A randomly sample of 68 papers from this total was submitted to content analysis. This analysis allowed identifying the main issues about NLP discussed by the Brazilian scientific community. We observed that the majority of Brazilian publications were published after the year 2000. Moreover, the participation of information science hasbeen very modest in NLP publication. However, computer science and linguistics were responsible for almost 85% of Brazilian production. Twelve investigators were responsible for more than 20% of all Brazilian production, and among them, nine were from computer science, two from linguistics, and one from electrical engineering. Besides, it is noteworthy that among the twelve main researchers, seven were part of just one research group that works with computational linguistics, the NILC - Núcleo Interinstitucional de Lingüística Computacional (http://nilc.icmc.sc.usp.br/). Among the most discussed issues, we observed the following: translation was discussed intensively in the 90's, indexing studies decreased after the 80's, studies about classification became inactive during the 90s, and there is a clear trend in the area of NLP to develop automatic summarization. Another aspect revealed by the analysis was that information science has focused mainly on automatic indexing and content analysis, while computer science has focused primarily on automatic translation and summarization. The content analysis performed on 68 sample publications showed that retrieval information was the issue most prominent in Brazilian scientific production. Only two papers that worked with summarization used a deep approach to produce summaries. The most research in automatic summarization emphasized on empirical approach to generate extracts.Researches on automatic translation using statistical methods and transfers rules obtained very similar results. Brazilian studies on NLP involve different disciplines from information science. These studies should to be well known by the researchers from information science whose can benefit from the computational tools developed that can be applied in classical processes such as cataloging, information representation and retrieval.
Assunto: Recuperação da informação
Ciência da informação
Processamento da linguagem natural (Computação)
Idioma: Português
Editor: Universidade Federal de Minas Gerais
Sigla da Instituição: UFMG
Tipo de Acesso: Acesso Aberto
URI: http://hdl.handle.net/1843/ECID-8B3Q6C
Data do documento: 5-Nov-2010
Aparece nas coleções:Teses de Doutorado

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
tese_anapaulaladeira_cd.pdf13.3 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.