Projeto de sistemas de recuperação de informação corporativa: uma abordagem de análise de domínio baseada na análise facetada

Leonardo Lacerda Alves

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/BUOS-9V4N6D

Full metadata record

DC Field	Value	Language
dc.contributor.advisor1	Gercina Angela Borem de Oliveira Lima	pt_BR
dc.contributor.referee1	Ivo Pierozzi Júnior	pt_BR
dc.contributor.referee2	Wladmir Cardoso Brandão	pt_BR
dc.contributor.referee3	Renata Maria Abrantes Baracho Porto	pt_BR
dc.contributor.referee4	Mauricio Barcellos Almeida	pt_BR
dc.creator	Leonardo Lacerda Alves	pt_BR
dc.date.accessioned	2019-08-13T03:05:18Z	-
dc.date.available	2019-08-13T03:05:18Z	-
dc.date.issued	2014-11-21	pt_BR
dc.identifier.uri	http://hdl.handle.net/1843/BUOS-9V4N6D	-
dc.description.abstract	We hypothesise that information organisation based on faceted classification is useful to improve enterprise information retrieval systems. The existence of similar facets in documents from different companies and the known adaptability of facet organisation strengthen this hypothesis. We refer this work to the automated classification and indexing on large amounts of text files. This work is descriptive, applied, and experimental. It aimed to expose the main characteristics of the enterprise information, proposing a tentative generalisation to the enterprise domain and presenting some facets we can use to organise it and to support better information retrieval. It applied facet analysis to two enterprise collections and evaluated the resulting faceted classification. Terms were selected from documents and queries. We found twelve common categories and the distribution of document subjects across the categories presents strong positive correlation by the Spearmans rank correlation. Then, we obtained ten user queries and we adopted them to validate the found categories. We also used the Enterprise track of Text Retrieval Conference and its previous results as a Cranfield-like evaluation. The automated prototype used spatial, temporal, document and social characteristics. Thus, our empirical evaluation improved the information retrieval with no external dependency like Wikipedia or metasearch engines. The facet analysis was useful for comparing the companies with no desire to expose their information. The method can guide and stimulate future work and other companies can become more willing to take part in a research study.	pt_BR
dc.description.resumo	Organização de informação usando classificação facetada é útil para melhorar a indexação de documentos e a construção de sistemas de recuperação de informação corporativa. Essa hipótese baseia-se na evidência de facetas comuns a documentos de diferentes empresas e na flexibilidade da organização facetada. Entretanto, a classificação e indexação automáticas de um grande volume de documentos representam importantes obstáculos e nossa principal motivação. A pesquisa é descritiva, aplicada e experimental e tenta responder sobre a existência de características comuns a documentos do domínio corporativo e a possibilidade de indexação facetada automática. Duas coleções são usadas para avaliação, uma pública e outra particular. Os termos usados por autores de documentos foram obtidos através de documentos e expressões de busca. Foi empreendida uma análise preliminar do domínio corporativo, pela qual foram descobertas 12 categorias comuns e facetas úteis para o contexto de cada coleção de avaliação. A distribuição de assuntos em categorias apresentou alta correlação positiva usando o coeficiente de correlação de Spearman. Dez expressões de busca de usuários foram avaliadas no contexto da coleção particular e validaram as 12 categorias comuns. A avaliação empírica da trilha Enterprise da Text Retrieval Conference foi executada e os métodos de indexação, classificação e recuperação automáticos de informação facetada melhoraram a eficiência da recuperação sem fazer uso de serviços externos, como Wikipedia e metabuscadores, e sem fazer uso de estruturas hipertextuais presentes nos documentos da amostra. A avaliação empírica utilizou-se principalmente das características espaciais, temporais, de documento e de pessoal. A técnica de análise facetada mostrou-se promissora para os métodos de análise e comparação de coleções corporativas sem que dados puros sejam expostos a terceiros. A tese aponta direções de pesquisa para o uso dos métodos em outras coleções, para aperfeiçoamentos da organização da informação facetada, e para novas aplicações dos métodos também em outros domínios.	pt_BR
dc.language	Português	pt_BR
dc.publisher	Universidade Federal de Minas Gerais	pt_BR
dc.publisher.initials	UFMG	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Análise facetada	pt_BR
dc.subject	Recuperação de informação	pt_BR
dc.subject	Informação corporativa	pt_BR
dc.subject	Análise de domínio	pt_BR
dc.subject.other	Classificação facetada	pt_BR
dc.subject.other	Ciência da Informação	pt_BR
dc.subject.other	Organização da informação	pt_BR
dc.subject.other	Sistemas de recuperação da informação	pt_BR
dc.title	Projeto de sistemas de recuperação de informação corporativa: uma abordagem de análise de domínio baseada na análise facetada	pt_BR
dc.type	Tese de Doutorado	pt_BR
Appears in Collections:	Teses de Doutorado

Files in This Item:

File	Description	Size	Format
tese.pdf		2.1 MB	Adobe PDF	View/Open

Show simple item record