Ambiente para geração e manutenção semiautomática de tesauros
Carregando...
Data
Autor(es)
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Minas Gerais
Descrição
Tipo
Tese de doutorado
Título alternativo
Primeiro orientador
Membros da banca
Beatriz Valadares Cendon
Eduardo Jose Wense Dias
Gercina Angela Borem de Oliveira Lima
Renato Rocha Souza
Ligia Maria Arruda Café
Eduardo Jose Wense Dias
Gercina Angela Borem de Oliveira Lima
Renato Rocha Souza
Ligia Maria Arruda Café
Resumo
Entre as diversas formas de representação da informação utilizadas por Sistemas de Recuperação de Informação encontram-se os tesauros, que se constituem em uma linguagem de indexação consolidada e empregada por profissionais que exercem atividades de organização da informação. A flexibilidade para o estabelecimento de novas relações entre termos, as hierarquias e as referências cruzadas conferem ao instrumento uma multiplicidade de usos, abrangendo processos que vão desde a indexação até a efetiva recuperação dos documentos. A elaboração e manutenção de tesauros são atividades intelectuais com procedimentos específicos, entre eles o conhecimento de documentos produzidos na área, o entendimento dos termos empregados e a construção de conceitos para explicação dessestermos. Do profissional envolvido espera-se uma atitude flexível paraincorporar as mudanças e inovações que surgem na área, na próprialinguagem e no emprego de termos. Este trabalho objetivou a construção de uma metodologia e um ambiente para a geração e manutenção de tesauros de forma semi-automatizada, através da utilização da linguagem natural e com base em tecnologias da Ciência da Computação e nos fundamentos teóricos da Ciência da Informação; mais especificamente, através dos conceitos ordenadores da garantia literária, da garantia de uso e da garantia estrutural, incorporando-se a essas a proposta da garantia advinda da própria estrutura do texto. O ambiente possibilitou a verificação da atualidade e do potencial representativo do tesauro. Partiu-se da hipótese de que palavras-chavesrecolhidas de artigos científicos poderiam ser aplicadas neste processo já que elas representam duplamente a garantia literária e a de uso por se tratar de um instrumento privilegiado de disseminação do conhecimento científico. Foram feitos cálculos estatísticos envolvendo freqüência e escore padronizado nas observações de freqüência de palavras-chave no título, no resumo, no texto e na bibliografia dos artigos. Para testes, foram utilizados textos científicos dos periódicos eletrônicos Datagrama Zero e Ciência da Informação, já consolidados na área. A inexistência de um tesauro atualizado na área levou a construção de um Tesauro em Ciência da Informação (TCI), a partir detesauros existentes em português (IBICT), em inglês (ASIS) e em espanhol (CINDOC e DOCUTES). O ambiente apontou a necessidade de atualização de termos, classificados por grau de relevância, levando em conta a evolução da área.
Abstract
Thesauri are among the diverse means of representing information as used by Information Retrieval Systems, which is considered to be a consolidated indexing language employed by professionals that carry out activities of organizing information. The flexibility for establishing new relations between terms, the hierarchies and the crossed references give that instrument a diversity of usage, reaching processes that range from indexing to effective recovery of documents. The production and maintenance of a thesaurus are intellectual activities with specific procedures to be followed. Among them are knowledge about documents produced in the subject area, comprehension of the used terms and the construction of concepts to explain those terms. It isexpected from the professionals in this field a flexible attitude to assimilate the changes and innovations which may be found in the indexing area, in the language itself, and in the usage of terms. This study aimed at the construction of a methodology and an environment to the generation and maintenance of a thesaurus within a semi-automatic way, through the use of natural language based on the technology of Computer Science and the theoretical scope of Information Science. Moreover, through the ordering concepts of literary, usage and structural guarantee, they incorporate the proposal of the guarantee that comes from the structure of the text itself. The environment made it possible toverify the present thesaurus as well as its representative potential. Thehypothesis was that key words from scientific articles could be applied in this process, since they represent both the literary and usage guaranties, for they are a privileged instrument in disseminating the scientific knowledge. Statistic calculi were made involving frequency and score standardised in the observation of the frequency of key words in titles, summaries, texts and articles of the reference list. Scientific texts of the electronic periodicals 'DataGramaZero and Ciência da Informação were used. The absence of an updated thesaurus in the area led to the elaboration of a Thesaurus in Information Science (TIS), from the existing thesaurus in Portuguese (IBICT), in the English language (ASIS) and in Spanish (CINDOC and DOCUTES). The environment pointed out the need of updating terms classified by degrees of relevance, considering the progress of the area.
Assunto
Tesauros, Indexação automatica, Sistemas de recuperação da informação Tecnologia, Ciência da informação, Tecnologia da informação
Palavras-chave
Tesauro, Mineração de palavras, Ciência da informação, Organização da informação, Linguagem de indexação