Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/34292
Full metadata record
DC FieldValueLanguage
dc.contributor.advisor1Renato Rocha Souzapt_BR
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/4726949697973381pt_BR
dc.contributor.referee1Flavio Codeco Coelhopt_BR
dc.contributor.referee2Daniela Lucas da Silva Lemospt_BR
dc.contributor.referee3Luiz Claudio Gomes Maiapt_BR
dc.contributor.referee4Agnaldo Lopes Martinspt_BR
dc.contributor.referee5Renata Maria Abrantes Baracho Portopt_BR
dc.creatorMarcos de Souzapt_BR
dc.creator.Latteshttp://lattes.cnpq.br/3958131052236839pt_BR
dc.date.accessioned2020-10-21T15:52:55Z-
dc.date.available2020-10-21T15:52:55Z-
dc.date.issued2020-09-30-
dc.identifier.urihttp://hdl.handle.net/1843/34292-
dc.description.abstractThe growth of research, science and technology from an academic perspective has contributed to the production of a large amount of scientific information produced in various formats and types of scientific communication documents. Considering the amount, variety and complexity of information produced, it has been increasingly necessary to use technologies and methods for the elaboration and production of information records, in addition to the need to produce information about information. The Topic Modeling consisting of statistical / probabilistic methods and technological resources uses models of learning algorithms that make it possible to identify patterns, organize collections, summarize content, extract more frequent topics, identify relationships between issues and changes made over time in corpora of documents. Based on this principle, the question is: in what way has the themes of Brazilian scientific production in the area of Information Science been presented in the second decade of the XXI century when comparing the areas and disciplines already established in the literature by researchers as the core of the area? The general objective was to verify the proximity and the distance between the themes extracted from the data corps constituted by scientific documents and the areas and disciplines of Information Science established in the literature. Among the specific objectives were to identify, analyze and discuss the diachronic behavior of the terms extracted from the data corpora, as well as their respective relationships, and to analyze and discuss the training models for topic extraction, to select the significant results and to validate them with the Brazilian scientific community of Information Science. The importance of this research is justified since the comparison between studies, even if using different methodologies and time intervals in the composition of documents, allows presenting, through scientific mapping, new results and prospecting different scenarios and perspectives for the studied science. For the empirical research were carried out the steps data collection and formation of data corpora, preparation and pre-processing referring to cleaning, manipulation, combination and normalization of data, transformation of the data referring to mathematical operations and applied statistics, modeling and processing to which connects the data treated with the Latent Semantic Indexing models, and Latent Dirichlet Allocation, presentation of the results through textual synthesis and interactive graphics and statistics, validation of the results with researchers in the studied area and documentation generated from the empirical results with the theoretical reference. Among the main results are the partially different behavior between the scientific mapping of the disciplines of the Information Science core found in the literature with the empirical results of this research; diachronic behavior and emergence of terms in research in the area of Information Science such as fake news, big data and machine learning; Proximity and distance between disciplines such as Information Systems and Electronic Scientific Communication; Better results in the modeling of topics using the Latent Dirichlet Allocation model taking into account the balance between the weights of the results and a greater number of bigrams and trigrams that contribute to a better interpretation of the data carried out by the indexer and validated by the scientific community.pt_BR
dc.description.resumoO crescimento da pesquisa, ciência e tecnologia na perspectiva acadêmica tem contribuído para a produção de uma quantidade elevada de informações científicas produzidas em diversos formatos e tipos de documentos da comunicação científica. Levando em consideração a quantidade, variedade e complexidade de informações produzidas, tem sido cada vez mais necessário o uso de tecnologias e métodos para elaboração e produção de registros de informação, além da necessidade de produzir informações sobre informações. A Modelagem de Tópicos, constituída de métodos estatísticos/probabilísticos e recursos tecnológicos, utiliza modelos de algoritmos de aprendizagem que possibilita identificar padrões, organizar coleções, resumir conteúdos, extrair tópicos mais frequentes, identificar relações entre assuntos e mudanças realizadas ao longo do tempo em corpora de documentos. Partindo desse princípio, questiona-se: de que forma tem se apresentado, na segunda década do século XXI, os temas da produção científica brasileira na área da Ciência da Informação quando se comparado às áreas e disciplinas já estabelecidas na literatura por pesquisadores como núcleo da área? O objetivo geral buscou verificar a proximidade e o distanciamento entre os temas extraídos dos corpora de dados constituídos por documentos científicos com as áreas e disciplinas da Ciência da Informação estabelecidas na literatura. Dentre os objetivos específicos constam identificar, analisar e discutir o comportamento diacrônico dos termos extraídos dos corpora de dados, bem com suas respectivas relações, além de analisar e discutir os modelos de treinamento de extração de tópicos, selecionar os resultados significativos e validar junto à comunidade científica brasileira da Ciência da Informação. Justifica-se a importância desta pesquisa uma vez que a comparação entre estudos – mesmo que utilizando de metodologias e intervalos de tempo diferentes na composição de documentos – permite apresentar, por meio do mapeamento científico, novos resultados e prospectar diferentes cenários e perspectivas para a ciência estudada. Para a pesquisa empírica foram realizadas as etapas de coleta de dados e formação dos corpora de dados; preparação e pré-processamento referente à limpeza, manipulação, combinação e normalização dos dados; transformação dos dados referentes às operações matemáticas e estatísticas aplicadas; modelagem e processamento, ao qual conecta os dados tratados aos modelos Latent Semantic Indexing e Latent Dirichlet Allocation; apresentação dos resultados por meio de sínteses textuais e gráficos interativos e estatísticos; validação dos resultados junto a pesquisadores da área estudada; e documentação gerada a partir dos resultados empíricos com o referencial teórico. Dentre os principais resultados constam: o comportamento parcialmente diferente entre o mapeamento científico das disciplinas do núcleo da Ciência da Informação encontrado na literatura com os resultados empíricos desta pesquisa; o comportamento diacrônico e surgimento de termos em pesquisas na área da Ciência da Informação, como fake news, big data e machine learning; a proximidade e o distanciamento entre disciplinas como Sistemas de Informação e Comunicação Científica Eletrônica; os melhores resultados na modelagem de tópicos realizada por meio do modelo Latent Dirichlet Allocation, levando em consideração o equilíbrio entre os pesos dos resultados e um maior número de bigramas e trigramas que contribuem para a uma melhor interpretação dos dados, realizada pelo indexador e validada pela comunidade científica.pt_BR
dc.description.sponsorshipFAPEMIG - Fundação de Amparo à Pesquisa do Estado de Minas Geraispt_BR
dc.languageporpt_BR
dc.publisherUniversidade Federal de Minas Geraispt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentECI - ESCOLA DE CIENCIA DA INFORMAÇÃOpt_BR
dc.publisher.programPrograma de Pós-Graduação em Gestão e Organização do Conhecimentopt_BR
dc.publisher.initialsUFMGpt_BR
dc.rightsAcesso Abertopt_BR
dc.rights.urihttp://creativecommons.org/licenses/by-nc-sa/3.0/pt/*
dc.subjectModelagem de tópicospt_BR
dc.subjectAlocação de Dirichlet Latentept_BR
dc.subjectProximidade e distanciamentopt_BR
dc.subjectComportamento diacrônicopt_BR
dc.subject.otherCiência da informaçãopt_BR
dc.subject.otherModelagem de dadospt_BR
dc.subject.otherMineração de dados (Computação)pt_BR
dc.titleO comportamento de termos da Ciência da Informação por meio da modelagem de tópicospt_BR
dc.title.alternativeThe behavior of Information Science terms through topic modelingpt_BR
dc.typeTesept_BR
dc.identifier.orcidhttps://orcid.org/0000-0002-9829-7249pt_BR
Appears in Collections:Teses de Doutorado

Files in This Item:
File Description SizeFormat 
Tese_Marcos de Souza_Versão Corrigida.pdf11.01 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons