Sumarização de texto em Deep Learning como etapa inicial para a construção de um modelo de recuperação da informação: análise do setor de mineração no Brasil

Luander Cipriano de Jesus Falcão

Use este identificador para citar ou linkar para este item: http://hdl.handle.net/1843/75121

Tipo:	Tese
Título:	Sumarização de texto em Deep Learning como etapa inicial para a construção de um modelo de recuperação da informação: análise do setor de mineração no Brasil
Autor(es):	Luander Cipriano de Jesus Falcão
Primeiro Orientador:	Renato Rocha Souza
Primeiro membro da banca :	George Leal Jamil
Segundo membro da banca:	Carlos Henrique Marcondes de Almeida
Terceiro membro da banca:	Frederico Cesar Mafra Pereira
Quarto membro da banca:	Gustavo Quiroga Souki
Quinto membro da banca:	Ricardo Rodrigues Barbosa
Resumo:	Na virada do século XX para o XXI, o mundo experimentou uma mudança de paradigma, saindo de um estado de escassez de dados para um estado de superabundância de dados. Esse novo cenário gerou o Big Data, uma série de ferramentas e de tecnologias próprias para o tratamento e o armazenamento de dados. Atrelada a ele está a Inteligência Artificial, que ganha mais relevância por proporcionar novos métodos para tratar enormes silos de dados, inclusive textuais, por meio do uso de Natural Language Processing. Apesar de o Natural Language Processing possuir várias tarefas, o Resumo Automático de Texto se destaca por reduzir a quantidade de escrita sem perder o sentido, proporcionando a aplicação de outras tarefas de Natural Language Processing e de algoritmos de Machine Learning. Diante desse cenário, surge a necessidade de recuperar e de analisar informações que mostrem mudanças estruturais no macroambiente do setor de mineração no Brasil. Para isso, foram coletadas, pré-processadas e sumarizadas cerca de 3.224 notícias de sites e de jornais sobre esse setor. Após sumarizadas, as notícias passaram por etapas de medição de similaridade, de mensuração do grau de sentimento e de clustering dos resumos. Os resumos, por sua vez, foram agrupados em contextos Geral e Sem Similaridade Semântica, e para cada ano do contexto Sem Similaridade Semântica também foram gerados Clusters para análise. Na sequência, foram construídos um dataframe, com o out-put final, e um painel de dados. Em seguida, o método construído foi avaliado por 15 especialistas, sendo 4 de Mineração e 11 de Dados e Informação, dos quais 2 possuíam especialização em ambas as áreas. Em termos de resultados, a aplicação de todo esse ferramental permitiu identificar que há um efeito longitudinal nos dados. A repetição de notícias com alto teor semântico tende a influenciar na construção dos Clusters, mascarando informações relevantes e que devem ser mapeadas. As análises mostraram que ao retirar notícias com o mesmo teor semântico, novas palavras surgem, trazendo à luz um assunto até então não abordado. A maioria das notícias utiliza o mesmo agrupamento de palavras. Esse agrupamento ocorre devido à repetição das palavras e ao fato de essas palavras estarem em dois ou três Clusters. A metodologia desenvolvida evidencia a capacidade de aplicação juntamente com as técnicas envolvidas na análise de negócios, nos dados competitivos e nas informações, tanto as clássicas quanto as contemporâneas mais populares, da inteligência e da estratégia competitiva.
Abstract:	At the turn of the 20th century to the 21st, the world experienced a paradigm shift, moving from a state of data scarcity to a state of data overabundance. This new scenario generated Big Data, a series of tools and technologies for processing and storing data. Linked to it is Artificial Intelligence, which gains more relevance by providing new methods for dealing with huge silos of data, including textual ones, through the use of Natural Language Processing. Although Natural Language Processing has several tasks, Automatic Text Summary stands out for reducing the amount of writing without losing meaning, providing the application of other Natural Language Processing tasks and Machine Learning algorithms. Given this scenario, there is a need to retrieve and analyze information that shows structural changes in the macroenvironment of the mining sector in Brazil. To this end, around 3,224 news items from websites and newspapers about this sector were collected, pre-processed and summarized. After being summarized, the news went through steps of measuring similarity, measuring the degree of sentiment and clustering the summaries. The summaries, in turn, were grouped into General and No Semantic Similarity contexts, and for each year of the No Semantic Similarity context, Clusters were also generated for analysis. Next, a dataframe was built, with the final output, and a data panel. Then, the constructed method was evaluated by 15 experts, 4 from Mining and 11 from Data and Information, of which 2 had specialization in both areas. In terms of results, the application of all this tooling allowed us to identify that there is a longitudinal effect in the data. The repetition of news with a high semantic content tends to influence the construction of Clusters, masking relevant information that must be mapped. The analyzes showed that when removing news with the same semantic content, new words emerge, bringing to light a subject that had not been covered until then. Most news stories use the same grouping of words. This grouping occurs due to the repetition of words and the fact that these words are in two or three Clusters. The methodology developed highlights the ability to apply together with the techniques involved in business analysis, competitive data and information, both classic and the most popular contemporary ones, intelligence and competitive strategy.
Assunto:	Ciência da informação Recuperação da informação Resumos - redação Inteligência artificial – processamento de dados Minas e recursos minerais
Idioma:	por
País:	Brasil
Editor:	Universidade Federal de Minas Gerais
Sigla da Instituição:	UFMG
Departamento:	ECI - ESCOLA DE CIENCIA DA INFORMAÇÃO
Curso:	Programa de Pós-Graduação em Gestão e Organização do Conhecimento
Tipo de Acesso:	Acesso Aberto
URI:	http://hdl.handle.net/1843/75121
Data do documento:	13-Mai-2024
Aparece nas coleções:	Teses de Doutorado

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
VERSÃO FINAL - PPGGOC_Tese_Luander_Falcao_COMPLETA.pdf		2.7 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas