Sumarização de texto em Deep Learning como etapa inicial para a construção de um modelo de recuperação da informação: análise do setor de mineração no Brasil

Luander Cipriano de Jesus Falcão

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/75121

Type:	Tese
Title:	Sumarização de texto em Deep Learning como etapa inicial para a construção de um modelo de recuperação da informação: análise do setor de mineração no Brasil
Authors:	Luander Cipriano de Jesus Falcão
First Advisor:	Renato Rocha Souza
First Referee:	George Leal Jamil
Second Referee:	Carlos Henrique Marcondes de Almeida
Third Referee:	Frederico Cesar Mafra Pereira
metadata.dc.contributor.referee4:	Gustavo Quiroga Souki
metadata.dc.contributor.referee5:	Ricardo Rodrigues Barbosa
Abstract:	Na virada do século XX para o XXI, o mundo experimentou uma mudança de paradigma, saindo de um estado de escassez de dados para um estado de superabundância de dados. Esse novo cenário gerou o Big Data, uma série de ferramentas e de tecnologias próprias para o tratamento e o armazenamento de dados. Atrelada a ele está a Inteligência Artificial, que ganha mais relevância por proporcionar novos métodos para tratar enormes silos de dados, inclusive textuais, por meio do uso de Natural Language Processing. Apesar de o Natural Language Processing possuir várias tarefas, o Resumo Automático de Texto se destaca por reduzir a quantidade de escrita sem perder o sentido, proporcionando a aplicação de outras tarefas de Natural Language Processing e de algoritmos de Machine Learning. Diante desse cenário, surge a necessidade de recuperar e de analisar informações que mostrem mudanças estruturais no macroambiente do setor de mineração no Brasil. Para isso, foram coletadas, pré-processadas e sumarizadas cerca de 3.224 notícias de sites e de jornais sobre esse setor. Após sumarizadas, as notícias passaram por etapas de medição de similaridade, de mensuração do grau de sentimento e de clustering dos resumos. Os resumos, por sua vez, foram agrupados em contextos Geral e Sem Similaridade Semântica, e para cada ano do contexto Sem Similaridade Semântica também foram gerados Clusters para análise. Na sequência, foram construídos um dataframe, com o out-put final, e um painel de dados. Em seguida, o método construído foi avaliado por 15 especialistas, sendo 4 de Mineração e 11 de Dados e Informação, dos quais 2 possuíam especialização em ambas as áreas. Em termos de resultados, a aplicação de todo esse ferramental permitiu identificar que há um efeito longitudinal nos dados. A repetição de notícias com alto teor semântico tende a influenciar na construção dos Clusters, mascarando informações relevantes e que devem ser mapeadas. As análises mostraram que ao retirar notícias com o mesmo teor semântico, novas palavras surgem, trazendo à luz um assunto até então não abordado. A maioria das notícias utiliza o mesmo agrupamento de palavras. Esse agrupamento ocorre devido à repetição das palavras e ao fato de essas palavras estarem em dois ou três Clusters. A metodologia desenvolvida evidencia a capacidade de aplicação juntamente com as técnicas envolvidas na análise de negócios, nos dados competitivos e nas informações, tanto as clássicas quanto as contemporâneas mais populares, da inteligência e da estratégia competitiva.
Abstract:	At the turn of the 20th century to the 21st, the world experienced a paradigm shift, moving from a state of data scarcity to a state of data overabundance. This new scenario generated Big Data, a series of tools and technologies for processing and storing data. Linked to it is Artificial Intelligence, which gains more relevance by providing new methods for dealing with huge silos of data, including textual ones, through the use of Natural Language Processing. Although Natural Language Processing has several tasks, Automatic Text Summary stands out for reducing the amount of writing without losing meaning, providing the application of other Natural Language Processing tasks and Machine Learning algorithms. Given this scenario, there is a need to retrieve and analyze information that shows structural changes in the macroenvironment of the mining sector in Brazil. To this end, around 3,224 news items from websites and newspapers about this sector were collected, pre-processed and summarized. After being summarized, the news went through steps of measuring similarity, measuring the degree of sentiment and clustering the summaries. The summaries, in turn, were grouped into General and No Semantic Similarity contexts, and for each year of the No Semantic Similarity context, Clusters were also generated for analysis. Next, a dataframe was built, with the final output, and a data panel. Then, the constructed method was evaluated by 15 experts, 4 from Mining and 11 from Data and Information, of which 2 had specialization in both areas. In terms of results, the application of all this tooling allowed us to identify that there is a longitudinal effect in the data. The repetition of news with a high semantic content tends to influence the construction of Clusters, masking relevant information that must be mapped. The analyzes showed that when removing news with the same semantic content, new words emerge, bringing to light a subject that had not been covered until then. Most news stories use the same grouping of words. This grouping occurs due to the repetition of words and the fact that these words are in two or three Clusters. The methodology developed highlights the ability to apply together with the techniques involved in business analysis, competitive data and information, both classic and the most popular contemporary ones, intelligence and competitive strategy.
Subject:	Ciência da informação Recuperação da informação Resumos - redação Inteligência artificial – processamento de dados Minas e recursos minerais
language:	por
metadata.dc.publisher.country:	Brasil
Publisher:	Universidade Federal de Minas Gerais
Publisher Initials:	UFMG
metadata.dc.publisher.department:	ECI - ESCOLA DE CIENCIA DA INFORMAÇÃO
metadata.dc.publisher.program:	Programa de Pós-Graduação em Gestão e Organização do Conhecimento
Rights:	Acesso Aberto
URI:	http://hdl.handle.net/1843/75121
Issue Date:	13-May-2024
Appears in Collections:	Teses de Doutorado

Files in This Item:

File	Description	Size	Format
VERSÃO FINAL - PPGGOC_Tese_Luander_Falcao_COMPLETA.pdf		2.7 MB	Adobe PDF	View/Open

Show full item record