Análise de texto não supervisionada. Aplicações: setores químico e elétrico

Lucas Augusto Ferreira de Oliveira

Use este identificador para citar o ir al link de este elemento: http://hdl.handle.net/1843/35653

Registro completo de metadatos

Campo DC	Valor	Idioma
dc.contributor.advisor1	Gustavo Matheus de Almeida	pt_BR
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/3191967289613425	pt_BR
dc.contributor.referee1	Roberto da Costa Quinino	pt_BR
dc.contributor.referee2	Edgar Campos Furtado	pt_BR
dc.contributor.referee3	Gustavo Matheus de Almeida	pt_BR
dc.creator	Lucas Augusto Ferreira de Oliveira	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/3660652743536772	pt_BR
dc.date.accessioned	2021-04-12T18:05:23Z	-
dc.date.available	2021-04-12T18:05:23Z	-
dc.date.issued	2020-02-21	-
dc.identifier.uri	http://hdl.handle.net/1843/35653	-
dc.description.abstract	Text analysis is an area that has been around for a few years; however, it has advanced considerably due to the development of the capacity to collect and store information in text format. Text analysis can be divided into database analysis, text mining, and information extraction. All these points are explored in this work. It proposes a methodology for the discovery and naming of clusters. This methodology uses natural language processing (Natural Language Processing; NLP) through an unsupervised machine learning approach. Two real case studies are used. The first concerns CEMIG, one of the main concessionaires in the electricity sector in Brazil, with the objective of grouping the text messages of its customers, or, in other words, of discovering intents of its users. The second refers to a company that sells machinery for civil construction, also in Brazil, with the objective of gathering technical opinions, issued in text format, of laboratory analysis of fluids used in the machines. These analyzes are written by different analysts; therefore, the need for a standardization of this information. Satisfactory results were obtained in both cases. The combination, using PCA as a method of dimensionality reduction and k-means as a clustering algorithm, proved to be, in general, the one with the best performance, according to the usual evaluation metric called silhouette coefficient, generally higher than 0,95; also having as metrics the size of the grouping of data called “random”, which brings together little expressive phrases, around 6%; and significantly low computational processing time. The methodology proved to be quite efficient for these cases and can be used in other contexts.	pt_BR
dc.description.resumo	A análise de texto é uma área que já existe há alguns anos; porém, avançou consideravelmente em função do desenvolvimento da capacidade de coleta e armazenamento de informações em formato texto. A análise de texto pode ser dividida em análise de banco de dados, mineração de texto, e extração de informação. Todos esses pontos são explorados neste trabalho, que propõe uma metodologia para a descoberta e a nomeação de agrupamentos (clusters). Essa metodologia utiliza processamento de linguagem natural (Natural Language Processing; NLP) através de uma abordagem de aprendizado de máquina não supervisionada. São utilizados dois estudos de caso reais. O primeiro diz respeito a CEMIG, uma das principais concessionárias do setor de energia elétrica no Brasil, com o objetivo de agrupar as mesagens de texto de seus clientes, ou, em outras palavras, de descobrir intents de seus usuários. O segundo refere-se a uma empresa de venda de máquinas para a construção civil, também no Brasil, com o objetivo de agrupar pareceres técnicos, emitidos em formato texto, de análises de laboratório de fluidos utilizado nas máquinas. Essas análises são escritas por diferentes analistas; por isso, a necessidade de uma padronização dessa informação. Obtiveram-se resultados satisfatórios em ambos os casos. A combinação, tendo-se PCA como método de redução de dimensionalidade e k-means como algoritmo de clusterização, mostrou-se, em geral, a de melhor desempenho, segundo a métrica usual de avaliação denominada coeficiente de silhouette, em geral superior a 0,95; também tendo como métricas o tamanho do agrupamento de dados denominado “aleatório”, que reune frases pouco expressivas, em torno de 6%; e o tempo de processamento computacional significativamente baixo. A metodologia se mostrou bastante eficiente para estes casos e pode ser empregada em outros contextos.	pt_BR
dc.description.sponsorship	CNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Federal de Minas Gerais	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	ENG - DEPARTAMENTO DE ENGENHARIA QUÍMICA	pt_BR
dc.publisher.program	Programa de Pós-Graduação em Engenharia Química	pt_BR
dc.publisher.initials	UFMG	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Análise de texto	pt_BR
dc.subject	Aprendizado não supervisionado	pt_BR
dc.subject	Padronização laboratorial	pt_BR
dc.subject	Comportamento de Clientes	pt_BR
dc.subject	Aprendizado de máquina	pt_BR
dc.subject.other	Engenharia química	pt_BR
dc.subject.other	Aprendizado do computador	pt_BR
dc.title	Análise de texto não supervisionada. Aplicações: setores químico e elétrico	pt_BR
dc.type	Dissertação	pt_BR
Aparece en las colecciones:	Dissertações de Mestrado

archivos asociados a este elemento:

archivo	Descripción	Tamaño	Formato
ANÁLISE DE TEXTO NÃO SUPERVISIONADA APLICAÇÕES SETORES QUÍMICO E ELÉTRICO.pdf		1.72 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simple del elemento Visualizar estadísticas