Análise de texto não supervisionada. Aplicações: setores químico e elétrico
Carregando...
Data
Autor(es)
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Minas Gerais
Descrição
Tipo
Dissertação de mestrado
Título alternativo
Primeiro orientador
Membros da banca
Roberto da Costa Quinino
Edgar Campos Furtado
Gustavo Matheus de Almeida
Edgar Campos Furtado
Gustavo Matheus de Almeida
Resumo
A análise de texto é uma área que já existe há alguns anos; porém, avançou
consideravelmente em função do desenvolvimento da capacidade de coleta e
armazenamento de informações em formato texto. A análise de texto pode ser
dividida em análise de banco de dados, mineração de texto, e extração de
informação. Todos esses pontos são explorados neste trabalho, que propõe
uma metodologia para a descoberta e a nomeação de agrupamentos (clusters).
Essa metodologia utiliza processamento de linguagem natural (Natural
Language Processing; NLP) através de uma abordagem de aprendizado de
máquina não supervisionada. São utilizados dois estudos de caso reais. O
primeiro diz respeito a CEMIG, uma das principais concessionárias do setor de
energia elétrica no Brasil, com o objetivo de agrupar as mesagens de texto de
seus clientes, ou, em outras palavras, de descobrir intents de seus usuários. O
segundo refere-se a uma empresa de venda de máquinas para a construção
civil, também no Brasil, com o objetivo de agrupar pareceres técnicos, emitidos
em formato texto, de análises de laboratório de fluidos utilizado nas máquinas.
Essas análises são escritas por diferentes analistas; por isso, a necessidade de
uma padronização dessa informação. Obtiveram-se resultados satisfatórios em
ambos os casos. A combinação, tendo-se PCA como método de redução de
dimensionalidade e k-means como algoritmo de clusterização, mostrou-se, em
geral, a de melhor desempenho, segundo a métrica usual de avaliação
denominada coeficiente de silhouette, em geral superior a 0,95; também tendo
como métricas o tamanho do agrupamento de dados denominado “aleatório”,
que reune frases pouco expressivas, em torno de 6%; e o tempo de
processamento computacional significativamente baixo. A metodologia se
mostrou bastante eficiente para estes casos e pode ser empregada em outros
contextos.
Abstract
Text analysis is an area that has been around for a few years; however, it has
advanced considerably due to the development of the capacity to collect and
store information in text format. Text analysis can be divided into database
analysis, text mining, and information extraction. All these points are explored in
this work. It proposes a methodology for the discovery and naming of clusters.
This methodology uses natural language processing (Natural Language
Processing; NLP) through an unsupervised machine learning approach. Two
real case studies are used. The first concerns CEMIG, one of the main
concessionaires in the electricity sector in Brazil, with the objective of grouping
the text messages of its customers, or, in other words, of discovering intents of
its users. The second refers to a company that sells machinery for civil
construction, also in Brazil, with the objective of gathering technical opinions,
issued in text format, of laboratory analysis of fluids used in the machines.
These analyzes are written by different analysts; therefore, the need for a
standardization of this information. Satisfactory results were obtained in both
cases. The combination, using PCA as a method of dimensionality reduction
and k-means as a clustering algorithm, proved to be, in general, the one with
the best performance, according to the usual evaluation metric called silhouette
coefficient, generally higher than 0,95; also having as metrics the size of the
grouping of data called “random”, which brings together little expressive
phrases, around 6%; and significantly low computational processing time. The
methodology proved to be quite efficient for these cases and can be used in
other contexts.
Assunto
Engenharia química, Aprendizado do computador
Palavras-chave
Análise de texto, Aprendizado não supervisionado, Padronização laboratorial, Comportamento de Clientes, Aprendizado de máquina