Organização da informação: um modelo semiautomático de classificação de atrações em perfis turísticos usando aprendizado de máquina
Carregando...
Data
Autor(es)
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Minas Gerais
Descrição
Tipo
Tese de doutorado
Título alternativo
Primeiro orientador
Membros da banca
Lorenzo Cantoni
Fernando Silva Parreiras
Renato Rocha Souza
Marcos de Souza
Fernando Silva Parreiras
Renato Rocha Souza
Marcos de Souza
Resumo
O paradigma da evolução tecnológica trouxe uma mudança disruptiva no
comportamento das pessoas, que agora tomam decisões baseando-se no conteúdo
que consomem na Internet. Esse aspecto não é diferente na indústria do Turismo, em
que novas tecnologias e o compartilhamento de avaliações permitem que usuários
busquem informações para apoio em decisões como a escolha do destino, da
hospedagem, das atrações, da alimentação dentre outras. Essas avaliações fornecem
uma fonte importante de informações, no entanto, seu volume pode dificultar a
extração de conhecimento e seu uso efetivo. Como descobrir se uma determinada
atração com mais de 100 mil opiniões publicadas em texto não-estruturado possui
similaridade com o que um turista procura? Essa indagação motiva o desenvolvimento
desta pesquisa, que possui como objetivo geral a criação de um modelo que permita
transformar as avaliações feitas pelos usuários em classes ou perfis turísticos. Além
disso, na literatura observam-se trabalhos de classificação de destinos e atrações
turísticas com base nas avaliações. O uso de perfis no turismo é comum como forma
de classificar destinos e turistas. Nesse sentido, esse estudo oferece uma visão
adicional sobre os dois aspectos, ao passo que permite a junção de perfis turísticos
com informações contidas nas avaliações. O trabalho apresenta uma pesquisa
aplicada, tendo como base o Pragmatismo, de natureza híbrida com objetivo
exploratório. Utiliza-se a organização das avaliações, conteúdo qualitativo para
exploração quantitativa e qualitativa. A metodologia apresenta a criação e validação
de um modelo de classificação em três níveis. O Nível Conceitual inclui a exploração
de conhecimento de especialistas do domínio, com a criação de um conjunto de 12
perfis turísticos e definição de destinos. Nesse nível também, ocorre a coleta de 3.4
milhões de avaliações turísticas escritas em português. No Nível Tecnológico, as
informações são organizadas, representadas e um processo de classificação
automático de texto é realizado usando diferentes técnicas de Aprendizado de
Máquina. O Nível Validação apresenta uma comparação entre os métodos
automáticos e a classificação realizada pelos especialistas. O método com melhor
desempenho é utilizado para explorar a compatibilidade entre destinos, atrações,
estados, países e perfis, assim como as diferenças entre a popularidade e similaridade
de destinos perante um perfil. Explora-se a similaridade entre destinos e a variação
de perfis nos destinos mais visitados. Os resultados específicos apresentam
descobertas para o turismo, como a identificação dos melhores destinos para cada
perfil, destinos mais populares que não são os mais relevantes para um perfil ou a
identificação de um grau de similaridade muito alto entre destinos nacionais e
internacionais. Os resultados do modelo apresentam acurácia superior à 70%, usando
tecnologia e especialistas oferecem uma alternativa importante para modelos de
organização do conhecimento, principalmente devido ao dinamismo e crescimento
exponencial de conteúdo na Internet. Os resultados podem ajudar turistas que
procuram certas experiências, governos a fomentar o turismo para um público
específico ou entidades privadas que visam ofertar produtos e serviços direcionados.
Independente do ator no processo, a organização e classificação de informações
turísticas exerce um facilitador no processo decisório.
Abstract
The technological evolution paradigm has brought a disruptive change people's
behavior, who now make decisions based on the content they consume on the Internet.
This aspect is no different in the Tourism industry, where new technologies and the
sharing of reviews allow users to seek information to support decisions such as
choosing a destination, accommodation, attractions, food, among others. Reviews
provide an important source of information; however, their volume can make it difficult
to extract knowledge and use it effectively. How to find out if a particular point of interest
with more than 100,000 opinions written in unstructured text is similar to what a tourist
is looking for? This question motivates the development of this research, which has as
its direct objective the creation of a model that allows transforming the reviews made
by users into tourist classes (profiles). In the literature, some works try to address the
problem of point of interest classification using reviews. In addition, the use of profiles
in tourism is common, as a way of classifying destinations and tourists. In this sense,
this study can present an additional view on both aspects, while allowing the joining of
tourist profiles with review's information. The work presents an applied research, based
on Pragmatism, of a hybrid nature with an exploratory objective. It uses the reviews
organization as they quality nature as a source for a quantitative exploration analysis.
The methodology presents the creation and validation of a classification model at three
levels. At the Conceptual Level, knowledge is explored from domain experts, such as
the creation of a set of 12 tourist profiles and definition of destinations to be used in
the research. At this level, 3.4 million tourist reviews written in Portuguese are also
collected. At the Technological Level, information is organized, represented and an
automatic text classification process is carried out using different Machine Learning
techniques. The Validation Level presents a comparison between automatic methods
and a classification carried out by specialists. The best performing method is used to
explore compatibility between destinations, attractions, states, countries and profiles,
as well as the differences between the popularity and similarity of destinations with a
profile. It also explores the similarity between destinations and the profile variation of
the most visited destinations. The specific results present interesting discoveries in
tourism, such as the identification of the best destinations for each profile, the most
popular destinations that are not the most relevant for a profile or the identification of
a very high degree of similarity between national and international destinations. The
model performance above 70% accuracy, using technology and specialists offer an
important alternative for models of knowledge organization, mainly due to the
dynamism and exponential growth of content on the Internet. The results can help
tourists looking for certain experiences, governments to promote tourism for a specific
audience or private companies that aim to offer targeted products and services.
Regardless of the actor in the process, the organization and classification of tourist
information turn the decision-making process easier.
Assunto
Ciência da informação, Turismo, Organização da informação, Aprendizado do computador
Palavras-chave
Classificação automática de texto, Aprendizado de máquina, Extração de conhecimento, Avaliações turísticas, Perfis no turismo
Citação
Departamento
Endereço externo
Avaliação
Revisão
Suplementado Por
Referenciado Por
Licença Creative Commons
Exceto quando indicado de outra forma, a licença deste item é descrita como Acesso Aberto
