Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/35823
Type: Tese
Title: Organização da informação: um modelo semiautomático de classificação de atrações em perfis turísticos usando aprendizado de máquina
Authors: Amarildo Martins de Magalhães
First Advisor: Renata Maria Abrantes Baracho
First Co-advisor: Thomas Leonhard Mandl
First Referee: Lorenzo Cantoni
Second Referee: Fernando Silva Parreiras
Third Referee: Renato Rocha Souza
metadata.dc.contributor.referee4: Marcos de Souza
Abstract: O paradigma da evolução tecnológica trouxe uma mudança disruptiva no comportamento das pessoas, que agora tomam decisões baseando-se no conteúdo que consomem na Internet. Esse aspecto não é diferente na indústria do Turismo, em que novas tecnologias e o compartilhamento de avaliações permitem que usuários busquem informações para apoio em decisões como a escolha do destino, da hospedagem, das atrações, da alimentação dentre outras. Essas avaliações fornecem uma fonte importante de informações, no entanto, seu volume pode dificultar a extração de conhecimento e seu uso efetivo. Como descobrir se uma determinada atração com mais de 100 mil opiniões publicadas em texto não-estruturado possui similaridade com o que um turista procura? Essa indagação motiva o desenvolvimento desta pesquisa, que possui como objetivo geral a criação de um modelo que permita transformar as avaliações feitas pelos usuários em classes ou perfis turísticos. Além disso, na literatura observam-se trabalhos de classificação de destinos e atrações turísticas com base nas avaliações. O uso de perfis no turismo é comum como forma de classificar destinos e turistas. Nesse sentido, esse estudo oferece uma visão adicional sobre os dois aspectos, ao passo que permite a junção de perfis turísticos com informações contidas nas avaliações. O trabalho apresenta uma pesquisa aplicada, tendo como base o Pragmatismo, de natureza híbrida com objetivo exploratório. Utiliza-se a organização das avaliações, conteúdo qualitativo para exploração quantitativa e qualitativa. A metodologia apresenta a criação e validação de um modelo de classificação em três níveis. O Nível Conceitual inclui a exploração de conhecimento de especialistas do domínio, com a criação de um conjunto de 12 perfis turísticos e definição de destinos. Nesse nível também, ocorre a coleta de 3.4 milhões de avaliações turísticas escritas em português. No Nível Tecnológico, as informações são organizadas, representadas e um processo de classificação automático de texto é realizado usando diferentes técnicas de Aprendizado de Máquina. O Nível Validação apresenta uma comparação entre os métodos automáticos e a classificação realizada pelos especialistas. O método com melhor desempenho é utilizado para explorar a compatibilidade entre destinos, atrações, estados, países e perfis, assim como as diferenças entre a popularidade e similaridade de destinos perante um perfil. Explora-se a similaridade entre destinos e a variação de perfis nos destinos mais visitados. Os resultados específicos apresentam descobertas para o turismo, como a identificação dos melhores destinos para cada perfil, destinos mais populares que não são os mais relevantes para um perfil ou a identificação de um grau de similaridade muito alto entre destinos nacionais e internacionais. Os resultados do modelo apresentam acurácia superior à 70%, usando tecnologia e especialistas oferecem uma alternativa importante para modelos de organização do conhecimento, principalmente devido ao dinamismo e crescimento exponencial de conteúdo na Internet. Os resultados podem ajudar turistas que procuram certas experiências, governos a fomentar o turismo para um público específico ou entidades privadas que visam ofertar produtos e serviços direcionados. Independente do ator no processo, a organização e classificação de informações turísticas exerce um facilitador no processo decisório.
Abstract: The technological evolution paradigm has brought a disruptive change people's behavior, who now make decisions based on the content they consume on the Internet. This aspect is no different in the Tourism industry, where new technologies and the sharing of reviews allow users to seek information to support decisions such as choosing a destination, accommodation, attractions, food, among others. Reviews provide an important source of information; however, their volume can make it difficult to extract knowledge and use it effectively. How to find out if a particular point of interest with more than 100,000 opinions written in unstructured text is similar to what a tourist is looking for? This question motivates the development of this research, which has as its direct objective the creation of a model that allows transforming the reviews made by users into tourist classes (profiles). In the literature, some works try to address the problem of point of interest classification using reviews. In addition, the use of profiles in tourism is common, as a way of classifying destinations and tourists. In this sense, this study can present an additional view on both aspects, while allowing the joining of tourist profiles with review's information. The work presents an applied research, based on Pragmatism, of a hybrid nature with an exploratory objective. It uses the reviews organization as they quality nature as a source for a quantitative exploration analysis. The methodology presents the creation and validation of a classification model at three levels. At the Conceptual Level, knowledge is explored from domain experts, such as the creation of a set of 12 tourist profiles and definition of destinations to be used in the research. At this level, 3.4 million tourist reviews written in Portuguese are also collected. At the Technological Level, information is organized, represented and an automatic text classification process is carried out using different Machine Learning techniques. The Validation Level presents a comparison between automatic methods and a classification carried out by specialists. The best performing method is used to explore compatibility between destinations, attractions, states, countries and profiles, as well as the differences between the popularity and similarity of destinations with a profile. It also explores the similarity between destinations and the profile variation of the most visited destinations. The specific results present interesting discoveries in tourism, such as the identification of the best destinations for each profile, the most popular destinations that are not the most relevant for a profile or the identification of a very high degree of similarity between national and international destinations. The model performance above 70% accuracy, using technology and specialists offer an important alternative for models of knowledge organization, mainly due to the dynamism and exponential growth of content on the Internet. The results can help tourists looking for certain experiences, governments to promote tourism for a specific audience or private companies that aim to offer targeted products and services. Regardless of the actor in the process, the organization and classification of tourist information turn the decision-making process easier.
Subject: Ciência da informação
Turismo
Organização da informação
Aprendizado do computador
language: por
metadata.dc.publisher.country: Brasil
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
metadata.dc.publisher.department: ECI - ESCOLA DE CIENCIA DA INFORMAÇÃO
metadata.dc.publisher.program: Programa de Pós-Graduação em Gestão e Organização do Conhecimento
Rights: Acesso Aberto
metadata.dc.rights.uri: http://creativecommons.org/licenses/by-nc-nd/3.0/pt/
URI: http://hdl.handle.net/1843/35823
Issue Date: 9-Mar-2021
Appears in Collections:Teses de Doutorado

Files in This Item:
File Description SizeFormat 
Tese_Amarildo_Magalhes_UFMG_2021.pdf9.69 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons