Estudo comparativo entre a capacidade de generalização de modelos criados a partir das principais plataformas de desenvolvimento de assistentes virtuais

Carregando...
Imagem de Miniatura

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Federal de Minas Gerais

Descrição

Tipo

Monografia de especialização

Título alternativo

Primeiro orientador

Membros da banca

Edna Afonso Reis
Felipe Cruz Neiva Campos

Resumo

Chatbots, agentes conversacionais, assistentes virtuais ou mesmo bots são termos utilizados em muitos casos para denominar programas de computador com a capacidade de interação com ser humano em um fluxo conversacional, seja por botões em árvores de diálogos ou, nos mais elaborados, compreendendo linguagem natural. A cada ano a utilização desse tipo de solução é mais comum nas empresas, tanto para públicos externos, como clientes ou fornecedores, quanto para os próprios colaboradores. No entanto, há uma dificuldade que ronda as organizações no momento de decidir sobre qual plataforma utilizar para desenvolver seu chatbot: existe diferença entre os motores cognitivos das principais plataformas? Este trabalho busca responder se, existe ou não diferença entre os motores cognitivos das três plataformas de desenvolvimento de chatbots selecionadas: Alexa Console Developer da Amazon, Dialogflow do Google e Watson Assistant da IBM. O experimento fatorial desenhado neste estudo, comparou a capacidade de generalização dos modelos de Machine Learning para o Português brasileiro das três plataformas, avaliando cinco intenções criadas em cada, dividida em dois conjuntos, genéricas e específicas. Após a criação das intenções, foram avaliadas as classificações de interações comparando ao padrão ouro (ground truth), e depois verificada a diferença entre performances de cada plataforma, de forma geral e segregada, ajustado um modelo de regressão logística e calculado a razão de chance (odds ratio). A análise dos resultados do experimento mostrou que o Watson Assistant da IBMs tem melhor performance geral, com um percentual de acerto médio de 82%, e com uma odds de acerto 4,43 vezes maior que a da Dialogflow e 3,03 vezes da Alexa Console Developer. Entretanto, em alguns conjuntos segregados, não houve diferença estatística significante entre as três plataformas, como no Fator Classe da Intenção ao nível Específica. É sabido que o fator desempenho não deve ser o único a ser considerado e fatores como custos, expertises, facilidade na implementação, disponibilidade e integrações, entre outros, também devem ser levados em conta. Porém, como conclusão desse trabalho, foi observada uma diferença significativa entre os motores cognitivos das plataformas avaliadas.

Abstract

Chatbots, conversational agents, virtual assistants, or simply bots are used in many cases to represent computer programs with the ability to interact with human beings in a conversational flow, whether by buttons on decision trees or in other more complex cases with the understanding of natural language. Each year, this solution becomes more popular in companies, whether for external audiences such as customers or employees themselves. However, there is a difficulty around organizations when deciding on which platform to use to develop their chatbot. a question arises: is there any difference between the cognitive engines of the main platforms? This work seeks to answer whether there is any difference between the cognitive engines of the three selected chatbots development platforms, Alexa Console Developer from Amazon, Dialogflow from Google, and Watson Assistant from IBM. The factorial experiment compared the ability to generalize Machine Learning models in Brazilian Portuguese for the three platforms, evaluating 5 intentions created in each, divided into two sets, generic and specific. After creating the intentions, the interaction classifications were evaluated by comparing them to the ground truth, and then the difference between performances of each platform, in general, and separated, was verified, adjusting it to a logistic regression model and calculating the Odds Ratio. The experiment showed interesting results, showing that IBM's Watson Assistant has better overall performance, with an average hit percentage of 82% and an Odds Ratio of 4.43 times higher than Dialogflow and 3.03 Alexa Console Developer. However, there was no statistically significant difference in some segregated settings, as in the Class Factor of Intention at the Specific level, where no difference was significant. It is known that the performance factor should not be the only one to be considered and factors such as costs, expertise, ease of implementation, availability, and integration, among others, must also be taken into account. However, as a conclusion of this work, a significant difference was observed between the cognitive engines of the evaluated platforms.

Assunto

Estatística, Assistentes virtuais, Chatbot

Palavras-chave

Assistentes Virtuais, Chatbots, Dialogflow, Watson Assistant, Alexa Console Developer, Motor Cognitivo, Experimento fatorial, Machine Learning, NLP, Natural Language Processing

Citação

Endereço externo

Avaliação

Revisão

Suplementado Por

Referenciado Por