Estudo comparativo entre a capacidade de generalização de modelos criados a partir das principais plataformas de desenvolvimento de assistentes virtuais
Carregando...
Data
Autor(es)
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Minas Gerais
Descrição
Tipo
Monografia de especialização
Título alternativo
Primeiro orientador
Membros da banca
Edna Afonso Reis
Felipe Cruz Neiva Campos
Felipe Cruz Neiva Campos
Resumo
Chatbots, agentes conversacionais, assistentes virtuais ou mesmo bots são termos utilizados em
muitos casos para denominar programas de computador com a capacidade de interação com ser
humano em um fluxo conversacional, seja por botões em árvores de diálogos ou, nos mais
elaborados, compreendendo linguagem natural. A cada ano a utilização desse tipo de solução é
mais comum nas empresas, tanto para públicos externos, como clientes ou fornecedores, quanto
para os próprios colaboradores. No entanto, há uma dificuldade que ronda as organizações no
momento de decidir sobre qual plataforma utilizar para desenvolver seu chatbot: existe
diferença entre os motores cognitivos das principais plataformas? Este trabalho busca responder
se, existe ou não diferença entre os motores cognitivos das três plataformas de desenvolvimento
de chatbots selecionadas: Alexa Console Developer da Amazon, Dialogflow do Google e
Watson Assistant da IBM. O experimento fatorial desenhado neste estudo, comparou a
capacidade de generalização dos modelos de Machine Learning para o Português brasileiro das
três plataformas, avaliando cinco intenções criadas em cada, dividida em dois conjuntos,
genéricas e específicas. Após a criação das intenções, foram avaliadas as classificações de
interações comparando ao padrão ouro (ground truth), e depois verificada a diferença entre
performances de cada plataforma, de forma geral e segregada, ajustado um modelo de regressão
logística e calculado a razão de chance (odds ratio). A análise dos resultados do experimento
mostrou que o Watson Assistant da IBMs tem melhor performance geral, com um percentual
de acerto médio de 82%, e com uma odds de acerto 4,43 vezes maior que a da Dialogflow e
3,03 vezes da Alexa Console Developer. Entretanto, em alguns conjuntos segregados, não
houve diferença estatística significante entre as três plataformas, como no Fator Classe da
Intenção ao nível Específica. É sabido que o fator desempenho não deve ser o único a ser
considerado e fatores como custos, expertises, facilidade na implementação, disponibilidade e
integrações, entre outros, também devem ser levados em conta. Porém, como conclusão desse
trabalho, foi observada uma diferença significativa entre os motores cognitivos das plataformas
avaliadas.
Abstract
Chatbots, conversational agents, virtual assistants, or simply bots are used in many cases to
represent computer programs with the ability to interact with human beings in a conversational
flow, whether by buttons on decision trees or in other more complex cases with the
understanding of natural language. Each year, this solution becomes more popular in
companies, whether for external audiences such as customers or employees themselves.
However, there is a difficulty around organizations when deciding on which platform to use to
develop their chatbot. a question arises: is there any difference between the cognitive engines
of the main platforms? This work seeks to answer whether there is any difference between the
cognitive engines of the three selected chatbots development platforms, Alexa Console
Developer from Amazon, Dialogflow from Google, and Watson Assistant from IBM. The
factorial experiment compared the ability to generalize Machine Learning models in Brazilian
Portuguese for the three platforms, evaluating 5 intentions created in each, divided into two
sets, generic and specific. After creating the intentions, the interaction classifications were
evaluated by comparing them to the ground truth, and then the difference between performances
of each platform, in general, and separated, was verified, adjusting it to a logistic regression
model and calculating the Odds Ratio. The experiment showed interesting results, showing that
IBM's Watson Assistant has better overall performance, with an average hit percentage of 82%
and an Odds Ratio of 4.43 times higher than Dialogflow and 3.03 Alexa Console Developer.
However, there was no statistically significant difference in some segregated settings, as in the
Class Factor of Intention at the Specific level, where no difference was significant. It is known
that the performance factor should not be the only one to be considered and factors such as
costs, expertise, ease of implementation, availability, and integration, among others, must also
be taken into account. However, as a conclusion of this work, a significant difference was
observed between the cognitive engines of the evaluated platforms.
Assunto
Estatística, Assistentes virtuais, Chatbot
Palavras-chave
Assistentes Virtuais, Chatbots, Dialogflow, Watson Assistant, Alexa Console Developer, Motor Cognitivo, Experimento fatorial, Machine Learning, NLP, Natural Language Processing