Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/SLSC-BDPJ7H
Type: Dissertação de Mestrado
Title: Impacto de Comunidades Sociais Online no Aprendizado de Idiomas
Authors: Rafael Sales Medina Ferreira
First Advisor: Fabricio Murai Ferreira
First Referee: Ana Paula Couto da Silva
Second Referee: Fabricio Benevenuto de Souza
Third Referee: Daniel Sadoc Menasche
Abstract: O Reddit é uma rede social online em que usuários interessados em um mesmo tópico se inscrevem em comunidades (subreddits) onde compartilham conteúdo (e.g., links, texto, imagens) na forma de posts. Posts são, por sua vez, comentados e avaliados por outros usuários. Subreddits para aprendizado de idioma vem atraindo mais usuários de diferentes níveis de proficiência a cada ano, que interagem compartilhando dúvidas e dicas de como melhorar o aprendizado. É importante analisar o conteúdo compartilhado e compreender como se dão as interações entre usuários nessas redes para que seja possível projetar e implementar novas soluções para melhorar a experiência do usuário e consequentemente auxiliar no aprendizado. Neste trabalho, analisamos as redes para aprendizado de alemão, espanhol, francês e inglês, concluindo que usuários demonstram maior interesse na discussão do assunto do que nas interações interpessoais, como comprovado pela análise da rede de interação de cada uma das comunidades. Essa análise demonstrou que usuários não possuem laços muito fortes entre si, sendo que não há muitos pares conectados, e quando há interação entre dois usuários, ela se repete poucas vezes. Isso é corroborado por análises das métricas de centralidade de redes complexas, que demonstram que as redes de subreddits não apresentam estrutura semelhante à de redes sociais tradicionais. Além disso, analisamos as threads, onde percebe-se que as discussões em posts não se prolongam por muito tempo. Observa-se que geralmente a primeira publicação recebe muitas respostas, mas a discussão não se estende muito a partir dessas respostas. Muitas vezes as publicações são perguntas, e usuários respondem rapidamente a essas perguntas e a discussão termina. Utilizando o subreddit German, onde os usuários são aconselhados a informar seu nível de proficiência quando fazem uma publicação (post/comentário), demonstramos que grande parte das interações ocorrem entre usuários de niveis diferentes. Utilizamos a ferramenta LIWC para extrair características dos textos deste idioma, o que permitiu observar que publicações de usuários de níveis diferentes de proficiência apresentam características textuais bem distintas. Esta observação nos levou a investigar o problema de se classificar a proficiência dos usuários a partir de suas publicações. Por meio de uma série de experimentos, demonstramos que classificadores que tratam as publicações no Reddit como observações independentes, como encontrados na literatura, têm baixo desempenho. À vista disso, propomos um novo modelo, SEMPLICe (SEquential Model for Proficiency cLassifICation), que considera as características textuais e também o histórico de um usuário no subreddit para classificar sua proficiência ao longo do tempo. Baseado na suposição de que a proficiência é não decrescente desde que um usuário permaneça ativo, SEMPLICe alcança um F1 ponderado até 29,6% maior que os métodos clássicos. SEMPLICe utiliza programação dinâmica para obter complexidade linear no tamanho do histórico de cada usuário.
Abstract: Reddit is a social network where users interested in a common subject may subscribe to communities, known as subreddits, were they can share content such as links, text and images as posts. Other users in the community can, in turn, comment and rate such posts. Subreddits for second language learning have been drawing attention from groups of users of the most diverse proficiency levels, who use these communities for sharing questions and tips on improving their level. It is important to analyse the content shared on such communities and understand how users interact in order to guide the design of new tools that can improve language learning as well as user experience. In this project, we analyse the network of interactions in subreddits for language learning, namely German, English, French and Spanish. We analyse the network of interactions in these subreddits and show that users are more focused on discussing the subject than on interpersonal interactions. This analysis also shows that most of the relationships between users are weak ties: when two users interact with each other, that interaction typically does not reoccur many times. This conclusion is corroborated by our analysis of centrality metrics of complex networks, which show that these networks do not share common features with traditional online social media. Moreover, we analyse threads and show that discussion topics do not have long reply threads. Instead, threads usually have many answers to the first post, none of those leading to longer discussions. Using subreddit German, where users are asked to inform their proficiency level, we show that a large fraction of the interactions take place between users of different proficiency levels. We use LIWC to extract linguistic features from posts published in this subreddit, which indicates that users with different proficiency levels write text with distinct textual features. This observation led us to investigate whether it is possible to categorize users proficiency based on their publications. Unfortunately, traditional classification models such as KNN and logistic regression result in low accuracy when predicting proficiency from textual features extracted from individual Reddit publications. To address this problem, we propose a new model, called SEMPLICe (SEquential Model for Proficiency cLassifICation), which considers both text features and users history of publications to classify proficiency level throughout time. Based on the premise that proficiency levels do not decrease, as long as the users are active on the interaction, SEMPLICe improves the F1 metrics from classic methods up to 29.6%. SEMPLICe uses dynamic programming in order to obtain linear complexity on the users interaction line.
Subject: Aprendizado de idiomas assistido por computadores
Computação
Redes complexas
Aprendizado de máquinas
Redes Sociais
language: Português
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
Rights: Acesso Aberto
URI: http://hdl.handle.net/1843/SLSC-BDPJ7H
Issue Date: 2-May-2019
Appears in Collections:Dissertações de Mestrado

Files in This Item:
File Description SizeFormat 
rafaelsalesmedinaferreira.pdf1.66 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.