SEMPLICe: um modelo sequencial de proficiência em comunidades online para aprendizado de idioma
Carregando...
Data
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Minas Gerais
Descrição
Tipo
Artigo de evento
Título alternativo
Primeiro orientador
Membros da banca
Resumo
O Reddit é uma rede social online em que usuários interessados em um mesmo tópico interagem uns com os outros em subreddits. Subreddits para aprendizado de idioma vem atraindo usuários de diferentes nı́veis de pro- ficiência a cada ano, buscando melhorar o aprendizado. Em particular, no subreddit German, os usuários são aconselhados a informar seu nı́vel de pro- ficiência ao escrever um post. Contudo, apenas 20% dos posts possuem tais tags. Abordamos aqui o problema de classificar a proficiência dos usuários a partir de suas publicações. Conduzimos uma série de experimentos que demonstram que classificadores que tratam as publicações como observações independentes tem baixo desempenho. À vista disso, propomos um novo modelo, SEMPLICe, que considera as caracterı́sticas textuais e também o histórico de um usuário no subreddit para classificar sua proficiência ao longo do tempo. Baseado na suposição de que a proficiência é não decresce desde que um usuário permaneça ativo, SEMPLICe alcança um F 1 ponderado até 29,6% maior que os métodos anteriores. SEMPLICe utiliza programação dinâmica para obter complexidade linear no tamanho do histórico de cada usuário.
Abstract
Reddit is an online social network where users interested in a common subject may interact with each other through subreddits. Subreddits for language learning have been attracting users of various proficiency levels each year, interested in boosting their learning. In particular, on subreddit German, users are advised to inform their proficiency level when writing a post. Yet only 20% of the posts have such tags. In this paper we address the problem of classifying users’ proficiency from their publications. We conduct experiments which show that classifiers that treat publications as independent observations perform poorly. We then propose a new model dubbed SEMPLICe, which uses both textual features and the publication history of an user to classify her proficiency level over time. By assuming that proficiency is monotonically non-decreasing as long as the user remains active, SEMPLICe yields a weighted F1 score up to 29.6% higher than previous methods. SEMPLICe uses dynamic programming to achieve linear complexity on each user’s history size.
Assunto
Redes sociais on-line, Ensaios de proficiência, Grupos de discussão pela Internet
Palavras-chave
Modelo sequencial, Comunidades online, Classificação automática de proficiência, Reddit
Citação
Departamento
Curso
Endereço externo
https://sol.sbc.org.br/index.php/brasnam/article/view/6548