Assessing the effectiveness of large language models in code comment generation
Carregando...
Data
Autor(es)
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Minas Gerais
Descrição
Tipo
Dissertação de mestrado
Título alternativo
Avaliando a eficácia de grandes modelos de linguagem na geração de comentários de código
Primeiro orientador
Membros da banca
Eduardo Magno Lages Figueiredo
João Eduardo Montandon de Araujo Filho
João Eduardo Montandon de Araujo Filho
Resumo
Comentários no código-fonte são essenciais para a legibilidade e a manutenibilidade de sistemas de software, contribuindo diretamente para a redução do esforço de desenvolvimento
futuro. No entanto, muitos desenvolvedores negligenciam essa prática, considerando-a tediosa e demorada. Modelos de Linguagem de Grande Escala (LLMs, do inglês Large
Language Models) vêm sendo aplicados em diferentes tarefas de engenharia de software, incluindo a geração automática de comentários em código-fonte. Alguns estudos recentes
investigaram esse potencial; entretanto, poucos avaliaram de forma sistemática a qualidade da documentação produzida por essas ferramentas. Em grande parte dos casos, as avaliações recorrem exclusivamente a métricas quantitativas, que não capturam a adequação semântica nem a utilidade prática dos comentários. Quando incluem análises qualitativas, empregam critérios simplificados, muitas vezes ignorando aspectos mais sutis de qualidade. Além disso, diversas investigações são conduzidas com conjuntos de dados reduzidos, o que restringe a generalização dos resultados. Outro ponto relevante é que vários trabalhos priorizam a sumarização de código, em detrimento da documentação estruturada. Este trabalho apresenta resultados de uma avaliação abrangente da documentação de código gerada por três LLMs amplamente utilizados: OpenAI GPT-3.5 Turbo, GPT-4o e DeepSeek-V3. Utilizando 415 trechos de código extraídos de repositórios populares no GitHub, foram gerados 1.245 Javadocs. A avaliação realizada combina métricas automatizadas de similaridade textual (BLEU, ROUGE-L e METEOR) com análises qualitativas baseadas em avaliação humana. Além disso, o estudo investiga como características estruturais do código influenciam a qualidade dos comentários gerados. Os resultados indicam que 58,8% dos comentários gerados apresentam qualidade equivalente à dos originais, enquanto 27,7% os superam. Observou-se também que modelos mais recentes, como o GPT-4o e o DeepSeek-V3, produzem documentação mais completa. Curiosamente, embora o tamanho, a complexidade e as dependências do código sejam frequentemente associados a sua baixa qualidade, tais atributos demonstraram uma correlação fraca, porém positiva, com a qualidade dos comentários gerados pelos LLMs — sugerindo que maior contexto pode favorecer a automação dessa tarefa.
Abstract
Source code comments are essential for ensuring software readability and maintainability, significantly reducing future development effort. However, developers often overlook this task, viewing it as tedious and time-consuming. Large Language Models (LLMs) have been applied to a variety of software engineering tasks, including automatic source code comment generation. Some recent studies have investigated this potential; however, few have systematically evaluated the quality of the documentation produced by these tools. In most cases, evaluations rely exclusively on quantitative metrics, which fail to capture the semantic adequacy and practical usefulness of the generated comments. When qualitative analyses are included, they often employ simplified criteria, overlooking more nuanced aspects of quality. Furthermore, many studies are conducted on small datasets, limiting the generalizability of their findings. Another relevant point is that plenty of the existing work focuses on code summarization rather than structured documentation. This dissertation presents results from a comprehensive evaluation of code documentation generated by three widely used LLMs: OpenAI GPT-3.5 Turbo, GPT-4o, and DeepSeek-V3. Using 415 code snippets extracted from popular GitHub repositories, we generated a total of 1,245 Javadocs. Our methodology combines automated textual similarity metrics (BLEU, ROUGE-L, and METEOR) with human evaluation, and further explores how intrinsic code properties influence the quality of the generated documentation. Results indicate that 58.8% of the generated comments match the quality of the original ones, while 27.7% surpass them. More recent models, such as GPT-4o and DeepSeek-V3, produce notably more complete and informative documentation. Interestingly, although attributes such as code size, complexity, and dependency count are typically associated with poorer code quality, our findings reveal a weak yet positive correlation between these factors and the quality of LLM-generated comments—suggesting that additional contextual information may actually support and enhance the automation of code documentation.
Assunto
Computação - Teses, Engenharia de software - Teses, Inteligência Artificial - Teses
Palavras-chave
Source code comments, Large language models, Large language models, GPT, DeepSeek
Citação
Departamento
Endereço externo
Avaliação
Revisão
Suplementado Por
Referenciado Por
Licença Creative Commons
Exceto quando indicado de outra forma, a licença deste item é descrita como Acesso aberto
