Assessing the effectiveness of large language models in code comment generation

Ian Guelman

Assessing the effectiveness of large language models in code comment generation

dc.creator	Ian Guelman
dc.date.accessioned	2026-01-15T15:32:21Z
dc.date.issued	2025-12-05
dc.description.abstract	Source code comments are essential for ensuring software readability and maintainability, significantly reducing future development effort. However, developers often overlook this task, viewing it as tedious and time-consuming. Large Language Models (LLMs) have been applied to a variety of software engineering tasks, including automatic source code comment generation. Some recent studies have investigated this potential; however, few have systematically evaluated the quality of the documentation produced by these tools. In most cases, evaluations rely exclusively on quantitative metrics, which fail to capture the semantic adequacy and practical usefulness of the generated comments. When qualitative analyses are included, they often employ simplified criteria, overlooking more nuanced aspects of quality. Furthermore, many studies are conducted on small datasets, limiting the generalizability of their findings. Another relevant point is that plenty of the existing work focuses on code summarization rather than structured documentation. This dissertation presents results from a comprehensive evaluation of code documentation generated by three widely used LLMs: OpenAI GPT-3.5 Turbo, GPT-4o, and DeepSeek-V3. Using 415 code snippets extracted from popular GitHub repositories, we generated a total of 1,245 Javadocs. Our methodology combines automated textual similarity metrics (BLEU, ROUGE-L, and METEOR) with human evaluation, and further explores how intrinsic code properties influence the quality of the generated documentation. Results indicate that 58.8% of the generated comments match the quality of the original ones, while 27.7% surpass them. More recent models, such as GPT-4o and DeepSeek-V3, produce notably more complete and informative documentation. Interestingly, although attributes such as code size, complexity, and dependency count are typically associated with poorer code quality, our findings reveal a weak yet positive correlation between these factors and the quality of LLM-generated comments—suggesting that additional contextual information may actually support and enhance the automation of code documentation.
dc.identifier.uri	https://hdl.handle.net/1843/1428
dc.language	eng
dc.publisher	Universidade Federal de Minas Gerais
dc.rights	Acesso aberto
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 International	en
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject	Computação - Teses
dc.subject	Engenharia de software - Teses
dc.subject	Inteligência Artificial - Teses
dc.subject.other	Source code comments
dc.subject.other	Large language models
dc.subject.other	Large language models
dc.subject.other	GPT
dc.subject.other	DeepSeek
dc.title	Assessing the effectiveness of large language models in code comment generation
dc.title.alternative	Avaliando a eficácia de grandes modelos de linguagem na geração de comentários de código
dc.type	Dissertação de mestrado
local.contributor.advisor-co1	José Laerte Pires Xavier Júnior
local.contributor.advisor-co1Lattes	http://lattes.cnpq.br/0756079454124435
local.contributor.advisor1	Marco Tulio de Oliveira Valente
local.contributor.advisor1Lattes	http://lattes.cnpq.br/2147157840592913
local.contributor.referee1	Eduardo Magno Lages Figueiredo
local.contributor.referee1	João Eduardo Montandon de Araujo Filho
local.creator.Lattes	http://lattes.cnpq.br/0878112441257035
local.description.resumo	Comentários no código-fonte são essenciais para a legibilidade e a manutenibilidade de sistemas de software, contribuindo diretamente para a redução do esforço de desenvolvimento futuro. No entanto, muitos desenvolvedores negligenciam essa prática, considerando-a tediosa e demorada. Modelos de Linguagem de Grande Escala (LLMs, do inglês Large Language Models) vêm sendo aplicados em diferentes tarefas de engenharia de software, incluindo a geração automática de comentários em código-fonte. Alguns estudos recentes investigaram esse potencial; entretanto, poucos avaliaram de forma sistemática a qualidade da documentação produzida por essas ferramentas. Em grande parte dos casos, as avaliações recorrem exclusivamente a métricas quantitativas, que não capturam a adequação semântica nem a utilidade prática dos comentários. Quando incluem análises qualitativas, empregam critérios simplificados, muitas vezes ignorando aspectos mais sutis de qualidade. Além disso, diversas investigações são conduzidas com conjuntos de dados reduzidos, o que restringe a generalização dos resultados. Outro ponto relevante é que vários trabalhos priorizam a sumarização de código, em detrimento da documentação estruturada. Este trabalho apresenta resultados de uma avaliação abrangente da documentação de código gerada por três LLMs amplamente utilizados: OpenAI GPT-3.5 Turbo, GPT-4o e DeepSeek-V3. Utilizando 415 trechos de código extraídos de repositórios populares no GitHub, foram gerados 1.245 Javadocs. A avaliação realizada combina métricas automatizadas de similaridade textual (BLEU, ROUGE-L e METEOR) com análises qualitativas baseadas em avaliação humana. Além disso, o estudo investiga como características estruturais do código influenciam a qualidade dos comentários gerados. Os resultados indicam que 58,8% dos comentários gerados apresentam qualidade equivalente à dos originais, enquanto 27,7% os superam. Observou-se também que modelos mais recentes, como o GPT-4o e o DeepSeek-V3, produzem documentação mais completa. Curiosamente, embora o tamanho, a complexidade e as dependências do código sejam frequentemente associados a sua baixa qualidade, tais atributos demonstraram uma correlação fraca, porém positiva, com a qualidade dos comentários gerados pelos LLMs — sugerindo que maior contexto pode favorecer a automação dessa tarefa.
local.identifier.orcid	0009-0004-8091-1628
local.publisher.country	Brasil
local.publisher.department	ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
local.publisher.initials	UFMG
local.publisher.program	Programa de Pós-Graduação em Ciência da Computação
local.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::ENGENHARIA DE SOFTWARE

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1

Nome:: Assessing the Effectiveness of Large Language Models in Code Comment Generation.pdf
Tamanho:: 1.94 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 2.07 KB
Formato:: Item-specific license agreed to upon submission
Descrição:

Baixar

Coleções

Pós-Graduação em Ciência da Computação - Dissertações