Assessing the effectiveness of large language models in code comment generation

dc.creatorIan Guelman
dc.date.accessioned2026-01-15T15:32:21Z
dc.date.issued2025-12-05
dc.description.abstractSource code comments are essential for ensuring software readability and maintainability, significantly reducing future development effort. However, developers often overlook this task, viewing it as tedious and time-consuming. Large Language Models (LLMs) have been applied to a variety of software engineering tasks, including automatic source code comment generation. Some recent studies have investigated this potential; however, few have systematically evaluated the quality of the documentation produced by these tools. In most cases, evaluations rely exclusively on quantitative metrics, which fail to capture the semantic adequacy and practical usefulness of the generated comments. When qualitative analyses are included, they often employ simplified criteria, overlooking more nuanced aspects of quality. Furthermore, many studies are conducted on small datasets, limiting the generalizability of their findings. Another relevant point is that plenty of the existing work focuses on code summarization rather than structured documentation. This dissertation presents results from a comprehensive evaluation of code documentation generated by three widely used LLMs: OpenAI GPT-3.5 Turbo, GPT-4o, and DeepSeek-V3. Using 415 code snippets extracted from popular GitHub repositories, we generated a total of 1,245 Javadocs. Our methodology combines automated textual similarity metrics (BLEU, ROUGE-L, and METEOR) with human evaluation, and further explores how intrinsic code properties influence the quality of the generated documentation. Results indicate that 58.8% of the generated comments match the quality of the original ones, while 27.7% surpass them. More recent models, such as GPT-4o and DeepSeek-V3, produce notably more complete and informative documentation. Interestingly, although attributes such as code size, complexity, and dependency count are typically associated with poorer code quality, our findings reveal a weak yet positive correlation between these factors and the quality of LLM-generated comments—suggesting that additional contextual information may actually support and enhance the automation of code documentation.
dc.identifier.urihttps://hdl.handle.net/1843/1428
dc.languageeng
dc.publisherUniversidade Federal de Minas Gerais
dc.rightsAcesso aberto
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Internationalen
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectComputação - Teses
dc.subjectEngenharia de software - Teses
dc.subjectInteligência Artificial - Teses
dc.subject.otherSource code comments
dc.subject.otherLarge language models
dc.subject.otherLarge language models
dc.subject.otherGPT
dc.subject.otherDeepSeek
dc.titleAssessing the effectiveness of large language models in code comment generation
dc.title.alternativeAvaliando a eficácia de grandes modelos de linguagem na geração de comentários de código
dc.typeDissertação de mestrado
local.contributor.advisor-co1José Laerte Pires Xavier Júnior
local.contributor.advisor-co1Latteshttp://lattes.cnpq.br/0756079454124435
local.contributor.advisor1Marco Tulio de Oliveira Valente
local.contributor.advisor1Latteshttp://lattes.cnpq.br/2147157840592913
local.contributor.referee1Eduardo Magno Lages Figueiredo
local.contributor.referee1João Eduardo Montandon de Araujo Filho
local.creator.Latteshttp://lattes.cnpq.br/0878112441257035
local.description.resumoComentários no código-fonte são essenciais para a legibilidade e a manutenibilidade de sistemas de software, contribuindo diretamente para a redução do esforço de desenvolvimento futuro. No entanto, muitos desenvolvedores negligenciam essa prática, considerando-a tediosa e demorada. Modelos de Linguagem de Grande Escala (LLMs, do inglês Large Language Models) vêm sendo aplicados em diferentes tarefas de engenharia de software, incluindo a geração automática de comentários em código-fonte. Alguns estudos recentes investigaram esse potencial; entretanto, poucos avaliaram de forma sistemática a qualidade da documentação produzida por essas ferramentas. Em grande parte dos casos, as avaliações recorrem exclusivamente a métricas quantitativas, que não capturam a adequação semântica nem a utilidade prática dos comentários. Quando incluem análises qualitativas, empregam critérios simplificados, muitas vezes ignorando aspectos mais sutis de qualidade. Além disso, diversas investigações são conduzidas com conjuntos de dados reduzidos, o que restringe a generalização dos resultados. Outro ponto relevante é que vários trabalhos priorizam a sumarização de código, em detrimento da documentação estruturada. Este trabalho apresenta resultados de uma avaliação abrangente da documentação de código gerada por três LLMs amplamente utilizados: OpenAI GPT-3.5 Turbo, GPT-4o e DeepSeek-V3. Utilizando 415 trechos de código extraídos de repositórios populares no GitHub, foram gerados 1.245 Javadocs. A avaliação realizada combina métricas automatizadas de similaridade textual (BLEU, ROUGE-L e METEOR) com análises qualitativas baseadas em avaliação humana. Além disso, o estudo investiga como características estruturais do código influenciam a qualidade dos comentários gerados. Os resultados indicam que 58,8% dos comentários gerados apresentam qualidade equivalente à dos originais, enquanto 27,7% os superam. Observou-se também que modelos mais recentes, como o GPT-4o e o DeepSeek-V3, produzem documentação mais completa. Curiosamente, embora o tamanho, a complexidade e as dependências do código sejam frequentemente associados a sua baixa qualidade, tais atributos demonstraram uma correlação fraca, porém positiva, com a qualidade dos comentários gerados pelos LLMs — sugerindo que maior contexto pode favorecer a automação dessa tarefa.
local.identifier.orcid0009-0004-8091-1628
local.publisher.countryBrasil
local.publisher.departmentICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
local.publisher.initialsUFMG
local.publisher.programPrograma de Pós-Graduação em Ciência da Computação
local.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::ENGENHARIA DE SOFTWARE

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Assessing the Effectiveness of Large Language Models in Code Comment Generation.pdf
Tamanho:
1.94 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.07 KB
Formato:
Item-specific license agreed to upon submission
Descrição: