Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/42299
Full metadata record
DC FieldValueLanguage
dc.contributor.advisor1Gisele Lobo Pappapt_BR
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/5936682335701497pt_BR
dc.contributor.advisor-co1Anisio Mendes Lacerdapt_BR
dc.contributor.referee1Rodrygo Luis Teodoro Santospt_BR
dc.contributor.referee2Solange Oliveira Rezendept_BR
dc.creatorPedro Paulo Valadares Brumpt_BR
dc.creator.Latteshttp://lattes.cnpq.br/7996389934990654pt_BR
dc.date.accessioned2022-06-06T22:50:13Z-
dc.date.available2022-06-06T22:50:13Z-
dc.date.issued2021-09-14-
dc.identifier.urihttp://hdl.handle.net/1843/42299-
dc.description.abstractmaioria dos algoritmos de aprendizado de máquina exige como entrada um vetor de tamanho fixo. Isso torna a área de representação de texto uma área desafiadora de pesquisa em Processamento de Linguagem Natural (NLP), e seus resultados são altamente dependentes da aplicação em questão. Para tarefas de NLP, esse vetor de tamanho fixo geralmente representa uma frase ou um parágrafo. No entanto, construir representações de sentença capazes de capturar as informações semânticas e específicas de um contexto não é uma tarefa fácil. Neste trabalho propomos uma metodologia para resolver um problema real: a identificação de objetos únicos de licitação em bases de dados do Ministério Público Federal de Minas Gerais. Esse cenário traz desafios que vão além dos comumente conhecidos na área de representação de texto, uma vez que queremos agrupar descrições de produtos ou serviços. Essas descrições no geral não seguem a estrutura gramatical de uma sentença na língua portuguesa, já que são formadas em sua maioria por substantivos, adjetivos, e quantidades, essas últimas descrevendo a quantidade de itens comprada/contratada ou a unidade de medida que descreve o item. Dentro do arcabouço proposto, damos ênfase ao problema de representação de texto para algoritmos não-supervisionados. Propomos uma estratégia simples de extração de informações para melhorar a qualidade dos vetores de sentenças, com foco em termos específicos como números e substantivos, e apresentamos uma modificação do Sentence-BERT, que pode ser usada de forma não-supervisionada para geração de embeddings que carregam informações semânticas e sintáticas das descrições. Também identificamos termos numéricos e unidades de medida como os dois componentes principais neste contexto, e mostramos que um método simples de padronização de números tem um efeito significativo nos resultados. Resultados experimentais mostram ganhos do arcabouço proposto em relação a métodos estado-da-arte.pt_BR
dc.description.resumoMost machine learning algorithms require a fixed-size vector as input. This makes the area of text representation a challenging one in Natural Language Processing (NLP) tasks, and its results are highly dependent on the target application. For NLP tasks, this fixed-size vector usually represents a sentence or a paragraph. However, building text representations capable of capturing semantic and context-specific information is not a simple task. In this work, we propose a methodology to solve a real-world problem: the identification of unique objects from public procurement stored in the databases of the Federal Public Ministry of Minas Gerais. These scenarios pose challenges that go beyond those commonly known in the text representation area, as we want to group descriptions of products or services. These descriptions in general do not follow the grammatical structure of a sentence in the Portuguese language, as they are mostly formed by nouns, adjectives, and quantities, the latter describing the quantity of items purchased/contracted or the unit of measure that describes the item. Within the proposed framework, we emphasize the text representation problem for unsupervised algorithms. We propose a simple information extraction strategy to improve the quality of sentence vectors, focusing on specific terms such as numbers and nouns, and present a modification of the BERT siamese network, which can be used in an unsupervised way to generate embeddings that carry semantic and syntactic information from descriptions. We also identify numerical terms and measurement units as the two main components in this context, and show that a simple method of standardizing numbers has a significant effect on the results. Experimental results show improvements from the proposed framework in relation to state-of-the-art methods.pt_BR
dc.description.sponsorshipCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superiorpt_BR
dc.languageengpt_BR
dc.publisherUniversidade Federal de Minas Geraispt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentICEX - INSTITUTO DE CIÊNCIAS EXATASpt_BR
dc.publisher.programPrograma de Pós-Graduação em Ciência da Computaçãopt_BR
dc.publisher.initialsUFMGpt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectText representationpt_BR
dc.subjectText clusteringpt_BR
dc.subjectWord embeddingspt_BR
dc.subjectRepresentação de textopt_BR
dc.subjectAgrupamento de textopt_BR
dc.subjectVetores de palavraspt_BR
dc.subject.otherComputação – Tesespt_BR
dc.subject.otherRepresentação documentária – Tesespt_BR
dc.subject.otherAgrupamento de texto – Tesespt_BR
dc.subject.otherProcessamento da linguagem natural (Computação) - Tesespt_BR
dc.titleEmbedded representations for item descriptions in unsupervised taskspt_BR
dc.title.alternativeRepresentações vetoriais para descrições de itens em tarefas não supervisionadaspt_BR
dc.typeDissertaçãopt_BR
Appears in Collections:Dissertações de Mestrado

Files in This Item:
File Description SizeFormat 
Pedro_Brum_dissertacao.pdf3.34 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.