Embedded representations for item descriptions in unsupervised tasks

Pedro Paulo Valadares Brum

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/42299

Full metadata record

DC Field	Value	Language
dc.contributor.advisor1	Gisele Lobo Pappa	pt_BR
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/5936682335701497	pt_BR
dc.contributor.advisor-co1	Anisio Mendes Lacerda	pt_BR
dc.contributor.referee1	Rodrygo Luis Teodoro Santos	pt_BR
dc.contributor.referee2	Solange Oliveira Rezende	pt_BR
dc.creator	Pedro Paulo Valadares Brum	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/7996389934990654	pt_BR
dc.date.accessioned	2022-06-06T22:50:13Z	-
dc.date.available	2022-06-06T22:50:13Z	-
dc.date.issued	2021-09-14	-
dc.identifier.uri	http://hdl.handle.net/1843/42299	-
dc.description.abstract	maioria dos algoritmos de aprendizado de máquina exige como entrada um vetor de tamanho fixo. Isso torna a área de representação de texto uma área desafiadora de pesquisa em Processamento de Linguagem Natural (NLP), e seus resultados são altamente dependentes da aplicação em questão. Para tarefas de NLP, esse vetor de tamanho fixo geralmente representa uma frase ou um parágrafo. No entanto, construir representações de sentença capazes de capturar as informações semânticas e específicas de um contexto não é uma tarefa fácil. Neste trabalho propomos uma metodologia para resolver um problema real: a identificação de objetos únicos de licitação em bases de dados do Ministério Público Federal de Minas Gerais. Esse cenário traz desafios que vão além dos comumente conhecidos na área de representação de texto, uma vez que queremos agrupar descrições de produtos ou serviços. Essas descrições no geral não seguem a estrutura gramatical de uma sentença na língua portuguesa, já que são formadas em sua maioria por substantivos, adjetivos, e quantidades, essas últimas descrevendo a quantidade de itens comprada/contratada ou a unidade de medida que descreve o item. Dentro do arcabouço proposto, damos ênfase ao problema de representação de texto para algoritmos não-supervisionados. Propomos uma estratégia simples de extração de informações para melhorar a qualidade dos vetores de sentenças, com foco em termos específicos como números e substantivos, e apresentamos uma modificação do Sentence-BERT, que pode ser usada de forma não-supervisionada para geração de embeddings que carregam informações semânticas e sintáticas das descrições. Também identificamos termos numéricos e unidades de medida como os dois componentes principais neste contexto, e mostramos que um método simples de padronização de números tem um efeito significativo nos resultados. Resultados experimentais mostram ganhos do arcabouço proposto em relação a métodos estado-da-arte.	pt_BR
dc.description.resumo	Most machine learning algorithms require a fixed-size vector as input. This makes the area of text representation a challenging one in Natural Language Processing (NLP) tasks, and its results are highly dependent on the target application. For NLP tasks, this fixed-size vector usually represents a sentence or a paragraph. However, building text representations capable of capturing semantic and context-specific information is not a simple task. In this work, we propose a methodology to solve a real-world problem: the identification of unique objects from public procurement stored in the databases of the Federal Public Ministry of Minas Gerais. These scenarios pose challenges that go beyond those commonly known in the text representation area, as we want to group descriptions of products or services. These descriptions in general do not follow the grammatical structure of a sentence in the Portuguese language, as they are mostly formed by nouns, adjectives, and quantities, the latter describing the quantity of items purchased/contracted or the unit of measure that describes the item. Within the proposed framework, we emphasize the text representation problem for unsupervised algorithms. We propose a simple information extraction strategy to improve the quality of sentence vectors, focusing on specific terms such as numbers and nouns, and present a modification of the BERT siamese network, which can be used in an unsupervised way to generate embeddings that carry semantic and syntactic information from descriptions. We also identify numerical terms and measurement units as the two main components in this context, and show that a simple method of standardizing numbers has a significant effect on the results. Experimental results show improvements from the proposed framework in relation to state-of-the-art methods.	pt_BR
dc.description.sponsorship	CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior	pt_BR
dc.language	eng	pt_BR
dc.publisher	Universidade Federal de Minas Gerais	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	ICEX - INSTITUTO DE CIÊNCIAS EXATAS	pt_BR
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação	pt_BR
dc.publisher.initials	UFMG	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Text representation	pt_BR
dc.subject	Text clustering	pt_BR
dc.subject	Word embeddings	pt_BR
dc.subject	Representação de texto	pt_BR
dc.subject	Agrupamento de texto	pt_BR
dc.subject	Vetores de palavras	pt_BR
dc.subject.other	Computação – Teses	pt_BR
dc.subject.other	Representação documentária – Teses	pt_BR
dc.subject.other	Agrupamento de texto – Teses	pt_BR
dc.subject.other	Processamento da linguagem natural (Computação) - Teses	pt_BR
dc.title	Embedded representations for item descriptions in unsupervised tasks	pt_BR
dc.title.alternative	Representações vetoriais para descrições de itens em tarefas não supervisionadas	pt_BR
dc.type	Dissertação	pt_BR
Appears in Collections:	Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
Pedro_Brum_dissertacao.pdf		3.34 MB	Adobe PDF	View/Open

Show simple item record