Otimização da integração de topônimos por similaridade lexical

dc.creatorLanna Kallenparreiras
dc.creatorFredy Sales Ribeiro
dc.creatorVagner Braga Nunes Coelho
dc.date.accessioned2025-07-08T20:42:43Z
dc.date.accessioned2025-09-08T23:03:09Z
dc.date.available2025-07-08T20:42:43Z
dc.date.issued2022
dc.description.abstractReal-world identifiable features are, through mapping functions, instantiated in a Geographic Database (GD) as representations of this reality. These representations are individualized by the specifier attributes of the mapped class. Among these attributes are at least one geometry and an identifier name (toponym) associated with the primary key. However, different data producers interpret reality with slight discrepancies, making some representations of mapped features similar but not identical. In particular, toponyms have small differences resulting from modifications over the years, the way they are spelled or, also, due to human errors in the recording of the data. Therefore, when trying to integrate different GDs, through toponyms, they do not favor a total pairing, since the records are not identified as being the same reality. In the particular case of the toponymy class, this occurs mainly due to typos arising from the data insertion process, especially by inversion in the positioning of the characters within the word. In this research, an improvement in the Dice Coefficient was developed and compared with the original method applied in three distinct GDs. The analysis was based on the frequencies of characters and bigrams existing in those bases. The proposed improvement was based on the hypothesis that inverted bigrams, like 'αβ' and 'βα', may, according to certain criteria, be admitted as similar. The analysis identified the most common characters and the most frequent bigrams in the bases whose association with a distance analysis on a standard keyboard allowed the identification of a series of pairs of bigrams to be considered similar. This proposal allowed an average increase of 0.58% in the total paired instances in the GDs tested.
dc.format.mimetypepdf
dc.identifier.doihttps://doi.org/10.14393/rbcv74n2-64136
dc.identifier.issn1808-0936
dc.identifier.urihttps://hdl.handle.net/1843/83430
dc.languagepor
dc.publisherUniversidade Federal de Minas Gerais
dc.relation.ispartofRevista Brasileira de Cartografia
dc.rightsAcesso Aberto
dc.subjectBanco de dados geográficos
dc.subjectToponímia
dc.subject.otherBanco de Dados Geográficos
dc.subject.otherSimilaridade lexical
dc.subject.otherToponímia
dc.subject.otherTeclado
dc.titleOtimização da integração de topônimos por similaridade lexical
dc.title.alternativeOptimization of Integration of Toponyms by Lexical Similarity
dc.typeArtigo de periódico
local.citation.epage304
local.citation.issue2
local.citation.spage290
local.citation.volume74
local.description.resumoFeições identificáveis do mundo real são, por intermédio de funções de mapeamento, instanciadas em um Banco de Dados Geográfico (BDG) como representações dessa realidade. Essas representações são individualizadas pelos atributos especificadores da classe mapeada. Entre esses atributos estão pelo menos uma geometria e um nome identificador (topônimo) associado à chave primária. No entanto, diferentes produtores de dados interpretam a realidade com pequenas discrepâncias, tornando algumas representações de características mapeadas semelhantes, mas não idênticas. Em particular, os topônimos têm pequenas diferenças resultantes de modificações ao longo dos anos, da forma como são soletrados ou, também, devido a erros humanos no registro dos dados. Portanto, ao tentar integrar diferentes BDGs, por meio de topônimos, eles não favorecem um pareamento total, uma vez que os registros não são identificados como sendo representativos da mesma realidade. No caso específico da classe toponímia, isso ocorre principalmente devido a erros de digitação decorrentes do processo de inserção de dados, especialmente pela inversão no posicionamento dos caracteres dentro da palavra. Nesta pesquisa, foi desenvolvida uma melhoria no Coeficiente de Dados e comparada com o método original aplicado em três BDGs distintos. A análise foi baseada nas frequências de caracteres e bigramas existentes nessas bases. A melhoria proposta baseou-se na hipótese de que bigramas invertidos, como 'αβ' e 'βα', podem, segundo certos critérios, ser admitidos como semelhantes. A análise identificou os caracteres mais comuns e os bigramas mais frequentes nas bases, cuja associação com uma análise da distância normalizada em um teclado padrão, permitiu a identificação de uma série de pares de bigramas considerados semelhantes. Essa proposta permitiu um aumento médio de 0,58% no total de instâncias pareadas nos BDGs testados.
local.identifier.orcidhttps://orcid.org/0000-0002-7512-2024
local.publisher.countryBrasil
local.publisher.departmentIGC - DEPARTAMENTO DE CARTOGRAFIA
local.publisher.initialsUFMG
local.url.externahttps://seer.ufu.br/index.php/revistabrasileiracartografia/article/view/64136

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Otimização da integração de topônimos por similaridade lexical.pdf
Tamanho:
400.42 KB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
License.txt
Tamanho:
1.99 KB
Formato:
Plain Text
Descrição: