Algorithme de recherche approximative dans un dictionnaire fondé sur une distance d'édition définie par blocs

09/01/2021
by   Pascal Vaillant, et al.
0

We propose an algorithm for approximative dictionary lookup, where altered strings are matched against reference forms. The algorithm makes use of a divergence function between strings – broadly belonging to the family of edit distances; it finds dictionary entries whose distance to the search string is below a certain threshold. The divergence function is not the classical edit distance (DL distance); it is adaptable to a particular corpus, and is based on elementary alteration costs defined on character blocks, rather than on individual characters. Nous proposons un algorithme de recherche approximative de chaînes dans un dictionnaire à partir de formes altérées. Cet algorithme est fondé sur une fonction de divergence entre chaînes  – une sorte de distance d'édition: il recherche des entrées pour lesquelles la distance à la chaîne cherchée est inférieure à un certain seuil. La fonction utilisée n'est pas la distance d'édition classique (distance DL); elle est adaptée à un corpus, et se fonde sur la prise en compte de coûts d'altération élémentaires définis non pas sur des caractères, mais sur des sous-chaînes (des blocs de caractères).

READ FULL TEXT

page 1

page 2

page 3

page 4

research
02/09/2023

Locally consistent decomposition of strings with applications to edit distance sketching

In this paper we provide a new locally consistent decomposition of strin...
research
02/08/2023

Weighted Edit Distance Computation: Strings, Trees and Dyck

Given two strings of length n over alphabet Σ, and an upper bound k on t...
research
07/14/2023

Approximating Edit Distance in the Fully Dynamic Model

The edit distance is a fundamental measure of sequence similarity, defin...
research
05/07/2019

Kendall Tau Sequence Distance: Extending Kendall Tau from Ranks to Sequences

An edit distance is a measure of the minimum cost sequence of edit opera...
research
10/22/2018

The Bregman chord divergence

Distances are fundamental primitives whose choice significantly impacts ...
research
03/11/2021

Imagined-Trailing-Whitespace-Agnostic Levenshtein Distance For Plaintext Table Detection

The standard algorithm for Levenshtein distance, treats trailing whitesp...
research
11/08/2020

The Harmonic Edit Distance

This short note introduces a new distance between strings, where the cos...

Please sign up or login with your details

Forgot password? Click here to reset