The exact probability law for the approximated similarity from the Minhashing method

09/20/2022
by   Soumaila Dembélé, et al.
0

We propose a probabilistic setting in which we study the probability law of the Rajaraman and Ullman RU algorithm and a modified version of it denoted by RUM. These algorithms aim at estimating the similarity index between huge texts in the context of the web. We give a foundation of this method by showing, in the ideal case of carefully chosen probability laws, the exact similarity is the mathematical expectation of the random similarity provided by the algorithm. Some extensions are given. Résumé. Nous proposons un cadre probabilistique dans lequel nous étudions la loi de probabilité de l'algorithme de Rajaraman et Ullman RU ainsi qu'une version modifiée de cet algorithme notée RUM. Ces alogrithmes visent à estimer l'indice de la similarité entre des textes de grandes tailles dans le contexte du Web. Nous donnons une base de validité de cette méthode en montrant que pour des lois de probabilités minutieusement choisies, la similarité exacte est l'espérance mathématique de la similarité aléatoire donnée par l'algorithme RUM. Des généralisations sont abordées.

READ FULL TEXT

Please sign up or login with your details

Forgot password? Click here to reset