Similarità per la ricerca del dominio di una frase

01/31/2020
by   Massimiliano Morrelli, et al.
0

English. This document aims to study the best algorithms to verify the belonging of a specific document to a related domain by comparing different methods for calculating the distance between two vectors. This study has been made possible with the help of the structures made available by the Apache Spark framework. Starting from the study illustrated in the publication "New frontier of textual classification: Big data and distributed calculus" by Massimiliano Morrelli et al., We wanted to carry out a study on the possible implementation of a solution capable of calculating the Similarity of a sentence using the distributed environment. Italiano. Il presente documento persegue l'obiettivo di studiare gli algoritmi migliori per verificare l'appartenenza di un determinato documento a un relativo dominio tramite un confronto di diversi metodi per il calcolo della distanza fra due vettori. Tale studio è stato condotto con l'ausilio delle strutture messe a disposizione dal framework Apache Spark. Partendo dallo studio illustrato nella pubblicazione "Nuova frontiera della classificazione testuale: Big data e calcolo distribuito" di Massimiliano Morrelli et al., si è voluto realizzare uno studio sulla possibile implementazione di una soluzione in grado di calcolare la Similarità di una frase sfruttando l'ambiente distribuito.

READ FULL TEXT

page 12

page 13

research
08/18/2020

Addestramento con Dataset Sbilanciati

English. The following document pursues the objective of comparing some ...
research
06/28/2019

Nuova frontiera della classificazione testuale: Big data e calcolo distribuito

This document was created in order to study the algorithms for the categ...
research
06/21/2021

ArgFuse: A Weakly-Supervised Framework for Document-Level Event Argument Aggregation

Most of the existing information extraction frameworks (Wadden et al., 2...
research
03/02/2021

Hindi-Urdu Adposition and Case Supersenses v1.0

These are the guidelines for the application of SNACS (Semantic Network ...
research
10/23/2017

Communication Efficient Checking of Big Data Operations

We propose fast probabilistic algorithms with low (i.e., sublinear in th...
research
03/24/2020

Implementing Suffix Array Algorithm Using Apache Big Table Data Implementation

In this paper we will describe a new approach on the well-known suffix-a...
research
02/10/2018

Document Classification Using Distributed Machine Learning

In this paper, we investigate the performance and success rates of Naïve...

Please sign up or login with your details

Forgot password? Click here to reset