A new approach of contextual recommendation based on the method of Hierarchical Analysis of Processes

10/23/2018
by   Halima Nefzi, et al.
0

Recommender systems are able to estimate the user's interest for resource given from some relative information to others similar users and to propriety of the resource. In this Memory, we introduced a new contextual recommendation approach based on the AHP Process Hierarchical Analysis method. This work consisted in making a bibliographic study on the works having proposed systems of recommendation based on the context of the users in the field of films. The goal is to design and develop a new approach to recommending movies based on user context. And we relied on methods of multi-criteria decision making (MCDM) and more precisely the method of Hierarchical Process Analysis (AHP) for context integration in the recommendation process.

READ FULL TEXT VIEW PDF
POST COMMENT

Comments

There are no comments yet.

Authors

page 21

02/25/2014

Uncovering the information core in recommender systems

With the rapid growth of the Internet and overwhelming amount of informa...
05/27/2020

An Exploratory Study of Hierarchical Fuzzy Systems Approach in Recommendation System

Recommendation system or also known as a recommender system is a tool to...
06/08/2021

ConSTR: A Contextual Search Term Recommender

In this demo paper, we present ConSTR, a novel Contextual Search Term Re...
07/27/2020

Towards Multi-Language Recipe Personalisation and Recommendation

Multi-language recipe personalisation and recommendation is an under-exp...
05/01/2021

Can we aggregate human intelligence? an approach for human centric aggregation using ordered weighted averaging operators

The primary objective of this paper is to present an approach for recomm...
06/14/2019

A Strategy for Expert Recommendation From Open Data Available on the Lattes Platform

With the increasing volume of data and users of curriculum systems, the ...
08/07/2018

Endogenous and Exogenous Multi-Modal Layers in Context Aware Recommendation Systems for Health

People care more about the solutions to their problems rather than data ...
This week in AI

Get the week's most popular data science and artificial intelligence research sent straight to your inbox every Saturday.

Contexte et problématique :

La masse des données échangées aujourd’hui sur Internet constitue un atout sans précédent pour l’accès de tous à l’information. De même, l’explosion des services de recommandation de nos jours ont propulsé la recherche d’information (RI). En effet, la surabondance de l’information a engendré la dégradation de la qualité des résultats retournés par un système de recommandation et a apporté de nouveaux problèmes au domaine de recherche d’information. L’arrivée des systèmes de recommandation permet de résoudre le problème de la surcharge d’information auxquels ils sont confrontés, aujourd’hui, avec l’avènement d’Internet, en leur fournissant des recommandations. Ce sont alors des systèmes qui présentent aux utilisateurs les contenus les plus pertinents, en utilisant certaines informations concernant leurs historiques préférences.
     Depuis les années 90, les systèmes de recommandation sont apparus comme un domaine de recherche indépendant. Les chercheurs ont commencé à se concentrer sur les problèmes de recommandation en s’appuyant sur la notion de classement « rating » (R : USER x ITEM -> RATING)

pour exprimer les préférences des utilisateurs. Comme les gens disposent de leurs appareils mobiles à tout moment et partout dans le monde, l’utilisation des capacités de ces dispositifs intelligents offre une occasion importante pour améliorer la qualité des items recommandés aux utilisateurs

(Rcontext : USER x ITEM x CONTEXT -> RATING) [14]. De ce fait, afin de choisir le film à regarder, les gens choisissent un film ou plusieurs à partir d’un grand nombre de films stockés dans une base de données (exemple : MovieLens). Toutefois, le choix de l’utilisateur est fortement lié à son contexte représenté par : sa localisation, le temps, son activité, et son humeur. Par exemple, un utilisateur peut regarder un film de genre "Romance" durant un jour de pluie et choisir un autre film de genre "Comedy" lorsqu’il est de bonne humeur.
Dans ce contexte, citons le travail de Imen et al. (2017) [15], membre de notre laboratoire LIPAH, qui a exploité le contexte dans les systèmes de recommandation afin de suggérer des éléments qui aident les utilisateurs à prendre des décisions parmi un grand nombre d’actions possibles, telles que le lieu à visiter, le film à regarder ou l’ami à ajouter à un réseau social.
Alors, l’idée de proposer un système de recommandation, pouvant limiter les actions d’un ami proche ou d’un expert en adaptant les recommandations non seulement aux préférences de l’utilisateur, mais aussi à son contexte, devient de plus en plus intéressante.

Contributions

En recommandation, il peut être intéressant de placer les utilisateurs (ou les items) dans un contexte précis afin d’en extraire plus d’informations et ainsi obtenir une meilleure prédiction des préférences. L’objectif du présent mémoire est de proposer une nouvelle approche permettant l’introduction du contexte dans le processus de recommandation tout en se basant sur l’une des méthodes de prise de décision à critères multiples (MCDM) : c’est la méthode d’Analyse Hiérarchique des Procédés (AHP) qui permet de faciliter le choix de décision pour un utilisateur et aider à choisir la meilleure solution.

Plan du mémoire :

Les travaux de recherche sont synthétisés dans ce mémoire composé de quatre chapitres :

  • Le premier chapitre récapitule quelques concepts de base, à savoir les systèmes de recommandation classiques et sensibles au contexte, leurs définitions et leurs techniques et leurs architectures.

  • Le deuxième chapitre est consacré à la représentation des diverses approches des recommandations basées sur le contexte dans le domaine des films.

  • Dans le troisième chapitre, nous allons présenter les méthodes de prise de décision à critères multiples (MCDM) et plus précisément la méthode d’Analyse Hiérarchique des Procédés (AHP). Ensuite, nous allons proposer une nouvelle approche de recommandation contextuelle en utilisant la méthode AHP.

  • Le quatrième chapitre exposera une étude expérimentale de notre nouvelle approche. Nous clôturons ce chapitre avec une synthèse de l’ensemble de nos travaux ainsi que quelques perspectives futures de recherche.

1.1 Introduction

Dans ce chapitre, nous présentons les notions de bases importantes que nous utilisons tout le long de ce mémoire. Nous commençons par les notions de base des systèmes de recommandations classiques en détaillant les techniques utilisées et les limites de ces systèmes. Ensuite, nous allons définir quelques notions de base des systèmes de recommandation contextuels et nous allons terminer par quelques définitions des façons d’intégration du contexte.

1.2 Systèmes de recommandation classiques

1.2.1 Définition

Les systèmes de recommandation peuvent être définis de plusieurs façons, vue la diversité des classifications proposées pour ces systèmes. La définition que nous utiliserons dans ce mémoire est une définition générale de J. Bobadilla :
les systèmes de recommandation peuvent être définis comme des programmes qui essayent de recommander les articles les plus appropriés (des produits ou des services) aux utilisateurs particuliers (des individus ou des affaires (activités)) en prévoyant l’intérêt d’un utilisateur dans un article basé sur des informations liées sur les articles, les utilisateurs et les interactions entre des articles et des utilisateurs [16].
Définition de Burke et Robin " Des systèmes capables de fournir des recommandations personnalisées permettant de guider l’utilisateur vers des ressources intéressantes et utiles au sein d’un espace de données important " [17].

Voici les travaux qui ont menés en collaboration avec notre laboratoire LIPAH concernant les systèmes de recommandation personnalisés : Jelassi et al. (2013 [18], 2014 [19], 2015 [20], 2016 [21]).

D’après Chris Anderson dans " The Long Tail ", les bouleversements qu’a subi le Web et la masse de données qui constituent Internet font que " nous quittons progressivement l’âge de l’information pour rentrer dans l’âge de la recommandation " [22].
La tâche d’un système de recommandation consiste à accomplir un filtrage d’information afin de suggérer à un utilisateur des articles à acheter (ex. e-commerce) ou bien d’autres utilisateurs avec qui interagir/se connecter (ex. réseaux sociaux) [23]. Ces recommandations peuvent concerner un article à lire, un livre à commander, un film à regarder, un restaurant à choisir, une musique à écouter, etc. Ainsi, l’utilisation des systèmes de recommandation est arrivée pour résoudre le problème de surcharge et de profusion d’informations disponibles notamment à travers le Web ou les e-services.

1.2.2 Les données

Les deux entités de base qui apparaissent dans tous les systèmes de recommandations sont l’utilisateur et l’article (Item en Anglais). En effet, l’utilisateur est la personne qui utilise un système de recommandation, donne son opinion sur divers articles et reçoit les nouvelles recommandations du système et l’item est le terme général utilisé pour désigner ce que le système recommande aux utilisateurs. Les données d’entrée pour un système de recommandation dépendent du type de l’algorithme de filtrage employé. Généralement, elles appartiennent à l’une des catégories suivantes :

  • Des notes aux items consultés indiquant le degré d’appréciation d’un item par cet utilisateur. Les notes sont souvent numériques et limitées par une échelle de valeurs.
    Une note élevée signifie que l’utilisateur accorde un grand intérêt à l’item et qu’il correspond bien à ses goûts. Par contre, une note faible signifie que l’utilisateur ne s’intéresse pas à l’item. Dans d’autres cas, les notes peuvent être exprimées sous une forme binaire telle que "Aime" ou "Aime pas".
    Les notes permettent de faciliter l’apprentissage des appréciations vu que les notes sont faciles à traiter par le système de recommandation. Les utilisateurs n’ayant pas les mêmes façons de noter, les notes peuvent ne pas être fiables. En effet, certains utilisateurs attribuent des notes élevées et d’autres non. Par exemple, sur une échelle , une note qui vaut 3 peut être négative pour un utilisateur et plutôt neutre pour un autre.
    Exemple 1 (Site d’Amazon) Considérons l’exemple ci-dessous des notes dans le site "Amazon" :

    Figure 1.1: Exemple de notes : Site d’Amazon

    Le tableau 1.1 donne les échelles des notes avec leurs descriptions :

    Type d’échelle Description
    Unaire "Aime" ou "Je sais pas"
    Binaire "Aime" ou "Aime pas"
    Entier , ou
    Table 1.1: Les échelles des notes les plus connues
  • Des commentaires, des mots-clés ou des tags sur des items ces tags ont eu l’intention d’inclure chaque artiste disponible sur LastFM indépendamment du genre et promouvoir un sens communautaire. Quand complété (achevé), toute la radio d’étiquette devrait fournir tout le monde la capacité d’avoir accès à une sélection largement éclectique de musique. Ceci permettra à l’utilisateur de découvrir et développer des intérêts dans des styles de musique auxquels ils ne seraient pas autrement normalement exposés.

    Exemple 2 (LastFM) La figure 1.2 montre un exemple d’ajout de tags sur le site de recommandation de musique "LastFM".

    Figure 1.2: LastFM: Exemple de tags
  • Des attributs démographiques ces attributs concernant l’utilisateur, tels que : l’âge, le sexe, la catégorie socio-professionnelle, le niveau d’étude, la localité géographique, le statut personnel, etc. Ils ne fournissent pas d’informations sur les appréciations, mais ils permettent notamment d’affiner le profil utilisateur afin d’y adapter les recommandations.

1.2.3 La notion de profil dans les systèmes de recommandation

Les profils pour réaliser le filtrage, les systèmes de recommandation utilisent les profils représentant des préférences relativement stables des utilisateurs pour calculer des recommandations. Ce calcul se fait par la prédiction des scores qu’un utilisateur est susceptible d’attribuer aux contenus.
Les systèmes de recommandation adaptent ce profil au cours du temps en exploitant au mieux le retour de pertinence que les utilisateurs fournissent sur les documents reçus. Par exemple, dans la figure 1.3, la fonction de décision du système traite les flux entrant de documents pour suggérer à l’utilisateur, en consultant son profil, les documents qu’il préfère. Par la suite, l’utilisateur doit évaluer fréquemment les recommandations pour que le système comprenne mieux ses besoins en informations et lui fournisse par conséquent de meilleures nouvelles recommandations.

Figure 1.3: Système général de filtrage d’information

1.2.4 Classification des systèmes de recommandation

Il existe plusieurs classifications des systèmes de recommandations:

  • La classification classique cette classification de Adomavicius et Tuzhilin [24] est reconnue par trois types de filtrage : un filtrage collaboratif (CF), un filtrage basé sur le contenu (CBF) et le filtrage hybride.

  • La classification de Su et al.[25] elle est utilisée dans les systèmes de collaboration. Ils proposent une sous classification qui comprend les techniques hybrides et les classer dans les méthodes de collaboration. Su et al. [25] classent le filtrage collaboratif en trois catégories :

    • Approches CF à base de mémoire : pour K-plus proches voisins.

    • Approches CF basé sur un modèle englobant une variété de techniques telles que : Clustering, les réseaux bayésiens, factorisation de matrices, les processus de décision de Markov.

    • CF hybride qui combine une technique de recommandation CF avec une ou plusieurs autres méthodes.

  • La classification de Rao and Talwar [26] c’est une classification en fonction de la source d’information utilisée.

Pour tous les systèmes de recommandation développés jusqu’à nos jours, la collecte de données relatives aux utilisateurs et/ou aux items, représente une phase clé dans le processus de personnalisation. La sous-section qui suit décrit les techniques utilisées par les systèmes de recommandation.

1.2.5 Les techniques de recommandation

Il existe une large variété de techniques de recommandation. À travers les travaux de recherche, différentes tentatives de classification des approches ou des techniques ont été réalisées. La classification de ces approches dépend notamment du type de données exploitées et de la méthode d’apprentissage utilisée par le système de recommandation. Dans cette partie, nous présentons les principales techniques de recommandation avec leurs apports et leurs limites.
     Plusieurs facteurs entrent en considération afin de catégoriser les systèmes de recommandation:

  • La connaissance de l’utilisateur c’est à dire le profil de l’utilisateur en fonction de ses préférences.

  • La notion de classes ou réseaux d’utilisateurs : le positionnement d’un utilisateur par rapport aux autres.

  • La connaissance des items à recommander.

  • La connaissance des différentes classes d’items à recommander.

À partir de ces facteurs, divers types de recommandations ont été produits. Parmi les techniques les plus utilisées dans la littérature sont le filtrage basé sur le contenu, le filtrage collaboratif et les méthodes hybrides.

1.2.5.1 Filtrage basé sur le contenu

Dans cette partie, nous définissons dans un premier lieu le filtrage basé sur le contenu, puis nous donnons l’architecture générale de ce filtrage ainsi que les deux types de recommandation basée sur le contenu.

  1. [label=)]

  2. Définition du filtrage basé sur le contenu
    Le filtrage basé sur le contenu est une évolution générale des études sur le filtrage d’information s’appuie sur des évaluations effectuées par un utilisateur sur un ensemble des documents ou items [27].
    Naak [28] a défini le filtrage basé sur le contenu comme ceci : " les méthodes basées sur le contenu, comme leur nom l’indique, se basent sur la compréhension de pourquoi l’usager, à qui la recommandation est destinée, a donné une haute valeur à certains items qu’il a évalués dans le passé ? Une fois cette question résolue, le système cherche parmi les nouveaux items ceux qui maximisent ces caractéristiques pour les lui recommander ".
    La technique de recommandation basée sur le contenu peut être appliquée à la recommandation de pages Web, de films, d’articles actualités, de restaurants, etc. Cette technique a pour avantage de pouvoir générer des recommandations en dépit d’une situation de démarrage à froid.

  3. Architecture générale
    Cette technique de recommandation basée sur le contenu s’articule autour de trois modules principaux :

    • L’analyseur de contenu: selon la nature des données à recommander (texte, éléments multimédia, pages Web, produits commerciaux, etc.), une étape de pré-traitement est nécessaire afin de décrire les objets à recommander et d’en extraire les caractéristiques. Le module d’analyse de contenu est responsable de produire une description structurée de ces objets. Cette description va servir d’élément d’entrée aux autres modules.

    • Le module d’apprentissage de profils : ce module est responsable de l’analyse des interactions passées de l’utilisateur sur les objets du système. En utilisant des méthodes empruntées au monde de l’apprentissage, ce module construit une description des préférences des utilisateurs.

    • Le module de filtrage : à partir des profils utilisateurs et des descriptions des objets à recommander, ce module construit des listes de suggestions à présenter aux utilisateurs.

    Figure 1.4: Recommandation basée sur le contenu
  4. Les deux types de recommandation basée sur le contenu
    On distingue deux types de recommandation basée sur le contenu : la recommandation basée sur les mots clefs ainsi que la recommandation basée sur la sémantique.

    • Recommandation basée sur les mots clefs lorsqu’un utilisateur a tendance à consulter souvent des articles portant sur le domaine de la génétique, le système lui proposera des recommandations liées à la génétique. En effet, ces articles disposent de mots-clés communs tels que : "ADN", "gène" ou "protéine".
      Lorsque des caractéristiques plus complexes sont nécessaires, les approches à base de mots clefs montrent leurs limites. Si l’utilisateur, par exemple, aime "l’impressionnisme Français", les approches à base de mots-clefs chercheront seulement des documents dans lesquels les mots "Français" et "impressionnisme" apparaissent. Des documents concernant Claude Monet ou Renoir n’apparaîtront pas dans l’ensemble des recommandations, même s’ils sont susceptibles d’être pertinents pour l’utilisateur.

    • Recommandation basée sur la sémantique les systèmes de recommandation basés sur la sémantique évoluent au rythme des méthodes et outils proposés dans le domaine du Web sémantique. La sémantique a été introduite par plusieurs méthodes dans le processus de recommandation. Ces méthodes sont abordées en tenant compte de plusieurs critères :

    • Le type de source de connaissance impliquée (lexique, ontologie, etc.).

    • Les techniques adoptées pour l’annotation ou la représentation d’items.

    • Le type de contenu inclus dans le profil utilisateur.

    • La stratégie de correspondance entre items et profil.

Il existe différents méthodes basées sur le contenu qui ont donné des résultats pertinents et plus précis comparés aux méthodes traditionnelles basées sur le contenu.
SiteIF c’est le premier système à adopter une représentation basée sur le sens des documents pour construire un modèle des intérêts de l’utilisateur. SiteIF est un agent personnel pour un site Web de nouvelles multilingues [29].
ITR : ITerm Recommender un système capable de fournir des recommandations d’items dans plusieurs domaines (films, musique, livres), à condition que les descriptions d’articles soient disponibles sous forme de documents texte [30].
SEWeP : Semantic Enhancement for Web Personalization est un système de personnalisation Web, qui utilise à la fois les logs d’utilisation et la sémantique du contenu du site Web dans le but de le personnaliser.
Quickstep est un système de recommandation d’articles de recherche académique. Le système adopte une ontologie d’articles de recherche basée sur la classification scientifique du projet DMOZ open directory [31].
Informed Recommender ce système utilise les avis des utilisateurs sur les produits pour faire des recommandations. Le système convertit les opinions des clients dans une forme structurée en utilisant une ontologie de traduction, qui est exploitée pour la représentation et le partage de connaissance [32].

1.2.5.2 Filtrage collaboratif
  1. [label=)]

  2. Définition du filtrage collaboratif
    Lorsque les systèmes de recommandation basés sur le contenu trouvent des propriétés semblables, le filtrage collaboratif (FC) trouve des évaluations semblables. Ces systèmes comparent des utilisateurs et des articles seulement par le comportement d’utilisateur passé (c’est-à-dire les rangées et les colonnes de la matrice utilitaire), sans regarder leurs propriétés.
    Cette deuxième grande famille de systèmes de recommandation est basée sur l’hypothèse que les utilisateurs qui ont aimé des articles similaires par le passé ont un goût similaire et vont donc apprécier les mêmes articles dans le futur. Un des exemples les plus connus d’un tel système a été popularisé par le site de commerce en ligne "Amazon.com" et son algorithme de Item-to-item Collaborative Filtering qui se traduit sur le site par la fonctionnalité "Les gens qui ont acheté le produit x ont aussi acheté le produit y" [33]. La figure 1.5 décrit la technique de filtrage collaboratif.

    Figure 1.5: Recommandation basée sur le filtrage collaboratif

    Dans un système de filtrage collaboratif, il faut que les utilisateurs fournissent des évaluations des items qu’ils ont déjà utilisés, sous forme des notes, pour constituer leurs profils. Il n’y a aucune analyse du sujet ou du contenu des objets à recommander. Ce type de système est très efficace en cas où le contenu des objets est complexe, il est compliqué ou impossible de l’analyser, l’utilisateur peut apercevoir divers domaines intéressants, car le principe du filtrage collaboratif ne se fonde absolument pas sur la dimension thématique des profils, et n’est pas soumis à l’effet « entonnoir ».
    L’avantage principal de cette approche est qu’elle ne nécessite pas de description précise des objets à recommander. Les recommandations étant basées sur l’ensemble des interactions des utilisateurs avec les objets/produits, cette méthode permet de recommander des objets complexes sans avoir à les analyser. La plupart des services de recommandation de musique en ligne fonctionnent sur ce mode (ex. LastFM) car les fichiers multimédia sont difficiles à analyser.
    Exemple 3 (un groupe d’amis sur MovieLens) la figure 1.6 représente un tableau de films : sur un axe les utilisateurs d’un même système et sur un autre les films. Chaque cellule de la matrice contient l’avis donné par un utilisateur pour un film, la cellule vide signifie qu’il n’a pas d’avis particulier sur ce film. Afin de prédire si Mourad apprécierait le film "Harry Potter"

    et probablement lui recommander ce film, on compare les votes de

    Mourad à ceux des autres utilisateurs choisis. On peut alors voir que Mourad et Rahma ont des votes identiques, et que Rahma n’a pas aimé le film "Harry Potter" et "les Reliques de la Mort", on pourrait alors prédire que Mourad n’aimera pas aussi ce film et de ne lui pas faire cette suggestion.

    Figure 1.6: Exemple de recommandation basée sur le filtrage collaboratif
  3. Processus du filtrage collaboratif
    Évaluation des recommandations : pour pouvoir fonctionner, le système a besoin de collecter des données sur les utilisateurs et leurs préférences, cette collecte peut se faire de deux façons : Collecte explicite et Collecte implicite

    • Collecte explicite : dans ce cas, les utilisateurs sont sollicités pour émettre leurs avis sur des produits/objets. Ils peuvent le faire via un système de notation (ex. une grille de 5 étoiles, un questionnaire de satisfaction), ou bien en publiant leurs avis sur un élément donné (ex. La fonctionnalité "J’aime" sur le réseau social Facebook permet aux utilisateurs d’exprimer leur intérêt pour un élément donné).

    • Collecte implicite : s’intéresse aux interactions des utilisateurs sur le système. Les exemples de cette collecte incluent la surveillance du nombre de visites sur une page, le nombre de vues sur une vidéo, le temps passé sur une section donnée ou de l’historique des achats sur une plateforme de e-commerce.

    Production des recommandations : une fois la communauté de l’utilisateur est crée, le système prédit l’intérêt qu’un document particulier peut présenter pour l’utilisateur en s’appuyant sur les évaluations que les membres de la communauté ont faites sur ce même document. Lorsque l’intérêt prédit dépasse un certain seuil, le système recommande le document à l’utilisateur.
    Profil de l’utilisateur : le profil de l’utilisateur est composé d’un ensemble des prédicats pondérés. Ce profil s’enrichit progressivement au fur et à mesure que l’utilisateur évalue des documents reçus. Outre les informations d’identification de base, le profil de l’utilisateur peut regrouper des informations très diverses selon les besoins.

    Informations d’identification Description
    Les caractéristiques personnelles Ces caractéristiques peuvent influencer fortement l’interaction (âge, sexe, etc.).
    Sécurité Cette dimension est le niveau de confidentialité concernant tous les autres critères.
    Livraison On peut citer la modalité de livraison des informations comme le format, le standard, le volume, le mode de visualisation et le délai.

    Historique des interactions avec le service
    Cet historique permet de modéliser les habitudes comportementales.
    Table 1.2: Description des informations d’identification

    Communautés : la notion des communautés est définie comme le regroupement des utilisateurs en fonction de l’historique de leurs évaluations, afin que le système calcule des recommandations. Selon cette optique, les profils sont un facteur interactif alors que les communautés sont considérées comme un facteur interne du système.

    Calcul de la prédiction pour un système de filtrage collaboratif : l’exploitation des données disponibles dans un système de filtrage peut se faire de plusieurs manières. Ces méthodes sont classées en deux principales familles : les algorithmes basés sur la mémoire et les algorithmes basés sur le modèle.
    Algorithmes basés sur la mémoire : ils utilisent l’ensemble de la base de données des évaluations des utilisateurs pour faire les prédictions : les évaluations de l’utilisateur actif sont prédites à partir d’informations partielles concernant l’utilisateur actif, et un ensemble de poids calculés à partir de la base de données des évaluations des utilisateurs.

    • Filtrage collaboratif basé sur la mémoire (utilisateurs) : les systèmes basés sur le voisinage utilisateur, évaluent l’intérêt d’un utilisateur pour un item en utilisant les notes de cet item. Ces notes sont données par d’autres utilisateurs, appelés voisins, qui ont des habitudes de notation similaires. En se basant sur le profil d’un utilisateur , le système recherche les utilisateurs ( diffère de ) qui lui sont les plus similaires. Alors, Les deux mesures de similarité qui sont très utilisées sont : la corrélation de Pearson et la similarité vectorielle.
      La corrélation de Pearson : la corrélation de Pearson est une méthode issue des statistiques. Elle est aussi très utilisée dans le domaine des systèmes de recommandation pour mesurer la similarité entre deux utilisateurs. La formule suivante, nous donne cette valeur pour deux utilisateurs A et B :

      (1.1)
      Notation Signification
      Indice d’objets ayant été voté à la fois par A et B
      Vote de A pour l’item
      Moyenne des votes de A
      Table 1.3: Notations utilisées dans la méthode " Corrélation de Pearson "

      Cosinus des vecteurs : dans cette méthode, les utilisateurs A et B sont considérés comme deux vecteurs de même origine dans un espace de dimensions, est égal au nombre d’items évalués par les deux utilisateurs.
      Empiriquement, la similarité entre ces deux utilisateurs est calculée par la formule du Cosinus suivante :

      (1.2)
      Notation Signification
      Nombre d’items communs entre A et B votés par
      Vote de A pour l’item
      Vote de B pour l’item
      Table 1.4: Notations utilisées dans la méthode " Cosinus des vecteurs "

      La distance de Spearman : est équivalente à la distance de Pearson, mais au lieu d’utiliser les évaluations comme critère pour la distance, elle utilise le classement des préférences. Si un utilisateur a évalué 20 items, l’item préféré a une note de 20 et l’item le moins préféré a une note de 1.
      Une fois que toutes les similarités de l’utilisateur cible A par rapport aux autres utilisateurs sont calculées et que les n utilisateurs les plus similaires qui constituent le voisinage de cet utilisateur cible sont définis, la prédiction de la valeur d’un item j évaluée par l’utilisateur A () est calculée à l’aide de la somme pondérée des estimations des voisins les plus proches qui ont déjà estimé l’item j :

      (1.3)
      Notation Signification
      Nombre d’utilisateurs présents dans le voisinage de A,
      ayant déjà voté sur l’item
      Vote de l’utilisateur pour l’objet
      Table 1.5: Notations utilisées de " La distance de Spearman "
    • Filtrage collaboratif basé sur la mémoire (items): alors que les méthodes basées sur le voisinage utilisateur s’appuient sur l’avis d’utilisateurs partageant les mêmes idées pour prédire une note, les approches basées sur les items prédisent la note d’un utilisateur pour un item en se basant sur les notes de pour des items similaires à . Les choix possibles pour calculer la similarité entre les items et sont aussi la corrélation Pearson et la similarité vectorielle [34].
      Similarité vectorielle la similarité vectorielle se sert de l’estimation moyenne d’utilisateur de chaque paire évaluée, et fait face à la limitation de la similarité vectorielle. Empiriquement, la similarité entre deux items est calculée par la formule du Cosinus suivante :

      (1.4)
      Notation Signification
      Nombre d’utilisateurs qui ont votés pour les deux items
      Vote de A pour l’item
      Vote de A pour l’item
      Moyenne des votes de l’utilisateur A
      Table 1.6: Notations utilisées de la méthode " La similarité vectorielle "

      Une fois que la similarité parmi les items ait été calculée, la prochaine étape est de prévoir pour l’utilisateur cible A, une valeur pour l’item actif i. Une manière commune est de capturer comment l’utilisateur a évalué les items similaires [34]. La valeur prévue est basée sur la somme pondérée des estimations de l’utilisateur ainsi que les déviations des estimations moyennes et peut être calculée à l’aide de la formule suivante :

      (1.5)
      Notation Signification
      Nombre d’items présents dans le voisinage de item i,
      ayant déjà été voté par l’utilisateur A
      Vote de l’utilisateur A pour l’objet j
      Moyenne des votes pour l’item j
      Similarité moyenne
      Table 1.7: Notations utilisées de " La similarité moyenne "

      Algorithmes basés sur le modèle :

      ce type d’algorithme est comme le nom l’indique est basé sur des modèles, supposés réduire la complexité. Ces modèles utilisent la base de données des évaluations des utilisateurs pour estimer ou apprendre un modèle qui est alors utilisé pour les prédictions. Ils peuvent être basés sur des classificateurs permettant de créer des classes pour réduire la complexité. Exemple d’algorithmes utilisés : (Modèle de Clustering, K-Means, RecTree.)

  4. Algorithme général d’un système de filtrage collaboratif
    L’algorithme général d’un système de filtrage collaboratif suit les étapes suivantes ([24], [1]):

    • Collecter les appréciations de l’utilisateur sur les documents qu’il consulte.

    • Intégrer ces informations dans le profil de l’utilisateur.

    • Utiliser ce profil pour aider l’utilisateur dans ces prochaines recherches d’information.

  5. Architecture générale d’un système de filtrage collaboratif
    L’architecture générale d’un système de filtrage collaboratif s’articule autour de deux fonctionnalités centrales :

    • Le calcul de la proximité entre les utilisateurs.

    • Le calcul de la prédiction de l’évaluation qu’un utilisateur fera d’un document.

    S’ajoute la fonctionnalité de mise à jour perpétuelle des profils d’utilisateurs, au fur et à mesure de la collecte de leurs évaluations.

    Figure 1.7: Architecture générale d’un système de filtrage collaboratif [1]
1.2.5.3 Étude comparative des méthodes collaboratives et des méthodes basées sur le contenu

Les différentes techniques exploitées par les systèmes de recommandation ont chacune leurs apports mais aussi leurs limites. Le tableau 1.8 présente une synthèse comparant les avantages et les inconvénients des techniques de recommandation qui ont été présentées dans cette section.

Catégorie Exemples d’algorithmes utilisés Avantages Inconvénients
Technique basée sur le contenu
  • Analyse de similarité de contenu (TF/IDF)

  • Clustering

  • Arbres de décision

  • Amélioration de la qualité des recommandations

  • Réduction du problème de manque de données

  • Manque de diversité des recommandations

  • Nécessité d’indexation de contenus (extraction d’attributs représentatifs)

  • Problème d’indexation de documents multimédia

FC basé sur la mémoire
  • FC exploitant l’approche kNN (basée sur l’utilisateur ou sur l’item)

  • Utilisation des mesures Pearson ou cosinus

  • Implémentation simple

  • Intégration facile de nouvelles données

  • Précision des recommandations

  • Dépendance aux données de notes

  • Détérioration de la qualité de recommandations à cause du manque de données

  • Problème de passage à l’échelle


FC basé sur un modèle
  • Clustering

  • Approches probabilistes (réseaux bayésiens)

  • Méthodes de réduction de dimensionnalité (SVD, PCA) WUM (règles d’association, motifs séquentiels, modèles de Markov)

  • Amélioration de la qualité des recommandations

  • Réduction du problème de manque de données

  • Prédiction des futurs comportements de navigation

  • Construction coûteuse de modèles

  • Risque de perte d’information pertinente dû à la réduction de dimensionnalité

  • Problème de calcul des règles ou de motifs quand le système manque de données

  • Pas de considération du profil utilisateur (pour les modèles du WUM)

Table 1.8: Synthèse comparative des techniques de recommandation
1.2.5.4 Les méthodes hybrides

Constatant les avantages et inconvénients de chacune des deux approches ci-dessus, on comprend que de nombreux systèmes reposent sur leur combinaison, ce qui en fait des systèmes de filtrage dits " hybrides ".
Plus généralement, les systèmes hybrides gèrent des profils d’utilisateurs orientés contenu, et la comparaison entre ces profils donne lieu à la formation de communautés d’utilisateurs permettant le filtrage collaboratif. En général, l’hybridation s’effectue en deux phases :

  • Appliquer séparément le filtrage collaboratif et autres techniques de filtrage pour générer des recommandations.

  • Combiner ces ensembles de recommandations préliminaires selon certaines méthodes telles que la pondération, la cascade, la commutation, etc., afin de produire les recommandations finales pour les utilisateurs [35].

1.3 Limites des systèmes de recommandation

Malgré leur popularité croissante, les systèmes de recommandation ont des apports mais ont aussi des limites.

  • Démarrage à froid : souvent, on se trouve confronté au problème qu’un utilisateur ne soit comparable avec aucun autre. Ce problème est du au fait que peu ou pas d’utilisateurs ont évalué un article donné, ou qu’un utilisateur donné a évalué très peu ou pas d’articles. Généralement, ce problème survient quand un nouvel utilisateur ou une nouvelle ressource est ajoutée à la base de la recommandation.

  • Masse critique : afin de former de meilleures communautés, le système exige un nombre suffisant des évaluations en commun entre les utilisateurs pour les comparer entre eux. Malgré la taille énorme de l’ensemble des documents dans les systèmes, le nombre des évaluations en commun entre les utilisateurs risque d’être faible.

  • Principe d’induction : les systèmes de recommandation se basent sur le principe qu’un utilisateur qui a offert un comportement dans le passé tendra à offrir un comportement semblable dans le futur. Cependant, ce principe n’est pas nécessairement vrai dans le contexte réel. Par exemple, un utilisateur peut changer complètement d’intérêt ou en avoir plusieurs.

  • Centralisé ou distribué : les systèmes de recommandation tels qu’Amazon, sont basés sur une architecture centralisée. En effet, le moteur de recommandation centralisé permet de sauvegarder le profil de l’utilisateur et le calcul des recommandations dans un serveur central, par contre, les systèmes de recommandation centralisés souffrent de plusieurs problèmes tels que : le coût, la robustesse, la sécurité, la portabilité, etc. Une des solutions à ces problèmes est de répartir le système. Alors un système de recommandation centralisé pourrait être conçu pour tirer profit de la puissance de calcul disponible sur les ordinateurs des utilisateurs.

  • Sécurité ou crédibilité : les systèmes de recommandation ne peuvent pas empêcher les actes de tromperie. Il est difficile de contrôler l’identité des utilisateurs et de pénaliser le comportement malveillant. Par conséquent, Il est indispensable d’avoir des moyens permettant à chaque utilisateur de décider en quels utilisateurs et en quels contenus avoir confiance.

  • Protection de la vie privé : la protection des informations sensibles constituant le profil de l’utilisateur est considérée comme un autre problème qui touche les systèmes de recommandation. Vu la nature de l’information, ces systèmes doivent assurer une telle protection. Ainsi, des moyens de préserver l’anonymat des utilisateurs et chiffrer les données transmises sont nécessaires.

1.4 Les systèmes de recommandation sensibles au contexte

Les systèmes de recommandation jouent un rôle important dans la manipulation de grandes quantités d’information. Souvent, le contenu et les objets qui pourraient intéresser une personne, dépendant de sa situation spécifique : l’emplacement actuel, la saison, le rôle de l’utilisateur, l’heure, lieu, la compagnie d’autres personnes par exemple (pour regarder des films ou aller au restaurant), etc. Les systèmes de recommandation sensibles aux contextes tentent d’exploiter l’utilisation du contexte afin d’améliorer le processus de génération des recommandations.

1.4.1 Définition

Gorgoglione et al.[36] ont conclu que l’utilisation du contexte dans les systèmes de recommandation avait donné plus de confiance dans les recommandations. Cette augmentation du confiance conduit à son tour à des clients prêts à payer des prix plus élevés pour les produits, ce qui améliore les ventes.
     Avant de discuter du rôle et de l’apport des informations contextuelles dans le système de recommandation, nous commençons par discuter la notion générale de contexte. Puis, nous nous concentrons sur les systèmes de recommandation et expliquons comment le contexte est spécifié et modélisé ici.

Voici quelques travaux des systèmes de recommandation sensibles au contexte réalisés au sein de notre laboratoire LIPAH concernant les : Imen et al. (2012) [37]; (2013) [38]; (2017) [39]; Hazem et al. (2017) [40].

1.4.2 Contexte

Le contexte est un concept à multiples facettes qui a été étudié dans différentes disciplines de recherche, y compris l’informatique (principalement dans l’intelligence artificielle et l’informatique ubiquitaire), les sciences cognitives, la linguistique, la philosophie, la psychologie et les sciences organisationnelles.
Abowed, Day et al [41] "Le contexte est n’importe quelle information qui peut être utilisé pour caractériser une situation d’une entité. Une entité peut être une personne, un endroit ou un objet que l’on considère comme étant pertinent à l’interaction entre un utilisateur et une application y compris ces deux derniers"
Dey el al,.[42] ont défini le contexte :

  • Comme étant toute information qui peut être utilisée pour caractériser la situation d’une entité. Une entité est une personne, un lieu ou un objet considéré comme pertinent pour l’interaction entre un utilisateur et une application, y compris l’utilisateur et les applications elles-mêmes.

  • Un système est dit sensible au contexte s’il utilise un contexte pour fournir des informations et/ou des services pertinents à l’utilisateur, lorsque la pertinence dépend de la tâche de l’utilisateur.

1.4.2.1 Dimensions du contexte

M.Daoud [43] a proposé deux dimensions principales du contexte de recherche:

  • Le contexte lié à l’utilisateur : c’est l’ensemble d’éléments qui peuvent être donnés explicitement par l’utilisateur ou implicitement déduits par le système. Il existe des préférences qui sont données explicitement et comportent les deux aspects suivants :

    • Le fraîcheur : l’utilisateur peut s’intéresser à l’information la plus récente ou bien à des documents liés à des dates bien précises.

    • La granularité : l’utilisateur peut s’intéresser à un certain niveau de détail de la réponse attendue, cela peut déterminer la structure de la réponse retournée.

  • Le contexte lié à la requête : On peut définir ce contexte par différents paramètres descriptifs et mesurables à partir de la requête ou bien à partir du profil de n top documents retournés par la requête.

    • Clarté de la requête : ce paramètre quantifie le degré d’ambiguïté de la requête et permet de mieux cibler la recherche.

    • Distribution de la datation des documents : c’est la distribution de n meilleurs documents selon le paramètre date, et qui permet de mettre en évidence le fraîcheur de l’information.

    • Degré de couverture de la requête par les services web : ce paramètre permet d’orienter la réponse retournée vers un document ou service.

1.4.2.2 Pertinence de l’information contextuelle

Les informations contextuelles ne sont pas toutes pertinentes pour la formulation des recommandations [44] par exemple quelle est l’information contextuelle pertinente au moment de recommander un livre.
     La détermination de la pertinence des informations contextuelles se fait selon les deux manières suivantes:

  • Manuellement : se fait à l’aide de la connaissance du domaine du concepteur du système de recommandation.

  • Automatiquement : se fait en utilisant des procédures de sélection de l’apprentissage automatique [45], Fouille de données [46] et des statistiques [47].

1.4.3 Modélisation des informations contextuelles dans les systèmes de recommandation

Dans cette partie, nous allons nous intéresser aux systèmes traditionnels, ainsi qu’aux systèmes de recommandation contextuels.

1.4.3.1 Les systèmes traditionnels ou bidimensionnels 2D

Le processus de recommandation commence généralement par la spécification de l’ensemble initial d’évaluations qui est explicitement fourni par les utilisateurs ou implicite dans le système.
Une fois ces évaluations initiales ont été précisées, un système de recommandation tente d’estimer la fonction des évaluations R :

(1.6)

Pour les paires (User, Item) qui n’ont pas encore été évaluées par les utilisateurs. Une fois que la fonction R est estimée pour l’ensemble de l’espace Utilisateur x, un système de recommandation peut recommander l’article le mieux noté pour chaque utilisateur. Nous appelons de tels systèmes traditionnels ou bidimensionnels (2D) puisqu’ils ne prennent en compte que les dimensions User et Item dans le processus de recommandation.
     Les systèmes de recommandation fournissent aux utilisateurs des suggestions personnalisées de produits ou de services. Ils jouent un rôle important dans le succès du commerce électronique et sont utilisés dans la plupart des sites Web de vidéos tels que YouTube et Hulu. De nombreux réseaux sociaux permettent aux utilisateurs de noter des vidéos ou des films. En effet, les contributions de notre laboratoire LIPAH ont atteint un niveau avancé dans ce domaine, ce qui va énormément nous aider. Citons en quelques travaux intéressants : (Chiraz et al. (2011) [48], [49]; (2012) [50, 51, 52]; (2013) [53]; (2016) [54]).

1.4.3.2 Les systèmes de recommandation contextuels

La plupart des recherches effectuées se concentrent sur la recommandation d’items aux utilisateurs ou items aux utilisateurs et ne prennent pas en considération d’autres informations contextuelles telles que l’heure, le lieu et la compagnie d’autres personnes (par exemple pour regarder des films).
     Alors nous explorons le domaine du système de recommandation contextuelle avec la modélisation et la prédiction des goûts et des préférences des utilisateurs en incorporant les informations contextuelles disponibles dans le processus de recommandation en tant que des catégories explicites de données supplémentaires. Ces préférences et goûts à long terme sont généralement exprimés sous la forme d’évaluations et sont modélisés en fonction non seulement des items et des utilisateurs, mais aussi du contexte.
     Contrairement au modèle traditionnel, les systèmes de recommandation contextuels tentent d’incorporer ou d’utiliser des preuves supplémentaires (au-delà des informations sur les utilisateurs et les items) pour estimer les préférences des utilisateurs sur des éléments non vus.

(1.7)

L’intégration de ce contexte dans les systèmes de recommandation peut se faire de trois façons: (le pré-filtrage contextuel, le post-filtrage contextuel et la modélisation contextuelle).

  1. [label=)]

  2. Le pré-filtrage contextuel dans l’approche de pré-filtrage contextuel, l’information contextuelle est utilisée comme une étiquette permettant de filtrer les évaluations qui ne correspondent pas à l’information contextuelle spécifiée. Cela se fait avant que la méthode principale de recommandation soit lancée sur le reste de données sélectionnées.
    Si un contexte d’intérêt particulier est , alors cette méthode sélectionne à partir de la série initiale toutes les évaluations relatives au contexte spécifié , et elle génère la matrice "User x Item" ne contenant que les données relatives au contexte . Puis, la méthode des systèmes de recommandation, comme le filtrage collaboratif, est lancée sur la base de donnée réduite afin d’obtenir les recommandations liées au contexte (Voir la figure 1.8).

    Figure 1.8: Pré-filtrage contextuel [2]
  3. Le post-filtrage contextuel l’information contextuelle est utilisée après le lancement de la méthode principale de recommandation à deux dimensions (2D). Une fois les évaluations inconnues sont estimées et les recommandations sont produites, le système analyse les données pour un utilisateur donnée dans un contexte précis pour trouver les modèles d’utilisation des articles spécifiques, et utilise ces modèles pour contextualiser les recommandations obtenues à partir de la méthode classique de recommandation (2D), comme le filtrage collaboratif (Voir la figure 1.9).

    Figure 1.9: Post-filtrage contextuel [2]
  4. La modélisation contextuelle est une méthode dans laquelle l’information contextuelle est utilisée directement à l’intérieur des algorithmes de génération de recommandation. La figure 1.10 montre l’intégration du contexte dans le processus de recommandation.

    Figure 1.10: Modélisation contextuelle [2]

1.5 Conclusion

Dans ce chapitre, nous avons d’abord présenté dans la première partie la notion des systèmes de recommandation en détaillant les différentes techniques utilisées par ces systèmes. Ensuite, nous avons défini la notion de profil utilisateur avec ses deux types de collecte des données (explicite et implicite). Puis, nous avons terminé par citer quelques problèmes rencontrés par les systèmes de recommandation classiques. Parmi ces problèmes, le fait que ces systèmes ne tiennent en compte du contexte dans lequel se trouve l’utilisateur lorsqu’il décide de faire une recommandation. Ainsi dans ce chapitre, nous avons mis l’accent sur les systèmes sensibles au contexte, qui apportent une solution pour le problème de contexte.

2.1 Introduction

Dans ce chapitre, nous allons présenter les principales approches proposées des systèmes de recommandation contextuels dans le domaine des films et nous allons terminer par une étude comparative de ces approches.

2.2 Approche de Ostuni et al

Dans cette section, nous nous intéressons à l’approche de Ostuni et al. qui a été introduite dans le contexte d’utilisation des systèmes de recommandation sensibles au contexte. Cependant, ces auteurs arrivent à développer une application appelée " Cinemappy ", basée sur la localisation qui calcule les recommandations contextuelles de films.

2.2.1 Contexte

Grâce aux grands progrès technologiques réalisés ces dernières années, en particulier dans l’informatique ubiquitaire, les utilisateurs peuvent exécuter presque n’importe quelle sorte de demande (d’application) et exécuter presque n’importe quelle tâche sur des petits dispositifs mobiles. Les smartphones et les tablettes deviennent une plate-forme principale (primaire) pour l’accès à l’information [55].

2.2.2 Objectif

" Cinemappy " est une application qui met en œuvre un moteur de recommandation contextuelle. Cette application affine les résultats de recommandation d’un système de recommandation basé sur le contenu en exploitant des informations contextuelles liées à la position spatiale et temporelle actuelle de l’utilisateur.

2.2.3 Les techniques utilisées

L’application de " Cinemappy " utilise certaines techniques pour suggérer des films à l’utilisateur.

  • DBPEDIA : Le système choisit le graphique localisé dans DBPEDIA. En effet, DBpedia contient aussi des informations extraites des versions localisées de Wikipédia. Les données venant de ces sources Web sont représentées comme les graphiques RDF différents qui peuvent être facilement choisis via la clause d’une question de SPARQL. La figure 2.1 décrit les composantes de base du système.

    Figure 2.1: Architecture du système [3]

    Cinemappy utilise plusieurs approches de recommandation pour suggérer des films et des salles de cinéma à l’utilisateur. Les auteurs tirent parti des informations contextuelles, des techniques de pré-filtrage et de post-filtrage pour les attributs contextuels. En particulier, pour modéliser l’attribut Companion, Ostuni et al utilisent ce que l’on appelle approche de micro-profilage [56], une technique de pré-filtrage particulière. Fondamentalement, avec le micro-profilage, Ostuni et al ont associé un profil différent à l’utilisateur en fonction du compagnon sélectionné.

  • Pré-filtrage contextuel : Avec Cinemappy, il y a une recommandation des films à regarder dans les cinémas. Pour cette raison, les films qui ne seront pas présentés dans le futur ne seront pas suggérés à l’utilisateur. Néanmoins, ces films seront considérés dans le profil de l’utilisateur si ce dernier les a évalués. De plus, pour la position temporelle et spatiale actuelle de l’utilisateur, Ostuni et al ont contraint l’ensemble des films à recommander des critères géographiques et temporels. Pour chaque utilisateur , l’ensemble des films est défini comme le contenant des films programmés dans les prochains jours dans les cinémas dans une plage de kilomètres autour de la position de l’utilisateur. La liste de recommandations finale sera calculée en considérant uniquement les articles disponibles en . Ce genre de restriction sur les éléments, en ce qui concerne le temps, est un pré-filtrage de l’ensemble des articles et non des classements comme cela arrive habituellement dans les approches de pré-filtrage.
    En ce qui concerne le contexte d’accompagnement, l’approche de micro-profilage est modélisée en considérant un profil spécifique pour utilisateur et pour chaque compagnon :

    profile (, ) = <, > | = 1 si aime avec compagnon

    = -1 sinon

  • Recommandation basée sur le contenu : l’algorithme de recommandation est basé sur celui proposé dans [57], amélioré avec la gestion des micro-profils. Afin d’évaluer si un film pourrait être intéressant pour donné . Ostuni et al. ont dû de combiner les valeurs de similarité liées à chaque propriété de et de calculer une valeur de similarité globale :

    (2.1)
    Notation Signification
    Nombre de propriétés dans DBpedia qui sont considérées comme pertinentes.
    La cardinalité du profil d’ensemble (, ).
    Représente la similarité entre les deux films et par rapport à une propriété .
    C’est un poids qui est attribué à chaque propriété représentant sa valeur par rapport au profil de l’utilisateur.
    Table 2.1: Notations utilisées dans "la similarité globale"

    La valeur est calculée en adaptant l’approche du modèle d’espace vectoriel à un paramètre basé sur RDF.

  • Post-filtrage contextuel : l’application du post-filtrage sur est effectuée pour reclasser ses éléments. En particulier, pour chaque critère, on introduit une variable dont la valeur est définie comme suit:

    • [label=•,font=]

    • h (hierarchy): Elle est égale à 1 si le cinéma est dans la même ville que la position courante de l’utilisateur, sinon 0.

    • c (cluster): Il est égal à 1 si le cinéma fait partie d’un cinéma multiplex, sinon 0.

    • cl (co-location): Il est égal à 1 si le cinéma est proche d’autres POI, sinon 0.

    • ar (association-rule) : Il est égal à 1 si l’utilisateur connaît le prix du ticket, sinon 0. Cette information est implicitement tirée des informations sur le cinéma.

    • ap (anchor-point proximity) : Il est égal à 1 si le cinéma est proche de la maison de l’utilisateur ou du bureau de l’utilisateur, sinon 0.

Ces critères géographiques sont combinés avec pour obtenir un seul score :

(2.2)

+ = 1. Dans la mise en œuvre actuelle de Cinemappy, à la fois et ont été choisis expérimentalement et ont été fixés respectivement à 0,7 et 0,3.

2.2.4 Étude expérimentale

Cinemappy a été implémenté en tant qu’une application mobile pour les smartphones Android. Lorsque l’utilisateur démarre l’application, Cinemappy affiche une liste de films en fonction du profil utilisateur contextuel actuel (voir la figure2.2).

Figure 2.2: Liste des films en fonction du profil utilisateur contextuel actuel [3]

L’utilisateur peut choisir son compagnon actuel à partir d’une liste de différentes options permettant ainsi son micro-profil (voir la figure2.3).

Figure 2.3: Liste des options : "compagnon" [3]

Cinemappy est en mesure de proposer des films basés exclusivement sur des informations contextuelles. Pour chaque film de la liste, ses genres et la distance de la salle de cinéma suggérée par rapport à la position de l’utilisateur sont affichés. Par conséquent, l’utilisateur peut cliquer sur l’un des films suggérés et regarder sa description, regarder sa bande-annonce et exprimer une préférence en termes de "je regarderais" / "je ne regarderais pas" (voir la figure 2.4).

Figure 2.4: Liste des films avec leurs descriptions [3]

En outre, l’utilisateur peut trouver des informations sur la salle de cinéma recommandée ou les autres salles qui diffusent ce film. Selon l’emplacement de la salle de cinéma, l’utilisateur pourrait être intéressé par les endroits où passer du temps avec ses amis, comme les pubs, ou avec partenaire comme les restaurants ou les bars, ou avec sa famille, et dans ce cas l’utilisateur pourrait être intéressé par certains types d’endroits également appropriés pour les enfants. Pour supporter l’utilisateur dans ce choix, l’application suggère des PI en tenant compte des critères contextuels (voir la figure 2.5).

Figure 2.5: Liste des salles de cinéma avec leurs emplacements [3]

L’application, au moyen d’un service d’arrière-plan, capture la position de l’utilisateur. Si l’utilisateur a été pendant au moins 90 minutes dans une position similaire à proximité d’un cinéma dans une durée correspondante à un ou plusieurs films programmés, Ostuni et al ont supposé que l’utilisateur a regardé un film dans ce cinéma. Alors, dans ce cas, l’application demande à l’utilisateur s’il est allé au cinéma et si une réponse positive s’ensuit, l’utilisateur peut évaluer l’un des films présentés dans ce cinéma (voir la figure 2.6).

Figure 2.6: La réponse de l’utilisateur et sa évaluation pour l’un des films présentés dans le cinéma [3]
  • [font= , label=☞]

  • Ostuni et al ont présenté Cinemappy qui est un système de recommandation contextuel basé sur le contenu pour les suggestions de films et des salles de cinéma. Ce système est alimenté avec des données provenant de graphiques DBpedia localisés et les résultats sont améliorés en exploitant les informations contextuelles sur l’utilisateur.

  • L’application a été implémentée en tant qu’application Android. Des critères géographiques, qui vont au-delà de la simple distance géographique, ont été mis en œuvre pour exploiter pleinement les informations basées sur la localisation.

Dans ce contexte et avec la disponibilité des appareils mobiles et la diversité des fonctionnalités qu’ils offrent, les nouvelles approches en recherche d’information ont eu l’avantage de fournir aux utilisateurs des éléments plus pertinents et plus adaptés à leurs situations courantes [38]. Citons dans ce cas, quelques travaux qui sont effectués dans le laboratoire LIPAH concernant la prédiction des intérêts des utilisateurs afin d’enrichir leurs requêtes et d’élargir leurs cercles sociaux : Imen et al. (2012, 2013) [38] [37].

2.3 Approche de Campos et al

Dans cette section, nous allons présenter l’approche de Campos et al. [4] dans le cadre d’utilisation des systèmes de recommandation contextuelles. Les auteurs ont abordé ce problème en effectuant une comparaison empirique de plusieurs approches de pré-filtrage, de post-filtrage contextuel et de la modélisation contextuelle dans le domaine de recommandation des films.

2.3.1 Contexte

Les systèmes de recommandation suggèrent des articles aux utilisateurs qui s’appuient sur des préférences généralement exprimées sous la forme d’évaluations numériques des personnes ayant les mêmes idées.

Les systèmes de recommandation sensibles au contexte prennent également en compte des informations contextuelles (par exemple : le temps, l’emplacement, le compagnon social et l’humeur) associées aux préférences collectées. De cette façon, Ces systèmes peuvent distinguer l’intérêt d’un utilisateur dans différents contextes et situations.

2.3.2 Objectif

L’objectif de cette recherche est de répondre aux deux questions suivantes :

  • Question 1 : Est-ce que les approches des systèmes de recommandation contextuelles (Pré-filtrage contextuel, Post-filtrage contextuel, Modélisation contextuelle) sont capables de mieux prédire la note attribuée à un film dans un contexte particulier ?

  • Question 2 : Quelle information contextuelle ou compagnon social (ou une combinaison des deux) fournit des informations plus utiles pour prédire des notes ?

2.3.3 Les techniques utilisées

Plusieurs approches ont été proposées pour traiter correctement les informations contextuelles. Adomavicius et al. [14, 2] distinguent trois types principaux de CARS: le pré-filtrage contextuel, le post-filtrage contextuel et la modélisation contextuelle. Alors l’évaluation de ces approches se fait comme suit :

  • Dans le cas du pré-filtrage : Campos et al. ont utilisé la stratégie de pré-filtrage exacte proposée par Adomavicius et al[14], et la technique de division d’éléments proposée par Baltrunas et Ricci [58, 59].

  • Dans le cas du post-filtrage : Campos et al. ont utilisé la stratégie de filtrage présentée par Panniello et al. dans [60].

  • Dans le cas de modélisation contextuelle

    : Campos et al. ont évalué plusieurs classificateurs développés par la communauté Machine Learning, notamment les algorithmes Naïve Bayes, Random Forest, MultiLayer Perceptron (MLP) et Support Vector Machine (SVM)

    [61, 62]. Tous les classificateurs ont été construits avec des vecteurs d’attributs basés sur le contenu correspondant aux informations sur l’utilisateur et le genre d’élément, et différents signaux contextuels.

Les approches basées sur le pré-filtrage contextuel et celles qui sont basées sur le post-filtrage contextuel utilisent les classificateurs décrits dans le tableau 2.2.

Nom du classifier

Description
knearest neighbor (KNN) L’algorithme knearest neighbor (kNN) [63] a été utilisé comme un algorithme de recommandation sous-jacent.
Item Splitting (IS) IS est une variante du pré-filtrage contextuel. Cette méthode divise les données de préférence pour les éléments en fonction du contexte dans lequel ces données ont été générées.
Matrix Factorization (MF) Est une factorisation d’une matrice en un produit de matrices.
Table 2.2: Les classificateurs utilisés dans le pré- et post-filtrage

Pour la méthode Item Splitting (IS) il y a quelques Critères d’impureté à définir :

  • : C’est un critère qui mesure le gain d’information donné par à la connaissance de l’item .

  • : Estime la signification statistique de la différence dans les moyennes des notations associées à chaque contexte dans s en utilisant le test t.

  • : Estime la signification statistique de la différence entre la proportion d’évaluations élevées et faibles dans chaque contexte de en utilisant le test z à deux proportions.

Pour le pré-filtrage contextuel : Campos et al. utilisent les algorithmes de filtrage collaboratif kNN et factorisation matricielle (MF) [64] séparément comme stratégies de recommandation après IS. Cependant dans le post-filtrage contextuel (PoF), les prédictions d’évaluation sont générées par un algorithme qui ignore le contexte dans une première étape, puis les prédictions sont contextualisées en fonction du contexte cible. Campos et al. ont utilisé le même algorithme de prédiction d’évaluation kNN utilisé avec les approches de pré-filtrage. La contextualisation des prédictions d’évaluation a été réalisée par une stratégie de filtrage présentée dans [60], qui pénalise la recommandation des items qui ne sont pas pertinents dans le contexte cible.

La pertinence d’un item pour l’utilisateur cible dans un contexte particulier est approchée par la probabilité

Notation Description
K Nombre de voisins utilisés par kNN
Les voisins de l’utilisateur v dans le voisinage de u, N(u),
qui ont évalué l’item i dans son contexte c.

Table 2.3: Résultats d’évaluation pour la piste 1

La pertinence des items est déterminée par une valeur seuil qui est utilisée pour contextualiser les évaluations comme suit :

=

Les algorithmes de Machine Learning utilisés pour la modélisation contextuelle fournissent une distribution de score pour une note (étiquette de classe) dans l’espace des valeurs de notation 1, 2, 3, 4 et 5. En effet, les caractéristiques de l’utilisateur et de l’item analysées correspondent aux genres de films. Pour chaque utilisateur , la valeur de l’attribut était le nombre d’éléments préférés de avec le genre . Pour chaque item , la valeur de l’attribut était 1 si est le genre correspondant , et 0 sinon.

2.3.4 Étude expérimentale

Une validation croisée 10 fois a été effectuée dans toutes les expériences. Dans les cas de pré-filtrage et de post-filtrage, Campos et al ont utilisé les implémentations kNN et MF fournies par le projet Apache Mahout3, avec = 30 et la corrélation de Pearson pour kNN, et 60 facteurs pour l’algorithme MF. Pour obtenir une couverture complète, dans les cas où un algorithme était incapable de calculer une prédiction, l’évaluation de l’ensemble de données a été fournie comme prévision.
     Dans les cas de la modélisation contextuelle, Campos et al. ont utilisé les implémentations des classificateurs fournies dans Weka4. Ils ont calculé aussi l’exactitude des approches de recommandation évaluées en termes de taux de classification correcte pour chaque valeur de notation (acc1, acc2, acc3, acc4 et acc5), et le taux de classification correct global pondéré (acc) [65]. Puis , ils ont également calculé la métrique Area under the Curve (AUC) [66].
     Le figure 2.7 montre les meilleurs résultats obtenus pour chacune des approches testées sur l’ensemble de données enrichi en contextes. Les résultats sont regroupés selon l’approche de contextualisation (pré-filtrage et post-filtrage ou modélisation contextuelle) et le type de données de profil fourni à chaque algorithme de recommandation. Dans les approches IS, Campos et al. ont testé différentes valeurs de seuil pour les critères d’impureté considérés.
     Campos et al. ont conclu qu’il n’y a pas de CARS supérieur unique pour améliorer les prédictions d’évaluation dans le domaine des films, et que les améliorations de performance ont une forte dépendance avec l’algorithme de recommandation sous-jacent. De plus, aucune information contextuelle ne semble être plus informative que d’autres pour tous les systèmes de recommandation contextuels évalués. De même que les résultats de recherches antérieures comparant certaines approches CARS sur les applications de commerce électronique [60], l’identification de l’approche la plus performante nécessite une évaluation et une comparaison de plusieurs CARS sur les données cibles. Enfin, les auteurs ont conclu que l’utilisation d’un grand nombre des informations contextuelles ne conduit pas nécessairement à de meilleures performances CARS, et la contribution donnée à une information contextuelle dépend de la combinaison particulière d’approche de contextualisation et d’algorithme de recommandation utilisé.

Figure 2.7: Le modèle de PITF et les deux décompositions de Tucker et canonique [4]

2.4 Approche de Gantner et al

Gantner et al. [5]

présentent dans ce qui suit, une méthode appelée "Pairwise Interaction Tensor Factorization (PITF)" qui a été utilisée pour la recommandation d’étiquette personnalisée, pour modéliser le contexte temporel (semaine).

2.4.1 Contexte

La recommandation contextuelle est considérée comme un cas particulier de recommandation d’item classique. Dans la recommandation des items classiques, le contexte est juste l’utilisateur pour lequel Gantner et al. ont voulu prédire des items (par exemple, des films). Dans une recommandation contextuelle, le contexte contient habituellement plus d’informations que juste l’utilisateur.

2.4.2 Objectif

L’approche de Gantner et al. suggère d’utiliser Pairwise Interaction Tensor Factorization (PITF) qui est une méthode utilisée pour la recommandation d’étiquette personnalisée et ainsi pour modéliser le contexte temporel (semaine). D’une autre manière, Gantner et al. présentent également une version étendue de PITF qui gère le contexte de la semaine.

2.4.3 Les techniques utilisées

2.4.3.1 Encodage du temps en tant que contexte

Il existe différentes granularités possibles pour coder les épisodes temporelles en tant que contexte. Dans ce travail, la semaine est l’entité principale. Outre les semaines calendaires normales qui commencent le lundi, il est également possible de laisser démarrer d’autres types de "semaines" les autres jours. En combinant des modèles de différentes "semaines", il est possible d’encoder le contexte de la semaine avec la granularité du jour.

2.4.3.2 Pairwise Interaction Tensor Factorization (PITF)

PITF [67] est un modèle de factorisation tensorielle initialement développé pour la prédiction d’étiquettes, mais il est également applicable aux d’autres types de tâches de recommandation contextuelle. Le modèle est un cas particulier de la décomposition de Tucker et de la décomposition canonique (voir la figure 2.8).

Figure 2.8: Le modèle de PITF et les deux décompositions de Tucker et canonique [5]
2.4.3.3 Méthode d’ensemble

La combinaison de modèles factoriels [68]

avec des régularisations et des dimensions différentes est supposée éliminer la variance des estimations de classement. Il existe essentiellement deux approches simples combinant les prédictions

des modèles :

  • Ensemble des estimations de valeur :

    (2.3)

    est le paramètre de pondération pour chaque modèle.

  • Ensemble des estimations des rang :

    (2.4)

2.4.4 Étude expérimentale

Pour faire une étude expérimentale, Gantner et al. utilisent :

  • Dataset : original Movie Pilot training

  • Les méthodes comparées : BPR-MF, PITF, item-knn, mp, mp (date/week/event/prior), random.

2.4.4.1 Christmas

Les résultats du problème de prédiction de Noël sont présentés dans le tableau 2.4.4.1. Compte tenu de la précision, BPR-MF est la méthode la plus forte en termes de prédiction, ce qui montre qu’il y a encore des améliorations possibles pour les modèles de factorisation BPR-MF et PITF.

PITF-8 est légèrement meilleur que les modèles PITF-16 et PITF-32, ce qui suggère que les auteurs doivent rechercher de meilleurs paramètres de régularisation pour les modèles plus grands, ainsi la méthode BPR-MF avec 32 facteurs est la plus forte en termes d’AUC.
     Les lignes de base contextuelles les plus populaires ne fonctionnent pas mieux que les prévisions les plus populaires, à l’exception des films les plus populaires de la semaine, juste avant la semaine de Noël.

Méthode AUC Prec@5 Prec@10
Random 0.5131 0 0.00125
mp 0.9568 0.1075 0.085
mp (date) 0.8634 0.09875 0.079375
mp (week) 0.8649 0.1000 0.081875
mp (event) 0.8677 0.09875 0.07875
mp (prior) 0.9533 0.11125 0.106875
item-knn 0.9555 0.1325 0.12
BPR-MF-16 0.9680 0.1418 0.1281
BPR-MF-32 0.9711 0.1397 0.1231
PITF-8 0.9511 0.13125 0.1125
PITF-16 0.9490 0.125 0.103125
PITF-32 0.9501 0.12875 0.109375

Résultat de la piste 1 " MoviePilot Christmas "

2.4.4.2 Oscar

Les résultats pour le problème de prédiction d’Oscar peuvent être vus dans le tableau 2.4.4.2. Ici, PITF se comporte comme prévu, les prédictions s’améliorent avec les modèles qui sont plus grands. Cependant, les auteurs s’attendent à ce que PITF surpasse BPR-MF. Le modèle de prédiction le plus fort en termes de précision est mp (prior).

Méthode AUC Prec@5 Prec@10
random 0.5018 0.00136 0.00066
most-popular 0.9611 0.07895 0.08026
mp (date) 0.9048 0.0684 0.0697
mp (week) 0.8979 0.0803 0.0631
mp (event) 0.9001 0.075 0.0743
mp (prior) 0.9623 0.2039 0.1822
item-knn 0.9597 0.1289 0.1243
BPR-MF-16 0.9695 0.1609 0.1442
BPR-MF-32 0.9755 0.1660 0.1498
most-popular (recent) 0.9656 0.0888 0.0825
item-knn 0.9644 0.135 0.1325
BPR-MF-16 (recent) 0.9728 0.1634 0.1472
BPR-MF-32 (recent) 0.9735 0.1574 0.1464
PITF-8 0.9511 0.13125 0.1125
PITF-16 0.9490 0.125 0.103125
PITF-32 0.9501 0.12875 0.109375

Résultat de la piste 1 " MoviePilot Oscar "

2.5 Approche de Biancalana et al

Dans cette partie, nous allons aborder les deux approches de Biancalana et al. [69] dans le cadre d’utilisation des systèmes de recommandation sensibles au contexte, qui tentent d’exploiter l’utilisation du contexte afin d’améliorer le processus de génération des recommandations. Ces auteurs ont proposé deux approches contextuelles différentes pour la recommandation des films.

2.5.1 Contexte

La plupart des moteurs de recommandation existants ne prennent pas en compte les informations contextuelles pour suggérer des items intéressants aux utilisateurs. Des caractéristiques telles que l’heure, l’emplacement ou la météo peuvent affecter les préférences de l’utilisateur pour un élément particulier.

Néanmoins, peu de systèmes de recommandation incluent explicitement cette information dans les modèles de préférence. Les systèmes de recommandation contextuels et les systèmes de recommandation classiques sont utilisés pour fournir aux utilisateurs des informations pertinentes: les premiers exploitent les contextes des utilisateurs, les seconds exploitent au moyen les intérêts des utilisateurs.

Les systèmes de recommandation contextuels visent à améliorer la satisfaction des utilisateurs en offrant une meilleure suggestion en fonction d’un contexte d’utilisation particulier.

2.5.2 Objectif

Biancalana et al. ont proposé deux approches contextuelles différentes pour la tâche de recommandation des films :

  • Un système de recommandation hybride qui évalue les facteurs contextuels disponibles liés au temps afin d’accroître le rendement des approches traditionnelles du filtrage collaboratif FC.

  • La seconde approche vise à identifier les utilisateurs d’un ménage ayant soumis une note donnée. Cette dernière approche est basée sur des techniques d’apprentissage automatique, à savoir des réseaux de neurones et des classificateurs à vote majoritaire.

2.5.3 Description de l’approche

2.5.3.1 Recommandation de films basée sur le traitement du signal

Une hypothèse liée à la tâche de recommandation actuelle implique que des événements ayant lieu à un moment donné influencent potentiellement les films regardés. Le plus pertinent est le nombre de notes que l’utilisateur soumet habituellement dans une période donnée. La plupart du temps, les utilisateurs rassemblent un certain nombre de préférences et les soumettent au système dans un court laps de temps, généralement autour d’une heure. Un très petit sous-ensemble d’utilisateurs répartit les notations sur plusieurs jours ou semaines.

L’hypothèse de Biancalana et al : Si un utilisateur est particulièrement intéressé par le visionnage de films sur une période donnée, les films les plus regardés de cette période sont ceux qui devraient gagner en importance au cours de la recommandation collaborative traditionnelle.

Un pré-traitement de l’ensemble de données disponibles a été effectué en regroupant le nombre d’évaluations d’un utilisateur donné selon un intervalle de temps prédéfini, à savoir un jour, une semaine ou un mois. Les auteurs ont obtenu des échantillons quantifiés composant une représentation numérique d’une quantité variable dans le temps, c’est-à-dire un signal.

La première mesure du signal correspond au nombre de films visionnés par l’utilisateur donné dans l’intervalle considéré. La deuxième mesure fait référence à l’intervalle suivant, et ainsi de suite. Le même processus a affecté le nombre de vues d’un film "m". Ensuite, il est possible de corréler les deux signaux dessinant des mesures de similarité. En particulier, Biancalana et al. ont des signaux se rapportant au comportement de l’utilisateur (c’est-à-dire, des films regardés) et un signal associé à chaque film.

2.5.3.2 Réseaux de neurones et vote majoritaire pour l’identification de l’utilisateur
  1. [label=)]

  2. Analyse de la distribution des valeurs données par un utilisateur (classificateur c1) : Biancalana et al. ont regroupé la fréquence des évaluations des utilisateurs en les divisant en cinq classes:

    1. 0-40
    2. 41-60
    3. 61-80
    4. 81-90
    5. 91-100

    Le but de cette analyse est de modéliser chaque utilisateur en fonction des valeurs de ses évaluations. Chaque utilisateur est ainsi représenté par une distribution normalisée par un indice de normalisation Z-score qui est comparé à l’évaluation donnée.

  3. Analyse de la distribution des temps où la notation a été donnée par un utilisateur (classificateur c2) : Comme dans le cas précédent, les données d’entrée sont traitées avec les quatre groupes suivants :

    1. morning (7am to 12pm)
    2. afternoon (1pm to 5pm)
    3. evening (6pm to 10pm)
    4. night (11pm to 6am)

    Ce modèle représente l’habitude de l’utilisateur de donner ses notes à certains moments [70].

  4. Analyse des films pour déterminer si deux utilisateurs ont vu le même film (classificateur c3) Biancalana et al. analysent les utilisateurs qui ont vu un film. Ils sont comparés à l’ensemble des utilisateurs candidats via la distance Jaccard suivante:

    et sont l’ensemble des films évalués par l’utilisateur et , respectivement. Le réseau de neurones est entraîné en utilisant les paramètres d’entrée suivants (68 caractéristiques):

    • La distribution du nombre d’utilisateurs qui ont évalué un film par semaine (53 fonctionnalités).

    • La distribution du nombre d’utilisateurs qui ont évalué un film par jour de la semaine (7 fonctions).

    • La distribution des notes attribuées à un film, réparties en cinq groupes (5 fonctions).

    • La date de soumission de la notation, identifiée par semaine de l’année (de 1 à 53) et par jour de la semaine (de 1 à 7) (2 caractéristiques).

    • Le nombre de notes attribuées à un film (1 caractéristique).

    0:  : Donner un ensemble d’apprentissage (, ), …, (, ) et un tuple
      for i=1 to 3  do
          Sélection de N exemples aléatoires de l’ensemble d’apprentissage Le résultat de l’apprentissage basé sur l’algorithme d’apprentissage sur donne la sortie , , à partir du réseau de neurones
      end for
      Sortie du classificateur combiné = majorité ( · , · , · )
    Algorithm 1 Algorithme d’empilement pondéré

2.5.4 Les techniques utilisées

Les moteurs de recommandation exploitent généralement des rétroactions explicites ou des données d’utilisation implicites pour déterminer les films que l’utilisateur voudra voir ensuite. Biancalana et al. ont utilisé la technique de filtrage collaboratif (FC) dans la première approche en tenant compte des facteurs contextuels. Par contre, Dans la deuxième approche, Biancalana et al. ont utilisé la technique de Machine learning ou Apprentissage automatique qui permet de prévoir l’utilisateur qui a soumis une évaluation donnée.

2.5.5 Étude expérimentale

L’évaluation se concentre sur les métriques d’exactitude de classification pour deux pistes différentes comme suit:

  • Piste 1 : il est demandé de générer des recommandations pour chaque ménage. Le nombre de recommandations à suggérer est prédéterminé pour chaque ménage.

  • Piste 2 : le but est d’identifier quel membre d’un ménage a effectué une évaluation donnée. Bien sûr, les membres des ménages sont connus.

2.5.5.1 Recommandations du ménage

Les paramètres utilisés pour l’évaluation qui ont été définis empiriquement sont les suivants:

Notation Description
= 7 Nombre d’utilisateurs dans le neighborhood
= 60 Les premiers résultats du réducteur utilisé pour le ré-classement
Rescorer bosting
Table 2.4: Les paramètres utilisés pour l’évaluation

Lorsque le ménage est composé de plus d’une personne, les listes de résultats des algorithmes de chaque utilisateur du ménage sont fusionnées et les résultats les mieux classés sont utilisés pour les tests. Alors, les résultats sont résumés comme suit :

CF CF w/Rescover
MAP 0,002 0,298
0,010 0,170
0,006 0,124
Table 2.5: Résultats d’évaluation pour la piste 1
2.5.5.2 Identification des évaluations

Afin de déterminer les valeurs optimales pour les poids du réseau, Biancalana et al. ont déjà appliqué un algorithme d’apprentissage supervisé basé sur la descente de gradient et une validation croisée de 10 pour ajuster les poids vers la convergence. Ils ont obtenu une précision de classification élevée de 71,9%. Les valeurs des autres mesures pertinentes sont résumées dans le tableau 2.6 :

0,03 Mean absolute error (MAE)
0,26 Root mean squared error (RMSE)
0,23 Relative absolute error (RAE)
44 % Root relative squared error (RRSE)


Table 2.6:

Valeur d’erreur pour " Neural network training "

Les résultats des trois classificateurs , , et du classificateur NN, qui adoptent l’approche combinée avec le réseau neuronal, sont résumés dans le tableau 2.7, en utilisant le taux d’erreur de classification par ménage (Average Error Rate, AER), Taux d’erreur moyen pour le ménage (AERH) pour chaque taille de ménage , zone de ménage sous la courbe ROC (AUC) et (MAP : Mean Average Precision).

c1 c2 c3 NN
MAP 0.621 0.623 0.792 0.824
AUC 0.614 0.695 0.756 0.815
AER 0.605 0.610 0.755 0.800
0.606 0.621 0.756 0.804
0.609 0.619 0.705 0.735
0.483 0.510 0.838 0.777
Table 2.7: Valeur d’erreur pour " Neural network training "

Les résultats montrent que les approches et fournissent des résultats comparables, tandis que l’approche présente la pire performance. La combinaison des trois classificateurs à travers un réseau de neurones fournit des valeurs significativement plus élevées de MAP et d’AUC que celles fournies par les classificateurs uniques, représentant ainsi les meilleurs résultats de ces expériences.

Dans l’ensemble de tests, il n’y a pas de ménages avec plus de quatre membres effectuant des évaluations. Par conséquent, Biancalana et al. ont décidé de ne pas utiliser les mesures P@5 et P@10 dans chaque piste, car leurs valeurs ne seraient pas significatives.

2.6 Approche de Shi et al

Les systèmes recommandation contextuels visent à améliorer les performances de la recommandation en exploitant différentes sources d’informations. Dans cette section, Shi et al. [6] ont présenté un nouvel algorithme de recommandation contextuelle de film basé sur Joint matrix Factorization (JMF).

2.6.1 Contexte

La recommandation tenant compte du contexte a connu un regain d’intérêt dans la communauté des systèmes de recommandation [7]. L’intérêt a été stimulé par une prise de conscience croissante du potentiel de l’information contextuelle, si disponible, pour améliorer la qualité des recommandations [24],[17]. Les informations contextuelles peuvent être exploitées pour estimer de manière plus fiable les relations entre les items en compensant les cas dans lesquels les informations de la matrice d’utilisateur-article (en Anglais : user-item) d’origine sont insuffisantes.

2.6.2 Objectif

Shi et al. [6] ont proposé un nouvel algorithme de recommandation contextuelle des films qui étend le modèle de factorisation matricielle de base (MF) pour prendre en compte les liens induits par le contexte entre les films.

2.6.3 Les techniques utilisées

Dans cette partie, Shi et al. ont présenté leur algorithme proposé pour la tâche de recommandation contextuelle des films du défi Moviepilot. L’organigramme de l’algorithme proposé est présenté à la figure 2.9.

Figure 2.9: Organigramme de l’algorithme proposé [6]
2.6.3.1 Similitude de film spécifique à l’humeur

Selon le filtrage collaboratif (FC) basé sur les items, la similarité item à item peut être calculée comme la similarité cosinus entre deux vecteurs d’évaluation d’items [71]. De même, étant donné la matrice (composée de films et de marqueurs d’humeur), la similarité d’humeur entre le film et le film est calculé comme suit:

(2.5)

Avec = 1 indique que le film à l’étiquette d’humeur , sinon = 0.

Exemple 4 Comme le montre la figure 2.10, deux films (A et B) partageant différentes propriétés de l’humeur pourraient être également similaires à un autre film (D). Si l’humeur requise d’un film est spécifiée, cette similitude ne permet pas de différencier les films A et B.

Figure 2.10: Un exemple illustratif du similitude de film spécifique à l’humeur [6]

Au lieu d’évaluer la cohérence des marqueurs d’humeur entre deux films, comme dans l’équation 2.5, le calcul de la cooccurrence normalisée de l’humeur et de l’humeur dans la collection de films se fait comme suit:

(2.6)

Une fois que la matrice de cooccurrence d’humeur est obtenue, La matrice d’humeur cinématographique spécifique à l’humeur est générée, comme l’exprime l’équation 2.7 :

(2.7)

Tout en conservant les valeurs originales de matrice de l’humeur du film dans la colonne correspondant à l’humeur , les valeurs de la matrice comme dans l’équation 2.7, pour toute autre humeur , sont remplacées par les valeurs des similitudes dans l’équation 2.6, indiquant implicitement dans quelle mesure l’humeur est informative sur l’humeur . Ensuite, les auteurs ont défini la similarité cinématographique spécifique à l’humeur comme suit :

(2.8)
2.6.3.2 Approche de Said et al

La similitude entre les films en termes de mots-clés (PK). Puisque les PK représentent le contenu du film, cette similitude peut améliorer les liens basés sur l’humeur entre les films. Tout d’abord, la création d’une matrice de film-PK binaire composée de films et .

= 1 si le film a le , et = 0 sinon.

Ensuite, la similarité PK-based entre le film et le film peut être définie comme suit :

(2.9)
2.6.3.3 Joint Matrix Factorization (JMF)

Le MF de base [64] peut être formulé comme dans l’équation 2.10 :

(2.10)
Notation Signification
R La matrice d’évaluation User-item R composée de K utilisateurs et de N éléments.
MF La matrice d’évaluation R par les deux matrices de rang inférieur. U et V
Une colonne de vecteur de caractéristique d-dimensionnelle de l’utilisateur .
Un vecteur de caractéristique de dimension d de colonne de film .
L’évaluation de l’utilisateur sur le film .
Désigne une fonction indicatrice égale à 1 lorsque > 0, et 0 sinon.
, Des normes Frobenius de U et V, qui contribuent à atténuer le sur-apprentissage.
, Des paramètres de régularisation.

Les propriétés du MF      Les auteurs exigeaient que les films soient similaires les uns aux autres, en ce qui concerne le critère de similarité propre à l’humeur dans l’équation 2.8, partageant des caractéristiques de film similaires. Alors, ces auteurs ont formulé une fonction appelée :

context-aware loss function

comme indiqué dans l’équation 2.11 :

(2.11)

désigne une fonction d’indicateur qui est égale à 1 lorsque > et 0 sinon.

les auteurs ont supposé que les films similaires les uns aux autres (voir l’équation 2.9), devraient également partager des caractéristiques de films similaires, ce qui implique que la similitude des graphiques est informative pour un film spécifique à l’humeur. Par conséquent, les auteurs ont formulé une autre fonction de perte contextuelle comme indiqué dans l’équation suivante 2.12 :

(2.12)

désigne une fonction d’indicateur qui est égale à 1 lorsque > et 0 sinon.

En prenant en compte les fonctions de perte contextuelle en tant que termes de régularisation dans le modèle de base MF, un modèle de (JMF : joint matrix factorization) peut être formulé comme suit:

Dans ce modèle, et sont des paramètres utilisés pour pondérer les contributions de la régularisation par la similitude de film spécifique à l’humeur et par la similarité de film PK, respectivement.

Lorsque = 0 et = 0, le modèle JMF converge vers le modèle de base MF.

Entrée : Matrice d’évaluation de film d’utilisateur , similarité de film à film spécifique à l’humeur , similarité de film à film à base de PK , paramètres de tradeoff et , paramètre de régularisation , condition d’arrêt .
Sortie : Compléter la matrice de pertinence du film-utilisateur .
Initialiser , avec des valeurs aléatoires;
= 0;
= 0;
Calculer comme dans l’équation 2.6.3.3.
Répéter
= 1;
Calculer , comme dans l’équation 2.13 et 2.14;
     Répéter
; // Maximiser la taille de l’apprentissage.
     jusqu’à
;
Calculer comme dans l’équation 2.6.3.3;
Si 1- / Alors
; // indicateur de convergence
Fin Si
;
jusqu’à
;

Algorithm 2 JMF-MS-PK

Les gradients de par rapport à U et V peuvent être calculés comme suit :

(2.13)

Selon l’équation 2.14, les auteurs exploitent la symétrie de et . L’algorithme JMF-MS-PK est décrit en détail dans l’algorithme 2.

(2.14)

2.6.4 Étude expérimentale

Selon Shi et al., les expériences montrent que l’algorithme surpasse plusieurs autres approches de recommandation. Une amélioration peut être obtenue en exploitant les similarités de séquences contextuelles, parmi lesquelles la similarité de film spécifique à l’humeur est montrée pour apporter la contribution majeure à la performance de recommandation et la similitude de film basée PK pourrait augmenter la contribution. De plus, ces auteurs ont validé spécifiquement l’utilité de la similarité de film spécifique à l’humeur par rapport à la similarité de film basée sur l’humeur générale, ce qui conduit en effet à une amélioration des performances. Ils ont montré également le JMF avec similarité de film spécifique de l’humeur et la similarité de film en termes de mots-clés de la parcelle pourrait être l’option la plus bénéfique pour les utilisateurs de profils contenant différents nombres de films classés, par rapport aux autres variantes.

P@1 P@5 P@10 MAP
PopRec 0.213 0.248 0.251 0.264
RWR 0.238 0.253 0.274 0.281
MF 0.325 0.305 0.241 0.252
JMF-MB 0.338 0.328 0.286 0.273
JMF-MS 0.350 0.335 0.295 0.289
JMF-MS-PK 0.363 0.335 0.306 0.290

Comparaison des performances de la recommandation entre l’algorithme proposé et d’autres approches de base

Num. films classés (Num. Utilisateurs) MF JMF-MB JMF-MS JMF-MS-PK
1 50 (19) 0.305 0.326 0.374 0.379
51 100 (16) 0.250 0.269 0.313 0.313
101 150 (13) 0.208 0.223 0.238 0.238
151 200 (12) 0.242 0.317 0.250 0.267
>200 (20) 0.195 0.285 0.270 0.300

Comparaison des performances de P@10 entre l’algorithme proposé et d’autres approches de référence par rapport aux utilisateurs ayant différents nombres de films classés

2.7 Approche de Said et al

2.7.1 Contexte

L’importance du contexte et des données contextuelles d’un utilisateur pour des recommandations précises a été largement reconnue [14, 72]. Cependant, la grande majorité des techniques de recommandation existantes se concentrent sur la recommandation des items les plus pertinents aux utilisateurs et ne tiennent pas compte du contexte. De plus, il en résulte des recommandations qui ont été statiques. Alors, les systèmes de recommandation sensibles au contexte sont arrivés pour résoudre ce problème puisque ces systèmes utilisent la notion du contexte pour fournir des informations et/ou des services pertinents à l’utilisateur [42].

2.7.2 Objectif

Le défi sur la recommandation contextuelle des films(CAMRa20101) visant à stimuler la recherche de la conscience du contexte dans le système de recommandation. Deux Datasets, rassemblés par les communautés de recommandation des films en ligne Moviepilot et Filmtipset, ont été lancés exclusivement pour le défi.

2.7.3 Les techniques utilisées

Le défi a servi à stimuler la recherche sur la connaissance du contexte dans les systèmes de recommandation. Ceci a été réalisé en rassemblant des chercheurs travaillant sur des systèmes de recommandation et en les laissant étudier les mêmes défis, tout en évaluant les solutions proposées en utilisant les mêmes Datasets et les mêmes métriques d’évaluation.

Cet environnement semi-contrôlé permettrait une comparaison juste des solutions et des algorithmes développés par les participants. De plus, les participants devaient utiliser uniquement les datasets fournis.

Les datasets utilisés dans le défi ont été publiés exclusivement par les sites de recommandation de films Moviepilot2 et Filmtipset3. Pour des raisons de confidentialité, les datasets ont été anonymisés avant la publication. Quatre versions des datasets ont été créées: deux ensembles Moviepilot et deux ensembles Filmtipset, c’est-à-dire une version pour chaque piste et sous-piste. Les datasets ont été générés à l’aide des algorithmes aléatoires.

La figure 2.11 montre le nombre d’évaluations par rapport à l’occurrence de taux dans les datasets. La distribution des évaluations dans tous les datasets suit la distribution de la loi de puissance, démontrant qu’il n’y avait pas d’anomalie liée aux évaluations dans les datasets.

Figure 2.11: Nombre d’évaluations par rapport à l’occurrence de taux des datasets d’apprentissage et de test [7]
2.7.3.1 Moviepilot

Moviepilot est la première communauté de recommandation de films et de télévision en ligne en Allemagne. Il compte plus de 100 000 utilisateurs enregistrés et une base de données de plus de 40 000 films avec environ 7,5 millions d’évaluations. Les détails du dataset sont présentés dans le tableau 2.7.3.1. Moviepilot étaient basés sur les évaluations qui ont été divisées en sept parties:

  • Ensemble d’apprentissage (Train-set).

  • L’ensemble de test pour la semaine de Noël.

  • L’ensemble d’évaluation pour la semaine de Noël.

  • L’ensemble de test pour la semaine des Oscars.

  • L’ensemble d’évaluation pour la semaine des Oscars.

  • L’ensemble de test pour la piste d’humeur.

  • L’ensemble d’évaluation pour la piste d’humeur.

Utilisateurs Films Évaluations
Train-set 105,137 25,058 4,544,409
Ensemble de test pour la semaine de Noël 160 3,377 16,174
Ensemble d’évaluation pour la semaine de Noël 80 2,153 6,701
Ensemble de test pour la semaine des Oscars 160 2,144 8,277
Ensemble d’évaluation pour la semaine des Oscars 80 1,520 4,169
Ensemble de test pour la piste d’humeur 160 251 2,656
Ensemble d’évaluation pour la piste d’humeur 80 220 1,421

Le nombre de films, d’utilisateurs et d’évaluations dans Moviepilot

En plus des évaluations, les datasets comprenaient plusieurs autres caractéristiques, telles que les étiquettes d’humeur cinématographique, les étiquettes d’audience prévues, les films préférés/détestés et le lieu et l’heure du film. Un diagramme entité-relation abstraite des ensembles de données et de leurs caractéristiques est présenté dans la figure 2.12:

Figure 2.12: Un diagramme entité-relation abstraite de dataset de Moviepilot [7]

Toutes les données se rapportant aux paires utilisateur-film trouvées dans les ensembles de test et d’évaluation et dans les semaines correspondantes (Noël 2009 et Oscars 2010 [73]) ont été supprimées. Afin de ne pas révéler des informations non disponibles au moment des recommandations. Les statistiques d’attribution d’étiquettes dans l’ensemble d’apprentissage sont présentées dans le tableau 2.12.

Affectations
Humeur 6,712
Plot 92,124
Time 3,687
Place 8,586
Audience 2,436

Affectations des tags dans Moviepilot

2.7.3.2 Filmtipset

Filmtipset est la plus grande communauté de recommandation de films en Suède. Il compte plus de 90 000 utilisateurs enregistrés et une base de données de plus de 20 millions d’évaluations. Ces datasets ont été divisés en plusieurs fichiers, chaque piste ayant un ensemble d’apprentissage, un ensemble de test et un ensemble d’évaluation.

Ces données d’évaluation ont été regroupées avec d’autres fonctionnalités, telles que les commentaires, les relations avec les amis, les informations sur les acteurs/auteurs/réalisateurs et les détails. Un diagramme d’entité-relation abstraite du dataset et de leurs caractéristiques est présenté à la figure 2.13.

Figure 2.13: Un diagramme entité-relation abstraite de dataset de Filmtipset [7]

Le tableau 2.13 montre certaines collections non liées à l’évaluation dans Filmtipset.

hebdomadaire Social
Collection 307,131 102
Favorites 44,765 15,283
Friends 83,966 12,171
Genres 143,316 67,997
Lists 519,515 438,643
Movie comments 289,586 146,510
People in movies 452,074 224,410
Person comments 322,555 2,822
Review ratings 37,491 2,423
Reviews 1,341 1,044
Movie similarities 35,925 28,372

Le nombre de collections, de favoris, etc. dans Filmtipset

L’ensemble de test pour la piste des recommandations hebdomadaires était basé sur toutes les évaluations fournies entre le premier février 2008 et le 25 février 2010. Les ensembles de test et d’évaluation pour la sous-piste de la semaine de Noël étaient basés sur les évaluations fournies entre le 21 décembre 2009 et le 27 décembre 2009. Les détails de ces datasets sont présentés dans le tableau 2.13.

Utilisateurs Films Évaluations
Ensemble d’apprentissage 34,857 53,600 5,862,464
Ensemble de test pour la semaine de Noël 2,500 5,110 23,393
Ensemble d’évaluation pour la semaine de Noël 1,000 3,450 9,250
Ensemble de test pour la semaine des Oscars 2,500 5,670 33,548
Ensemble d’évaluation pour la semaine des Oscars 848 3,235 11,486

Nombre d’utilisateurs, de films et d’évaluations dans le dataset hebdomadaires Filmtipset

Les données hebdomadaires ont été supprimées du dataset de recommandations sociales, créant pratiquement deux ensembles de données disjoints par un utilisateur. Les détails de ces datasets sont présentés dans le tableau 2.13.

Utilisateurs Films Évaluations
Train-set 16,473 24,222 3,075,346
Test 439 1,915 15,729
Évaluation 153 1,449 6,224

Nombre d’utilisateurs, de films et d’évaluations dans le dataset sociales Filmtipset

2.7.4 Étude expérimentale

Les pistes hebdomadaires et les datasets ont été couverts par [74] où les auteurs ont mis en œuvre un modèle de filtrage collaboratif prenant en compte le temps en utilisant la factorisation matricielle. La piste hebdomadaire utilisant les données de Moviepilot a été couverte par [5] où les auteurs ont utilisé une approche de la recommandation de tag, PITF (Pairwise Interaction Tensor Factorization) où des semaines ont été utilisées pour former des tenseurs de film pour des utilisateurs. Deux essais sur la piste hebdomadaire utilisant les données de Filmtipset ont été présentés par les auteurs de [75, 76], les documents ont présenté une recommandation utilisant kNN basé sur le temps [76] et une approche basée sur des modèles de régression [75].
     La piste d’humeur a été couverte par [77, 78] où les approches utilisées étaient une moyenne pondérée kNN basée sur l’humeur et l’utilisateur [8], un modèle de factorisation matricielle étendue incluant des informations sur l’humeur [77] et un algorithme de filtrage collaboratif utilisant des utilisateurs experts [78]. Enfin, la piste sociale a été couverte par les auteurs de [79, 80, 81]. L’approche sociale de [74] était, de même que l’approche hebdomadaire couverte par cet article, basée sur la factorisation matricielle. L’approche dans [79] était un modèle de random-walk utilisant l’information implicite dans les amitiés [80], présentée et étendue du filtrage collaboratif traditionnel où les données sociales étaient prises en compte, et [81] présentait deux approches: une approche kNN basée sur des combinaisons linéaires de mesures de similarité entre des utilisateurs, et une approche basée sur la programmation logique inductive. Les résultats de chaque approche sont présentés dans le tableau 2.7.4.

paper P@5 P@10 MAP AUC
0.3637 0.3168 0.1654 0.9212

[5] 0.1418 0.1281 0.9680
0.2775 0.2237 0.1362 0.9556
[5] 0.2039 0.1822 0.9623
0.0817 0.0596 0.0902 0.9283
[76] 0.0070 0.0044 0.0405 0.4552
[75] 0.0795 0.0821 0.0973 0.9231
0.1087 0.0708 0.0911 0.9467
[76] 0.0034 0.0028 0.0359 0.4161
[75] 0.0942 0.0655 0.0849 0.9295
Mood [77] 0.3380 0.2970 0.2940 0.8690
[78] 0 0 0.0037 0.6548
Social 0.5144 0.4185 0.3103 0.9782
[79] 0.0802 0.0704 0.0596 0.4276
[80] 0.4167
[81] 0.1480 0.1230 0.0970 0.9880

Les résultats obtenus dans chaque piste par les participants (les valeurs manquantes n’ont pas été fournies)

2.8 Approche de Wang et al

2.8.1 Contexte

Les technologies de personnalisation et les systèmes de recommandation ont été largement utilisés dans plusieurs domaines (tels que la recherche d’informations) pour atténuer le problème de "surcharge d’informations". Le but de tels systèmes est d’aider les utilisateurs à trouver des articles (tels que des films, des pages Web et des services).
     La grande majorité des systèmes de recommandation basiques se concentrent sur la recommandation des éléments les plus pertinents aux utilisateurs et ne tiennent pas compte du contexte. Alors, les systèmes de recommandation sensibles au contexte arrivent pour résoudre ce problème. Dans ce cadre, l’humeur s’est avérée être une caractéristique contextuelle importante dans les systèmes de recommandation contextuels par certaines études.

2.8.2 Objectif

Wang et al. [8] ont proposé deux nouvelles approches du filtrage collaboratif hybride (FC) basé sur l’humeur afin d’améliorer encore la précision des performances et la satisfaction des utilisateurs en utilisant le contexte émotionnel dans les systèmes de recommandation contextuels.

2.8.3 Les techniques utilisées

2.8.3.1 Le filtrage collaboratif

Le filtrage collaboratif (FC) ([24], [82]) est l’approche la plus populaire dans le domaine des systèmes de recommandation. Alors, Wang et al. ont utilisé le filtrage collaboratif traditionnel basé sur l’utilisateur comme étant l’approche de base qui peut être divisée en deux étapes:

  • L’évaluation de la similarité de l’utilisateur.

  • La prédiction d’évaluation.

L’approche du filtrage collaboratif traditionnel basée sur l’utilisateur repose sur des utilisateurs similaires ayant des profils d’évaluation similaires, c’est-à-dire que la prédiction d’une évaluation pour l’utilisateur et l’élément est calculée comme un agrégat des utilisateurs pour le même élément [24].
     Les utilisateurs les plus similaires sont généralement appelés plus proches voisins (KNN). Ainsi, une mesure de similarité entre l’utilisateur et doit être définie et calculée avec le coefficient de corrélation de Pearson, le cosinus ou d’autres méthodes. Dans ce cadre, les auteurs ont utilisé le coefficient de corrélation de Pearson pour mesurer la similarité de et comme suit [24]:

(2.15)
Notation Propriétés
Ensemble de tous les éléments co-évalués par les deux utilisateurs et
Nombre d’éléments co-évalués

Les propriétés de la corrélation de Pearson

L’approche du filtrage collaboratif traditionnelle introduit généralement l’évaluation moyenne de l’utilisateur. Ensuite, l’estimation prédite , peut être calculée comme suit :

(2.16)
2.8.3.2 Recommandation tenant compte de l’humeur

La plupart des travaux sur la recommandation d’humeur ont abordé les recommandations d’humeur et de musique, mais il y avait peu d’études liées au cinéma. Winoto et al. [83] ont étudié le rôle de l’humeur de l’utilisateur dans les recommandations de films en proposant une approche du FC sensible à l’humeur et ont comparé aussi les performances par rapport à l’approche classique.

2.8.4 Description de l’approche

Dans cette partie, nous allons aborder de l’approche de Wang et al. Dans le contexte d’utilisation de des systèmes de recommandation contextuels, l
es auteurs ont présenté une nouvelle approche FC basée sur l’humeur, puis, ils ont proposé deux approches hybrides basées sur l’approche décrite ci-dessus afin d’améliorer la précision des performances dans les systèmes de recommandation.

2.8.4.1 Approche du filtrage collaboratif basée sur l’humeur

La logique de la piste Moviepilot implique que l’humeur d’un film pourrait implicitement refléter l’humeur d’un utilisateur au moment de regarder le film [7]. L’approche proposée du filtrage collaboratif basée sur l’humeur repose sur des utilisateurs similaires qui ont des profils de préférence d’humeur similaires, c’est-à-dire ceux qui ont un intérêt similaire pour le contexte émotionnel. De plus, l’approche proposée prend en considération l’effet de la volatilité de l’évaluation d’humeur sur les préférences de l’utilisateur.

L’humeur choisie pour cette piste était "Eigenwillig", c’est-à-dire "bizarre". Cependant, les participants n’ont pas reçu la description textuelle de l’humeur, mais plutôt une représentation numérique anonymisée. Par conséquent, Wang et al. ont utilisé le modèle d’espace vectoriel (VSM) pour décrire le contexte émotionnel :

(2.17)
  • Cette approche est divisée en trois étapes :

  • [font= , label=☞]

  • Construire une matrice des préférences de l’humeur basée sur la matrice d’évaluation user-movie, les relations entre les films et les émotions et le facteur de volatilité d’évaluation émotionnelle. Chaque rangée de la matrice construite est représentée comme le vecteur émotionnel d’un utilisateur :

    (2.18)

    est le poids qui mesure la préférence de l’utilisateur à une émotion spécifique .
    Un ensemble des calculs est effectué comme suit :

    • : mesurer la préférence moyenne de l’utilisateur pour toutes les émotions, et sont des seuils constants, et est un coefficient exponentiel.

    • Si est inférieur à un certain seuil (), l’émotion a un effet significatif sur les préférences de l’utilisateur et peut être représenté comme .

    • Si est au-delà d’un certain seuil (), l’émotion a peu ou pas d’effet sur les préférences de l’utilisateur et peut être représenté comme la valeur moyenne .

  • Calcul de la similarité entre l’utilisateur et :

    (2.19)

    signifie les préférences émotionnelles moyennes de l’utilisateur .

  • La valeur prédite peut être calculée comme dans l’équation 2.20 et des recommandations basées sur l’humeur peuvent alors être générées.

    (2.20)
2.8.4.2 Approche du FC hybride basée sur l’humeur
  • Approche de fusion de similarité : Pour rechercher des voisins plus proches, Wang et al. ont proposé une méthode de recherche KNN en plusieurs étapes. Ensuite, les auteurs ont prédit les films non évalués pour les utilisateurs. Le processus d’algorithme est décrit comme suit :

    1. Mesure des similarité de chaque utilisateur et des autres utilisateurs en fonction de l’approche du FC traditionnelle, et construire un vecteur pour l’utilisateur .

      (2.21)

      Où min-corated-num signifie le nombre minimum de séquences vidéo.

    2. Mesure des similarité de chaque utilisateur et d’autres utilisateurs en fonction du FC basé sur l’humeur, et construire une ambiance de simulation vectorielle pour l’utilisateur .

      (2.22)
    3. Trouver les plus proches voisins pour l’utilisateur basé sur et .
      Trouver d’abord la k-ème valeur maximale et les valeurs qui ne sont pas inférieures à D% à partir du vecteur , en les considérant comme les plus proches voisins candidats. Ensuite, sélectionner le même nombre de valeurs maximales à partir du vecteur avec la construction de deux groupes de voisins les plus proches pour l’utilisateur .

      Les utilisateurs de ces deux groupes sélectionnés sont considérés comme les plus proches voisins de l’utilisateur :

    4. Les évaluations prédites peuvent être calculées pour l’utilisateur comme dans l’équation 2.17

2.8.5 Étude expérimentale

Dans cette sous-section, les auteurs ont présenté les résultats expérimentaux moyens pour 160 utilisateurs de test de la figure 2.14, respectivement pour , et . Alors, ils définissent = 0.1, = 0.5, = 2 et = 0.6 en raison de meilleurs résultats avec ces valeurs.
     Les résultats de la figure 2.14 montrent que les deux approches (c’est-à-dire la fusion prédictive, la fusion par similarité) surpassent les autres approches du FC en termes des trois métriques d’évaluation. Ainsi, en incorporant l’humeur dans FC en utilisant la fusion de similitude et fusion prédictive.
     Les stratégies de fusion des évaluations peuvent améliorer la précision des recommandations sur la piste Moviepilot. Cependant, les deux autres solutions proposées de la FC axée sur l’humeur qui ne prennent pas en compte la volatilité des évaluations d’humeur, ne sont pas meilleures que les approches du FC traditionnelles. Ce résultat indique que seuls les états d’humeur ou les préférences d’humeur de l’utilisateur peuvent ne pas suffire à générer des recommandations précises.
     De plus, la figure 2.14 montrvoisin le plus proche [e seulement les résultats expérimentaux moyens, tandis que pour quelques certains utilisateurs, l’approche à base d’humeur ne fonctionne pas plus mauvais que FC traditionnel. À partir des résultats de l’expérience, que la volatilité (basée sur l’humeur) permet d’obtenir une meilleure précision des recommandations que celle basée sur l’humeur (non-volatilité) pour les trois mesures d’évaluation. Il est donc significatif de présenter la volatilité dans l’approche de filtrage collaboratif basé sur l’humeur. Par ailleurs, est meilleur que pour toutes les approches, alors que ce n’est pas très intéressant puisque la performance semble augmenter de façon monotone avec la valeur de .

Figure 2.14: Comparaison des performances de différentes approches FC pour le dataset Moviepilot sélectionné en ce qui concerne le plus proche voisin [8]

2.9 Étude comparative

Dans cette section, nous allons mener une comparaison théorique entre les approches que nous avons détaillées auparavant. Le tableau 2.9 présente une comparaison théorique entre les approches des systèmes de recommandation sensibles au contexte par rapport aux films. La comparaison est faite suivant les axes suivants :

  • Type de contexte : cet axe décrit les types de contexte utilisés dans les différentes approches des systèmes de recommandation sensibles au contexte.

  • Source de données : cet axe précise les sources de données utilisées dans les systèmes de recommandation contextuels.

  • Techniques utilisées : cet axe indique les différents techniques utilisées dans les systèmes de recommandation contextuels par rapport aux films.

Approches Type de contexte Source de données Techniques utilisées
Ostuni et al. [3] Emplacement Système DBPEDIA Pré-filtrage contextuel
Post-filtrage contextuel
Recommandation basée
sur le contenu
Campos et al. [4] Social et temporel Les sites web Pré et post-filtrage contextuel
La modélisation contextuelle
Gantner et al. [5] Temporel MoviePilot Pairwise Interaction Tensor Factorization (PITF)
Biancalana et al. [69] Social Réseau de neurones Filtrage collaboratif
Machine learning
Réseau de neurones
Shi et al. [6] humeur Les mots clés Filtrage collaboratif
Joint Matrix Factorization (JMF)
Said et al. [7] Social et humeur Les réseaux sociaux Pairwise Interaction Tensor Factorization (PITF)
KNN
Factorisation matricielle
Filtrage collaboratif
Wang et al. [8] humeur Les sites web Filtrage collaboratif

Comparaison théorique des approches dans la littérature

2.10 Limites et discussion

les systèmes de recommandation ont été développés en vue de faciliter l’accès aux items pertinents. Leur objectif est d’anticiper les besoins de l’utilisateur en lui fournissant des recommandations d’items jugés pertinents par rapport à ses goûts. À la lumière de ce qui a été dans ce chapitre et à partir du tableau 2.9, nous pouvons conclure que toutes les approches citées dans la littérature sont différentes aux niveaux de type de contexte et les techniques utilisées pour effectuer une recommandation. Parmi les limites des systèmes de recommandation, nous avons identifié la non-prise en compte du contexte dans lequel l’utilisateur décide de faire une recommandation.

2.11 Conclusion

Dans ce chapitre, nous avons présenté quelques approches des systèmes de recommandation sensibles au contexte dans le domaine des films. Par ailleurs tout le long de ce chapitre, nous avons constaté que les approches ont presque toutes l’objective de construire un système de recommandation contextuelle. Pour notre travail de mémoire, nous nous intéressons à la proposition d’une approche de recommandation contextuelle en se basant sur la méthode d’Analyse Hiérarchique des Procédés (AHP).

3.1 Introduction

Dans un système de recommandation, les éléments d’intérêt et les préférences de l’utilisateur sont représentés sous diverses formes, e.g utiliser un ou plusieurs attributs pour décrire un article. Particulièrement dans les systèmes où les recommandations sont basées sur l’opinion d’autrui, il est crucial de prendre en considération les multiples critères qui affectent les opinions des utilisateurs afin de faire des recommandations plus efficaces. Bien que les systèmes de recommandation utilisent déjà plusieurs attributs pour la production de recommandations, la recherche sur la façon dont les méthodes de prise des décisions multi-critères (MCDM) peuvent faciliter le processus de création d’une recommandation, peut être encore considérée comme sporadique.
     Après avoir étudié l’état de l’art des systèmes de recommandation sensibles au contexte dans le domaine des films. Dans ce chapitre, nous commençons par la description des méthodes

de prise de décision multi-critères (MCDM). Par la suite, nous allons présenter la méthode d’Analyse Hiérarchique des Procédés et l’intégration de cette méthode dans le processus de recommandation. Enfin, nous allons finir par une conclusion.

3.2 Description des méthodes de prise de décision multicritères (MCDM)

Dans cette section, nous intéressons aux méthodes de prise de décision multi-critères en donnant leurs définitions, les étapes de prise de décision et nous finissons par le processus de fonctionnement des MCDM.

3.2.1 Définition des méthodes de prise de décision à critères multiples (MCDM)

Définition 37 MCDM est l’une des méthodologies de décision les plus utilisées dans divers domaines tels que : énergie et environnement, affaires, économie, production, etc. Les techniques et approches des MCDM améliorent la qualité des décisions en rendant le développement plus efficace, rationnel et explicite [84].
Définition 38 la prise de décision multi-critères (MCDM) est une technique de prise de décision basée sur plusieurs alternatives existantes ou une théorie qui explique le processus de prise de décision en considérant plusieurs critères. Afin de modéliser les problèmes de recommandation en tant que MCDM, il faut suivre quatre étapes générales de la méthodologie de modélisation pour prendre une décision sur le problème [85] :

  • Objectif de décision : il définit l’objectif sur lequel les décisions doivent être prises et les raisons de la recommandation de décision.

  • Famille de critères : il définit l’identification et la modélisation d’un ensemble de critères influençant la décision, ainsi qu’une recommandation complète et non redondante.

  • Modèle de préférence globale : il définit la fonction d’agrégation pour la préférence marginale sur chaque critère à la préférence globale du décideur pour chaque élément.

  • Processus d’aide à la décision : il définit l’étude des différentes catégories et types de systèmes de recommandation qui peuvent être utilisés pour appuyer les recommandations des décideurs, conformément aux résultats des étapes précédentes.

La mise en œuvre de la méthode de prise de décision multi-critères (MCDM) dans un système de recommandation n’a pas encore été explorée systématiquement. Un système de recommandation est capable d’expliquer certaines contributions du système qui impliquent plusieurs méthodes MCDM.
     MCDM est une théorie de prise de décision qui considère un ensemble limité d’options alternatives par rapport à de nombreux critères. Le problème dans MCDM peut être formulé comme suit:

  • Supposons qu’il existe critères et alternatives. Nous devons choisir une partie ou une série d’alternatives répondant à des critères aussi élevés que possible [11].

Le problème MCDM peut être modélisé dans la matrice de décision ci-dessous :


Critères avec leurs poids