Combinaison d'information visuelle, conceptuelle, et contextuelle pour la construction automatique de hierarchies semantiques adaptees a l'annotation d'images

04/18/2013 ∙ by Hichem Bannour, et al. ∙ 0

This paper proposes a new methodology to automatically build semantic hierarchies suitable for image annotation and classification. The building of the hierarchy is based on a new measure of semantic similarity. The proposed measure incorporates several sources of information: visual, conceptual and contextual as we defined in this paper. The aim is to provide a measure that best represents image semantics. We then propose rules based on this measure, for the building of the final hierarchy, and which explicitly encode hierarchical relationships between different concepts. Therefore, the built hierarchy is used in a semantic hierarchical classification framework for image annotation. Our experiments and results show that the hierarchy built improves classification results. Ce papier propose une nouvelle methode pour la construction automatique de hierarchies semantiques adaptees a la classification et a l'annotation d'images. La construction de la hierarchie est basee sur une nouvelle mesure de similarite semantique qui integre plusieurs sources d'informations: visuelle, conceptuelle et contextuelle que nous definissons dans ce papier. L'objectif est de fournir une mesure qui est plus proche de la semantique des images. Nous proposons ensuite des regles, basees sur cette mesure, pour la construction de la hierarchie finale qui encode explicitement les relations hierarchiques entre les differents concepts. La hierarchie construite est ensuite utilisee dans un cadre de classification semantique hierarchique d'images en concepts visuels. Nos experiences et resultats montrent que la hierarchie construite permet d'ameliorer les resultats de la classification.

READ FULL TEXT VIEW PDF
POST COMMENT

Comments

There are no comments yet.

Authors

page 1

page 2

page 3

page 4

This week in AI

Get the week's most popular data science and artificial intelligence research sent straight to your inbox every Saturday.

1 Introduction

Avec l’explosion des donn es images, il devient essentiel de fournir une annotation s mantique de haut niveau ces images pour satisfaire les attentes des utilisateurs dans un contexte de recherche d’information. Des outils efficaces doivent donc tre mis en place pour permettre une description s mantique pr cise des images. Depuis les dix derni res ann es, plusieurs approches d’annotation automatique d’images ont donc t propos es [Barnard03, Lavrenko03, Fan08IP, Bannour09CORIA, Bannour10] pour essayer de r duire le probl me bien connu du foss s mantique [Smeulders00]. Cependant, dans la plupart de ces approches, la s mantique est souvent limit e sa manifestation perceptuelle, i.e. au travers de l’apprentissage d’une fonction de correspondance associant les caract ristiques de bas niveau des concepts visuels de plus haut niveau s mantique [Barnard03, Lavrenko03]. Cependant, malgr une efficacit relative concernant la description du contenu visuel d’une image, ces approches sont incapables de d crire la s mantique d’une image comme le ferait un annotateur humain. Elles sont galement confront es au probl me du passage l’ chelle [Liu07]. En effet, les performances de ces approches varient consid rablement en fonction du nombre de concepts et de la nature des donn es cibl es [Hauptmann07]. Cette variabilit peut tre expliqu e d’une part par la large variabilit visuelle intra-concept, et d’autre part par une grande similarit visuelle inter-concept, qui conduisent souvent des annotations imparfaites.

R cemment, plusieurs travaux se sont int ress s l’utilisation de hi rarchies s mantiques pour surmonter ces probl mes [Tousch11, Bannour11, BannourMMM12]. En effet, l’utilisation de connaissances explicites, telles que les hi rarchies s mantiques, peut am liorer l’annotation en fournissant un cadre formel qui permet d’argumenter sur la coh rence des informations extraites des images. En particulier, les hi rarchies s mantiques se sont av r es tre tr s utiles pour r duire le foss s mantique [Deng10]. Trois types de hi rarchies pour l’annotation et la classification d’images ont t r cemment explor es : 1) les hi rarchies bas es sur des connaissances textuelles (nous ferons r f rence ce type de connaissances par information conceptuelle dans le reste du papier) 111Exemple d’information textuelle utilis e pour la construction des hi rarchies: les tags, contexte environnant, WordNet, Wikipedia, etc. [Marszalek07, Wei07, Deng09], 2) les hi rarchies bas es sur des informations visuelles (ou perceptuelles), i.e. caract ristiques de bas niveau de l’image [Sivic08, Bart08, Yao09], 3) les hi rarchies que nous nommerons s mantiques bas es la fois sur des informations textuelles et visuelles [LI10, Fan07, Wu08]. Les deux premi res cat gories d’approches ont montr un succ s limit dans leur usage. En effet, d’un c t l’information conceptuelle seule n’est pas toujours en phase avec la s mantique de l’image, et est alors insuffisante pour construire une hi rarchie ad quate pour l’annotation d’images [Wu08]. De l’autre cot , l’information perceptuelle ne suffit pas non plus elle seule pour la construction d’une hi rarchie s mantique ad quate (voir le travail de [Sivic08]). En effet, il est difficile d’interpr ter ces hi rarchies dans des niveaux d’abstraction plus lev s. Ainsi, la combinaison de ces deux sources d’information semble donc obligatoire pour construire des hi rarchies s mantiques adapt es l’annotation d’images.

La suite de ce papier est organis e comme suit: dans la section 2 nous pr sentons les travaux connexes. La section 3 pr sente la mesure s mantique propos e dans un premier temps, puis les r gles utilis es pour la construction de la hi rarchie s mantique. Les r sultats exp rimentaux sont pr sent s dans la section 4. La section 5 pr sente nos conclusions et perspectives.

2 tat de l’art

Plusieurs m thodes [LI10, Fan07, Marszalek07, Wei07, Sivic08, Bart08] ont t propos es pour la construction de hi rarchies de concepts d di es l’annotation d’images. Dans cette section nous pr senterons ces diff rentes m thodes en suivant l’ordre propos dans l’introduction.

Marszalek & al. [Marszalek07] ont propos de construire une hi rarchie par l’extraction du graphe pertinent dans WordNet reliant l’ensemble des concepts entre eux. La structure de cette hi rarchie est ensuite utilis e pour construire un ensemble de classifieurs hi rarchiques. Deng & al. [Deng09] ont propos ImageNet, une ontologie grande chelle pour les images qui repose sur la structure de WordNet, et qui vise peupler les 80 000 synsets de WordNet avec une moyenne de 500 1000 images s lectionn es manuellement. L’ontologie LSCOM [LSCOM06] vise concevoir une taxonomie avec une couverture de pr s de 1 000 concepts pour la recherche de vid o dans les bases de journaux t l vis s. Une m thode pour la construction d’un espace s mantique enrichi par les ontologies est propos e dans [Wei07]. Bien que ces hi rarchies soient utiles pour fournir une structuration compr hensible des concepts, elles ignorent l’information visuelle qui est une partie importante du contenu des images.

D’autres travaux se sont donc bas s sur l’information visuelle [Sivic08, Bart08, Yao09]. Une plateforme (I2T) d di e la g n ration automatique de descriptions textuelles pour les images et les vid os est propos e dans [Yao09]. I2T est bas e principalement sur un graphe AND-OR pour la repr sentation des connaissances visuelles. Sivic & al. [Sivic08] ont propos de regrouper les objets dans une hi rarchie visuelle en fonction de leurs similarit s visuelles. Le regroupement est obtenu en adaptant, pour le domaine de l’image, le mod le d’Allocation Dirichlet Latente hi rarchique (hLDA) [Blei04]. Bart & al. [Bart08] ont propos une m thode bay sienne pour organiser une collection d’images dans une arborescence en forme d’arbre hi rarchique. Dans [Griffin08], une m thode pour construire automatiquement une taxonomie pour la classification d’images est propos e. Les auteurs sugg rent d’utiliser cette taxonomie afin d’augmenter la rapidit de la classification au lieu d’utiliser un classifieur multi-classe sur toutes les cat gories. Une des principales limitations de ces hi rarchies visuelles est qu’elles sont difficiles interpr ter. Ainsi, une hi rarchie s mantique compr hensible et adequate pour l’annotation d’images devrait tenir compte la fois de l’information conceptuelle et de l’information visuelle lors du processus du construction.

Parmi les approches pour la construction de hi rarchies s mantiques, Li & al. [LI10] ont pr sent une m thode bas e la fois sur des informations visuelles et textuelles (les tiquettes associ es aux images) pour construire automatiquement une hi rarchie, appel e "semantivisual", selon le mod le hLDA. Une troisi me source d’information que nous nommerons information contextuelle est aussi utilis e pour la construction de telles hierarchies. Nous discutons plus pr cis ment de cette information dans le paragraphe suivant. Fan & al. [Fan09] ont propos un algorithme qui int gre la similarit visuelle et la similarit contextuelle entre les concepts. Ces similarit s sont utilis es pour la construction d’un r seau de concepts utilis pour la d sambigu sation des mots. Une m thode pour la construction de hi rarchies bas es sur la similarit contextuelle et visuelle est propos e dans [Fan07]. La "distance de Flickr" est propos e dans [Wu08]. Elle repr sente une nouvelle mesure de similarit entre les concepts dans le domaine visuel. Un r seau de concepts visuels (VCNet) bas sur cette distance est galement propos dans [Wu08]. Ces hi rarchies s mantiques ont un potentiel int ressant pour am liorer l’annotation d’images.

Discussion

Comme nous venons de le voir, plusieurs approches de construction de hierarchies se basent sur WordNet [Marszalek07, Deng09]. Toutefois, WordNet n’est pas tr s appropri la mod lisation de la s mantique des images. En effet, l’organisation des concepts dans WordNet suit une structure psycholinguistique, qui peut tre utile pour raisonner sur les concepts et comprendre leur signification, mais elle est limit e et inefficace pour raisonner sur le contexte de l’image ou sur son contenu. En effet, les distances entre les concepts similaires dans WordNet ne refl tent pas n cessairement la proximit des concepts dans un cadre d’annotation d’images. Par exemple, selon la distance du plus court chemin dans WordNet, la distance entre les concepts "Requin" et "Baleine" est de 11 (nœuds), et entre "Humain" et "Baleine" est de 7. Cela signifie que le concept "Baleine" est plus proche (similaire) de "Humain" que de "Requin". Ceci est tout fait coh rent d’un point de vue biologique, parce que "Baleine" et "Humain" sont des mammif res tandis que "Requin" ne l’est pas. Cependant, dans le domaine de l’image il est plus int ressant d’avoir une similarit plus lev e entre "Requin" et "Baleine", puisqu’ils vivent dans le m me environnement, partagent de nombreuses caract ristiques visuelles, et il est donc plus fr quent qu’on les retrouve conjointement dans une m me image ou un m me type d’images (ils partagent un m me contexte). Donc, une hi rarchie s mantique appropri e devrait repr senter cette information ou permettre de la d duire, pour aider comprendre la s mantique de l’image.

3 M thode Propos e

En se basant sur la discussion pr c dente, nous d finissons les hypoth ses suivantes sur lesquelles repose notre approche:
Une hi rarchie s mantique appropri e pour l’annotation d’images doit: 1) mod liser le contexte des images (comme d fini dans la section pr c dente), 2) permettre de regrouper des concepts selon leurs caract ristiques visuelles et textuelles, 3) et refl ter la s mantique des images, i.e. l’organisation des concepts dans la hi rarchie et leurs relations s mantiques est fid le la s mantique d’images.

Figure 1: Illustration de la mesure propos e bas e sur les similarit s normalis es: visuelle , conceptuelle et contextuelle entre concepts.

Nous proposons dans ce papier une nouvelle m thode pour la construction de hi rarchies s mantiques appropri es l’annotation d’images. Notre m thode se base sur une nouvelle mesure pour estimer les relations s mantiques entre concepts. Cette mesure int gre les trois sources d’information que nous avons d crites pr c demment. Elle est donc bas e sur 1) une similarit visuelle qui repr sente la correspondance visuelle entre les concepts, 2) une similarit conceptuelle qui d finit un degr de similarit entre les concepts cibles, bas e sur leur d finition dans WordNet, et 3) une similarit contextuelle qui mesure la d pendance statistique entre chaque paire de concepts dans un corpus donn (cf. Figure

1). Ensuite cette mesure est utilis e dans des r gles qui permettent de statuer sur la vraisemblance des relations de parent entre les concepts, et permettent de construire une hi rarchie.

tant donn un ensemble de couples image/annotation, o chaque annotation d crit un ensemble de concepts associ s l’image, notre approche permet de cr er automatiquement une hi rarchie s mantique adapt e l’annotation d’images. Plus formellement, nous consid rons l’ensemble des images de la base consid r e, et le vocabulaire d’annotation de ces images, i.e. l’ensemble de concepts associ s ces images. L’approche que nous proposons consiste alors identifier nouveaux concepts qui permettent de relier tous les concepts de dans une structure hi rarchique repr sentant au mieux la s mantique d’images.

3.1 Similarit Visuelle

Soit une repr sentation visuelle quelconque de l’image (vecteur de caract ristiques visuelles), on apprend pour chaque concept un classifieur qui permet d’associer ce concept ses caract ristiques visuelles. Pour cela, nous utilisons machines vecteurs de support (SVM) [Vapnik95] binaires (un-contre-tous) avec une fonction de d cision :

(1)

o : est la valeur d’une fonction noyau pour l’ chantillon d’apprentissage et l’ chantillon de test , est l’ tiquette de la classe de , est le poids appris de l’ chantillon d’apprentissage , et est un param tre seuil appris. Il est noter que les chantillons d’apprentissage avec leurs poids forment les vecteurs de support.

Apr s avoir test diff rentes fonction noyau sur notre ensemble d’apprentissage, nous avons d cid d’utiliser une fonction noyau base radiale:

(2)

Maintenant, compte tenu de ces SVM appris o les repr sentations visuelles des images sont les entr es et les concepts (classes d’images) sont les sorties, nous voulons d finir pour chaque classe de concept un centro de qui soit repr sentatif du concept . Les centro des d finis doivent alors minimiser la somme des carr s l’int rieur de chaque ensemble :

(3)

o est l’ensemble de vecteurs de support de la classe , , et est la moyenne des points dans .

L’objectif tant d’estimer une distance entre ces classes afin d’ valuer leurs similarit s visuelles, nous calculons le centro de de chaque concept visuel en utilisant:

(4)

La similarit visuelle entre deux concepts et , est alors inversement proportionnelle la distance entre leurs centro des respectifs et :

(5)

o est la distance euclidienne entre les deux vecteurs et d finie dans l’espace des caract ristiques visuelles.

3.2 Similarit Conceptuelle

La similarit conceptuelle refl te la relation s mantique entre deux concepts d’un point de vue linguistique et taxonomique. Plusieurs mesures de similarit ont t propos es dans la litt rature [Budanitsky06, Resnik95, Banerjee03]. La plupart sont bas s sur une ressource lexicale, comme WordNet [wordnet]. Une premi re famille d’approches se base sur la structure de cette ressource externe (souvent un r seau s mantique ou un graphe orient ) et la similarit est alors calcul e en fonction des distances des chemins reliant les concepts dans cette structure [Budanitsky06]. Cependant, comme nous l’avons d j dit pr c demment, la structure de ces ressources ne refl te pas forcement la s mantique des images, et ce type de mesures ne semble donc pas adapt notre probl matique. Une approche alternative pour mesurer le degr de similarit s mantique entre deux concepts est d’utiliser la d finition textuelle associ e ces concepts. Dans le cas de WordNet, ces d finitions sont connues sous le nom de glosses. Par exemple, Banerjee et Pedersen [Banerjee03] ont propos une mesure de proximit s mantique entre deux concepts qui est bas e sur le nombre de mots communs (chevauchements) dans leurs d finitions (glosses).

Dans notre approche, nous avons utilis la mesure de similarit propos e par [Patwardhan06], qui se base sur WordNet et l’exploitation des vecteurs de co-occurrences du second ordre entre les glosses. Plus pr cis ment, dans une premi re tape un espace de mots de taille est construit en prenant l’ensemble des mots significatifs utilis s pour d finir l’ensemble des synsets222Synonym set: composante atomique sur laquelle repose WordNet, compos e d’un groupe de mots interchangeables d notant un sens ou un usage particulier. A un concept correspond un ou plusieurs synsets. de WordNet. Ensuite, chaque concept est repr sent par un vecteur de taille , o chaque i me l ment de ce vecteur repr sente le nombre d’occurrences du i me mot de l’espace des mots dans la d finition de . La similarit s mantique entre deux concepts et est alors mesur e en utilisant la similarit cosinus entre et :

(6)

Certaines d finitions de concepts dans WordNet sont tr s concises et rendent donc cette mesure peu fiable. En cons quence, les auteurs de [Patwardhan06] ont propos d’ tendre les glosses des concepts avec les glosses des concepts situ s dans leur voisinage d’ordre 1. Ainsi, pour chaque concept l’ensemble est d fini comme l’ensemble des glosses adjacents connect s au concept (={gloss(), gloss(hyponyms()), gloss(meronyms()), etc.}). Ensuite pour chaque l ment (gloss) de , sa repr sentation est construite comme expliqu ci-dessus. La mesure de similarit entre deux concepts et est alors d finie comme la somme des cosinus individuels des vecteurs correspondants:

(7)

o .

Enfin, chaque concept dans WordNet peut correspondre plusieurs sens (synsets) qui diff rent les uns des autres dans leur position dans la hi rarchie et leur d finition. Une tape de d sambigu sation est donc n cessaire pour l’identification du bon synset. Par exemple, la similarit entre "Souris" (animal) et "Clavier" (p riph rique) diff re largement de celle entre "Souris" (p riph rique) et "Clavier" (p riph rique). Ainsi, nous calculons d’abord la similarit conceptuelle entre les diff rents sens (synset) de et

. La valeur maximale de similarit est ensuite utilis e pour identifier le sens le plus probable de ces deux concepts, i.e. d sambig iser

et . La similarit conceptuelle est alors calcul e par la formule suivante:

(8)

o est l’ensemble des synsets qu’il est possible d’associer aux diff rents sens du concept .

3.3 Similarit Contextuelle

Comme cela a t expliqu dans la section 2, l’information li e au contexte d’apparition des concepts est tr s importante dans un cadre d’annotation d’images. En effet, cette information, dite contextuelle, permet de relier des concepts qui apparaissent souvent ensemble dans des images ou des m mes types d’images, bien que s mantiquement loign s du point de vue taxonomique. De plus, cette information contextuelle peut aussi permettre d’inf rer des connaissances de plus haut niveau sur l’image. Par exemple, si une photo contient "Mer" et "Sable", il est probable que la sc ne repr sent e sur cette photo est celle de la plage. Il semble donc important de pouvoir mesurer la similarit contextuelle entre deux concepts. Contrairement aux deux mesures de similarit pr c dentes, cette mesure de similarit contextuelle d pend du corpus, ou plus pr cis ment d pend de la r partition des concepts dans le corpus.

Dans notre approche, nous mod lisons la similarit contextuelle entre deux concepts et par l’information mutuelle PMI [Church90] (Pointwise mutual information) :

(9)

o , est la probabilit d’apparition de , et est la probabilit jointe de et de . Ces probabilit s sont estim es en calculant les fr quences d’occurrence et de cooccurrence des concepts et dans la base d’images.

tant donn le nombre total de concepts dans notre base d’images, le nombre total d’images, le nombre d’images annot es par (fr quence d’occurrence de ) et le nombre d’images co-annot es par et , les probabilit s pr c dentes peuvent tre estim es par:

(10)

Ainsi:

(11)

quantifie la quantit d’information partag e entre les deux concepts et . Ainsi, si et sont des concepts ind pendants, alors et donc . peut tre n gative si et sont corr l s n gativement. Sinon, et quantifie le degr de d pendance entre ces deux concepts. Dans ce travail, nous cherchons uniquement mesurer la d pendance positive entre les concepts et donc nous ramenons les valeurs n gatives de 0.

Enfin, afin de la normaliser dans l’intervalle [0,1], nous calculons la similarit contextuelle entre deux concepts et dans notre approche par:

(12)

Il est noter que la mesure PMI d pend de la distribution des concepts dans la base. Plus un concept est rare plus sa PMI est grande. Donc si la distribution des concepts dans la base n’est pas uniforme, il est pr f rable de calculer par:

(13)

3.4 Mesure de Similarit Propos e

Pour deux concepts donn s, les mesures de similarit visuelle, conceptuelle et contextuelle sont d’abord normalis es dans le m me intervalle. La normalisation est faite par la normalisation Min-Max. Puis en combinant les mesures pr c dentes, nous obtenons la mesure de similarit s mantique adapt e l’annotation suivante:

(14)

o : ; , et sont respectivement la similarit visuelle, la similarit conceptuelle et la similarit contextuelle normalis es.

Le choix des pond rations est tr s important. En effet, selon l’application cibl e, certains pr f reront construire une hi rarchie sp cifique un domaine (qui repr sente le mieux une particularit d’un domaine ou d’un corpus), et pourront donc attribuer un plus fort poids la similarit contextuelle (). D’autres pourront vouloir cr er une hi rarchie g n rique, et devront donc donner plus de poids la similarit conceptuelle (). Toutefois, si le but de la hi rarchie est plut t de construire une plateforme pour la classification de concepts visuels, il est peut tre avantageux de donner plus de poids la similarit visuelle ().

3.5 R gles pour la cr ation de la hi rarchie

La mesure propos e pr c demment ne permet que de donner une information sur la similarit entre les concepts deux deux. Notre objectif est de regrouper ces diff rents concepts dans une structure hi rarchique. Pour cela, nous d finissons un ensemble de r gles qui permettent d’inf rer les relations d’hypernymie entre les concepts.

Nous d finissons d’abord les fonctions suivantes sur lesquelles se basent nos r gles de raisonnement:

  • qui retourne le concept le plus proche de selon notre mesure:

    (15)
  • permet de trouver l’anc tre commun le plus proche (Least Common Subsumer) de et dans WordNet:

    (16)

    o permet de trouver l’ensemble des hypernymes de dans la ressource WordNet, repr sente la racine de la hi rarchie WordNet et renvoie la longueur du plus court chemin entre et dans WordNet.

  • renvoie les 3 concepts les plus proche de au sens de la fonction .

(a) R gle.
(b) R gle.
(c) R gle.
Figure 2: R gles pour inf rer les liens de parent entre les diff rents concepts. En rouge les pr conditions devant tre satisfaites, en noir les actions de cr ation de nœuds dans la hi rarchie.

Nous d finissons ensuite trois r gles qui permettent d’inf rer les liens de parent entre les diff rents concepts. Ces diff rentes r gles sont repr sent es graphiquement sur la figure 2. Ces r gles sont ex cut es selon l’ordre d crit dans la figure 2. La premi re r gle v rifie si un concept est class comme le plus proche par rapport plusieurs concepts (). Si oui et si ces concepts , sont r ciproquement dans , alors en fonction de leur LCS ils seront soit reli s directement leur LCS ou dans une structure 2 niveaux, comme illustr dans Figure 2(a). Dans la seconde, si et (peut aussi tre crite ) alors et sont fortement apparent s et seront reli s leur LCS. La troisi me r gle concerne le cas o et - voir Figure 2(c).

La construction de la hi rarchie suit une approche ascendante (i.e. commence partir des concepts feuilles) et utilise un algorithme it ratif jusqu’ atteindre le nœud racine. tant donn un ensemble de concepts associ s aux images dans un ensemble d’apprentissage, notre m thode calcule la similarit entre toutes les paires de concepts, puis relie les concepts les plus apparent s tout en respectant les r gles d finies pr c demment. La construction de la hi rarchie se fait donc pas- -pas en ajoutant un ensemble de concepts inf r s des concepts du niveau inf rieur. On it re le processus jusqu’ ce que tous les concepts soient li s un nœud racine.

4 R sultats Exp rimentaux

Pour valider notre approche, nous comparons la performance d’une classification plate d’images avec une classification hi rarchique exploitant la hi rarchie construite avec notre approche sur les donn es de Pascal VOC’2010 (11 321 images, 20 concepts).

4.1 Repr sentation Visuelle

Pour calculer la similarit visuelle des concepts, nous avons utilis dans notre approche le mod le de sac-de-mots visuels (Bag of Features) (BoF). Le mod le utilis BoF est construit comme suit: d tection de caract ristiques visuelles l’aide des d tecteurs DoG de Lowe [Lowe99], description de ces caract ristiques visuelles en utilisant le descripteur SIFT [Lowe99]

, puis g n ration du dictionnaire eu utilisant un K-Means. Le dictionnaire g n r est un ensemble de caract ristiques suppos es tre repr sentatives de toutes les caract ristiques visuelles de la base. tant donn e la collection de patches (point d’int r t) d tect s dans les images de l’ensemble d’apprentissage, nous g n rons un dictionnaire de taille

en utilisant l’algorithme k-Means. Ensuite, chaque patch dans une image est associ au mot visuel le plus similaire dans le dictionnaire en utilisant un arbre KD. Chaque image est alors repr sent e par un histogramme de mots visuels (1000 tant la taille du codebook), o chaque bin dans l’histogramme correspond au nombre d’occurrences d’un mot visuel dans cette image.

4.2 Pond ration

Comme ce travail vise construire une hi rarchie adapt e l’annotation et la classification d’images, nous avons fix les facteurs de pond ration de mani re exp rimentale comme suit : , , et . Nos exp rimentations sur l’impact des poids () ont galement montr que la similarit visuelle est plus repr sentative de la similarit s mantique des concepts, comme cela est illustr sur la figure 3 avec la hi rarchie produite. Cette hi rarchie est construite sur les donn es de Pascal VOC’2010.

Figure 3: La hi rarchie s mantique construite sur les donn es de Pascal VOC en utilisant la mesure propos e et les r gles de construction. Les nœuds en double octogone sont les concepts de d part, le nœud en diamant est la racine de la hi rarchie construite et les autres sont les nœuds inf r s.        

4.3 Evaluation

Figure 4: Comparaison de la Pr cision Moyenne (AP) entre la classification plate et hi rarchique sur les donn es de Pascal VOC’2010.
(a) Concept Person.
(b) Concept Tv_monitor.
Figure 5: Courbes Rappel/Pr cision pour la classification hi rarchique (en +) et plate (en trait) pour les concepts "Personne" et "TV_Monitor".

Pour valuer notre approche, nous avons utilis 50% des images du challenge Pascal VOC’2010 pour l’apprentissage des classifieurs et les autres pour les tests. Chaque image peut appartenir une ou plusieurs des 20 classes (concepts) existantes. La classification plate est faite par l’apprentissage de SVM binaires un-contre-tous, o les entr es sont les repr sentations en BoF des images de la base et les sorties sont les r ponses du SVM pour chaque image (1 ou -1) - pour plus de d tails voir la section 3.1. Un probl me important dans les donn es de Pascal VOC est que les donn es ne sont pas quilibr es, i.e. plusieurs classes ne contiennent qu’une centaine d’images positives parmi les 11321 images de la base. Pour rem dier ce probl me, nous avons utilis la validation crois e d’ordre 5 en prenant chaque fois autant d’images positives que n gatives.

La classification hi rarchique est faite par l’apprentissage d’un ensemble de (+) classifieurs hi rarchiques conformes la structure de la hi rarchie d crite dans la figure 3. est le nombre de nouveaux concepts cr s lors de la construction de la hi rarchie. Pour l’apprentissage de chacun des concepts de la hi rarchie, nous avons pris toutes les images des nœuds fils (d’un concept donn ) comme positives et toutes les images des nœuds fils de son anc tre imm diat comme n gatives. Par exemple, pour apprendre un classifieur pour le concept "Carnivore", les images de "Dog" et "Cat" sont prises comme positives et les images de "Bird", "Sheep", "Horse" et "Cow" comme n gatives. Ainsi chaque classifieur apprend diff rencier une classe parmi d’autres dans la m me cat gorie. Durant la phase de test de la classification hi rarchique et pour une image donn e, on commence partir du nœud racine et on avance par niveau dans la hi rarchie en fonction des r ponses des classifieurs des nœuds interm diaires, jusqu’ atteindre un nœud feuille. Notons qu’une image peut prendre plusieurs chemins dans la hi rarchie. Les r sultats sont valu s avec les courbes rappel/pr cision et le score de pr cision moyenne.

La Figure 4 compare les performances de nos classifieurs hi rarchiques avec les performances de la classification plate. L’utilisation de la hi rarchie propos e comme un cadre de classification hi rarchique assure des meilleures performances qu’une classification plate, avec une am lioration moyenne de +8.4%. Notons que ces r sultats sont obtenus en n’utilisant que la moiti des images du jeu d’apprentissage de Pascal VOC. En effet, en l’absence des images de test utilis es dans le challenge, nous avons utilis le reste de l’ensemble d’apprentissage pour faire les tests. Nous avons aussi inclus les images marqu es comme difficiles dans les valuations de notre m thode. La pr cision moyenne de notre classification hi rarchique est de 28,2%, alors que la classification plate reste 19,8%. On peut donc remarquer une nette am lioration des performances avec l’utilisation de la hi rarchie propos e. La Figure 5 montre les courbes de rappel/pr cision des concepts "Personne" et "TV_Monitor" en utilisant la classification hi rarchique et plate. Une simple comparaison entre ces courbes montre que la classification hi rarchique permet d’avoir un meilleur rendement tous les niveaux de rappel. Cependant, il serait int ressant de tester notre approche sur une plus grande base, avec plus de concepts, pour voir si la hi rarchie construite pour la classification des images passe l’ chelle.

5 Conclusion

Ce papier pr sente une nouvelle approche pour construire automatiquement des hi rarchies adapt es l’annotation s mantique d’images. Notre approche est bas e sur une nouvelle mesure de similarit s mantique qui prend en compte la similarit visuelle, conceptuelle et contextuelle. Cette mesure permet d’estimer une similarit s mantique entre concepts adapt e la probl matique de l’annotation. Un ensemble de r gles est propos pour ensuite effectivement relier les concepts entre eux selon la pr c dente mesure et leur anc tre commun le plus proche dans WordNet. Ces concepts sont ensuite structur s en hi rarchie. Nos exp riences ont montr que notre m thode fournit une bonne mesure pour estimer la similarit des concepts, qui peut aussi tre utilis e pour la classification d’images et/ou pour raisonner sur le contenu d’images. Nos recherches futures porteront sur l’ valuation de notre approche sur des plus grandes bases d’images (MirFlicker et ImageNet) et sa comparaison avec l’ tat de l’art.

Références