Images sur le Web :
analyse de la dynamique
des images sur le Web 2.0


For the English version, see below

Objectif :

L'objectif du projet ImagiWeb est d'analyser le cycle de vie des images (au sens des représentations) qui circulent sur le Web. Quels sont les mécanismes qui procèdent à la production, la diffusion, l'évolution des opinions des internautes ? Comment les représentations qu'ils se font de certains sujets / entités prennent-elles vie sur la Toile ? Autant de questions qui nécessitent de mêler une approche sociologique et sémiologique aux méthodes habituellement développées en informatique.

Jeu de données :

Ce jeu de données a été construit durant la première étape du projet. Il s'agit de 7 283 tweets récupérés aléatoirement entre mars et décembre 2012 au sujet de N. Sarkozy et de F. Hollande, puis annotés manuellement par 23 personnes à l'aide de la plate-forme dédiée (que vous pouvez trouver ici). Chaque tweet a été annoté entre 1 et 4 fois, ce qui donne un total de 11 527 annotations.

Les champs utilisés dans le fichier .csv (séparés par des tabulations) sont les suivants :

  • id : identifiant unique du tweet (un même id peut apparaître plusieurs fois car il y a plusieurs annotateurs)
  • image : entité visée (Sarkozy ou Hollande)
  • date : date du message, au format JJ/MM/AAAA
  • auteur : auteur du tweet (pseudonymisé)
  • texte : le texte du tweet (les mentions @loginTwitter ont été pseudonymisés lorsqu'il s'agit d'un auteur dans le corpus, sinon remplacé par une suite de #####)
  • annotateur : numéro de l'annotateur
  • cible : cible principale de l'opinion
  • souscible : sous-cible de l'opinion
  • polarite : polarité de l'opinion
  • confiance : un indicateur binaire (0 ou 1) sur la confiance de l'annotateur dans son annotation

Demander le jeu de données :

Pour obtenir le jeu de données, accompagné d'une description plus précise des champs et des cibles / sous-cibles employées, il faut remplir et signer la charte d'utilisation que vous trouverez ci-dessous avant de l'envoyer à l'adresse : data.imagiweb@eric.univ-lyon2.fr

Charte d'utilisation (obligatoire) : Charte

Publication à citer :

Julien Velcin, Young-Min Kim, Caroline Brun, Jean-Yves Dormagen, Eric SanJuan, Leila Khouas, Anne Peradotto, Stéphane Bonnevay, Claude Roux, Julien Boyadjian, Alejandro Molina and Marie Neihouser : Investigating the Image of Entities in Social Media: Dataset Design and First Results. Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC), pp.818-822. Reykjavik, Iceland, 2014.

Objective:

The objective of the Imagiweb Project is to analyse image (i.e., representation, web reputation) of various entities populating the Internet: politicians, celebrities, companies, brands, etc. What are the mechanisms leading to image production, spreading and users' opinions evolution? How their representation of specific topics or entities live on the web? So much questions needing to add semiologic and sociologic approaches into typical computer science approaches.

Dataset:

This dataset has been built during the first step of the project. It consists in 7,283 tweets concerning F. Hollande and N. Sarkozy, randomly selected between March and December 2012. These tweets have been manually annotated by 23 persons with a dedicated annotation tool (you can find it here). Each tweet was annotated from 1 to 4 times which leads to a total of 11,,572 annotations.

The .csv files is organized as follows (field separator is tab):

  • id: tweet unique ID (a given ID can be repeated if it as has been annotated several times)
  • image: entity concerned by the message (Hollande or Sarkozy)
  • date: message date, format DD/MM/YYYY
  • auteur: author of the tweet (anonymised)
  • texte: tweet content (mentions @loginTwitter have been anonymised when the user exists as Author in the dataset otherwise it has been replaced by #####)
  • annotateur: annotator id
  • cible: main aspect on which the opinion is expressed
  • souscible: sub-aspect
  • polarite: polarity of the message
  • confiance: binary index (0 ou 1) about the annotator confidence

How to get the dataset:

To get the dataset with additional details about aspects and sub-aspects you have to register and accept the Licence Agreement below before sending it by email to: data.imagiweb@eric.univ-lyon2.fr

Licence Agreement (mandatory) : Agreement

Related publication:

Julien Velcin, Young-Min Kim, Caroline Brun, Jean-Yves Dormagen, Eric SanJuan, Leila Khouas, Anne Peradotto, Stéphane Bonnevay, Claude Roux, Julien Boyadjian, Alejandro Molina and Marie Neihouser : Investigating the Image of Entities in Social Media: Dataset Design and First Results. Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC), pp.818-822. Reykjavik, Iceland, 2014.