Information

Informatique

Atelier le 24 janvier 2017

Loin de l'image des autoroutes de l'information, l'espace numérique tient plutôt des chemins tortueux dans lesquels les professionnels de l'information doivent rechercher, filtrer, croiser, vérifier ou décoder. Les volumes de données manipulés, leur variété (vidéos, textes, images, bases de connaissances...) et leur vélocité offrent à la fois des opportunités pour appréhender l'information autrement, mais posent aussi de nombreux problèmes de recherche désormais rangés sous l'étiquette Big Data. Dans ce contexte, journalistes et technologues ont développé la notion de journalisme de données. Cette pratique nouvelle du journalisme tire partie des données numériques disponibles pour produire et distribuer l'information. Elle bénéficie notamment de la popularité croissante de l'Open Data, du développement de bases de connaissances structurées, du traitement automatique des langues, ainsi que des travaux récents en visualisation de données, pour faciliter l'analyse de l'information et proposer une grande variété de points de vue.

Certains journalistes utilisent des outils visant à améliorer leur productivité ou leur couverture d’un sujet (bases de connaissances, réseaux sociaux…). D’autre part, les chercheurs en TAL, RI, BD, IA utilisent massivement le matériel journalistique dans leurs travaux : articles de presse, dépêches d’agence, images, vidéos. Récemment, plusieurs projets de recherche sur ces thèmes et impliquant des organes de presse ont vu le jour. Une journée organisée à l'IRISA Rennes en mars 2016 a montré l'intérêt de nombreux organismes de recherche, entreprises privées et professionnels des médias sur ce sujet.

L'objectif principal de l'atelier est de servir de lieu de rencontre entre les différents acteurs de cette communauté naissante. Ceux-ci relèvent souvent de sous-domaines de l'informatique différentes se rencontrant assez peu, alors que les problématiques impliquent une démarche intégrant tous ces sous-domaines. La constitution d'un panorama des travaux, l'éventuel partage d'outils, données, benchmarks ou de résultats pourront enrichir cette réflexion.

Un autre objectif est de mieux intégrer la réalité du travail journalistique dans les travaux existants. Cela part du constat qu'entre chercheurs et professionnels de l'information, il reste difficile de pérenniser les collaborations et de développer des outils permettant de travailler plus efficacement avec les masses de données, outils qui seraient utilisés en aide à la production éditoriale quotidienne. Cet atelier a pour but de stimuler la réflexion et la discussion sur les bénéfices concrets que les journalistes peuvent retirer des outils développés par les spécialistes des STIC, sur les effets que ceux-ci peuvent avoir sur la pratique journalistique, et sur les nouvelles analyses liées à l'exploitation des médias. Si les informaticiens, au sens large, proposent des outils aux professionnels de l'information, ces derniers ont aussi à exprimer leurs besoins, leurs attentes, à partager leurs manières de procéder. Les disciplines informatiques concernées peuvent alors se pencher sur ces usages inédits, demandant de résoudre des problèmes de recherche durs, exigeant de se poser des questions tant d'ordre méthodologique que plus appliqués où il pourrait être question d'adapter des techniques partiellement existantes à ces nouveaux contextes ou d'en inventer de nouvelles. L'atelier a donc pour but de faire circuler les idées tant des journalistes vers les informaticiens que des informaticiens vers les journalistes.

Appel à communications

Nous sollicitons des communications portant sur n'importe aspect du journalisme computationnel, et prendre la forme d'articles courts (présentation courte, démo) ou d'articles longs. Les thèmes pourront concerner, de façon non limitative :

  • La détection d’événements,
  • Le fact-checking, le décodage,
  • Les études sociologiques ou historiques,
  • La fiabilité des sources,
  • L’exploration d'archives de news,
  • La génération automatique de contenu journalistique,
  • La visualisation de données, la navigation dans de grandes masses de données,
  • La production participative (crowdsourcing) pour le journalisme,
  • La dissémination des nouvelles à travers les réseaux sociaux,
  • Les outils “intelligents” pour les journalistes,
  • La recommandation, la personnalisation,
  • La détection de plagiat, de cliché, de biais, de propagande, de fausses informations (hoax) dans le texte, les images ou les vidéos
  • L’analyse du discours politique,
  • La contextualisation de l’information,
  • La diversité des sources

Informations pratiques

Les propositions sont à soumettre via le site Easychair d'EGC dans le track « CompJournalisme ». Les articles doivent être au format EGC2017 (format RNTI latex).

Peuvent être soumis des articles courts (4 pages pour présentation courte ou démo) ou des articles longs (8 à 12 pages max.) présentant des travaux aboutis ou des prises de position.

Programme


Horaire programme
10h30-11h Accueil et croissants
11h-11h15 Introduction à la journée
11h15-12h15 Invités. Gauthier Bravais, Pierre Bellon et Lucas Piessat. Une analyse de données textuelles des archives numériques de la presse française pour explorer le traitement médiatique de l'islam. L'exemple d'une collaboration chercheur / agence web spécialisée.
12h15-12h30 (court) Béatrice Mazoyer, Nicolas Turenne and Marie-Luce Viaud. Étude des influences réciproques entre médias sociaux et médias traditionnels
12h30-14h Déjeuner
14h-14h25 (long) Julien Velcin, Jean-Claude Soulages, Solange Kurpiel, Luis Otavio, Myrian Del Vecchio and Frédéric Aubrun. Fouille de textes pour une analyse comparée de l'information diffusée par les médias en ligne : une étude sur trois éditions du Huffington Post
14h25-14h40 (court) Nicolas Médoc, Mohammad Ghoniem and Mohamed Nadif. Analyse exploratoire de corpus textuels pour le journalisme d’investigation
14h40-15h05 (long) Jeremy Vizzini, Cyril Labbé and François Portet. Génération automatique de billets journalistiques : singularité et normalité d’une sélection
15h05-15h20 (court) Natalia Grabar and Mason Richey. Détection automatique de grandes thématiques de la propagande Nord Coréenne
15h20-16h Pause
16h-16h25 (long) Marie-Luce Viaud, Nicolas Hervé and Julia Cagé. Analyse des Media Français: Quand l'économie rencontre la fouille de donnée
16h25-16h40 (court) Julien Maitre, Michel Menard, Guillaume Chiron and Alain Bouju. Utilisation conjointe LDA et Word2Vec dans un contexte d'investigation numérique
16h40-16h55 (court) Guillaume Chiron, Jean-Philippe Moreux, Antoine Doucet, Mickael Coustaty and Muriel Visani. Erreurs OCR et biais d'indexation : impact sur les usages
16h55-17h30 Table ronde / discussions.

Exposé invité

Gauthier Bravais, Pierre Bellon et Lucas Piessat. Agence Skoli.

Une analyse de données textuelles des archives numériques de la presse française pour explorer le traitement médiatique de l'islam. L'exemple d'une collaboration chercheur / agence web spécialisée.

Résumé : L'agence Skoli s'est associée avec Moussa Bourekba (chercheur CIDOB, Barcelona) pour étudier le traitement médiatique de l'islam en France (1997-2015). Leur collaboration, originale à ce niveau, s'est articulée autour d'une analyse de données textuelles de milliers d'articles issus des archives numériques de trois quotidiens français de référence (Le Monde, Le Figaro, Libération) et de la réalisation d'une interface web de restitution mêlant datavisualisations et décryptages.