L'Institut national de l'audiovisuel (INA) a organisé une vaste opération d'archivage des principaux sites consacrés l'élection présidentielle de 2007. Une attention particulière a été apportée aux deux dimanches de scrutin, le 22 avril et le 6 mai, l'INA scrutant tous les quarts d'heure les pages d'accueil des sites surveillés afin d'obtenir un historique sur l'évolution des connaissances des estimations et des résultats.
Voici un extrait du communiqué de presse de l'INA :
"En s'appuyant sur les travaux de la société Réseaux, Territoires & Géographie de l'Information (RTGI) l’Institut national de l’audiovisuel a défini le périmètre du corpus des sites et blogs relatifs aux élections présidentielles. Ce corpus intègre les sites et blogs actifs, ainsi que les sous-sites et forums politiques des principaux médias. Il est passé de 1400 sites en début de campagne à plus de 2200 depuis la mi-mars. RTGI a mis en place le site observatoire-presidentielle.fr, qui présente une analyse cartographique (blogopole) et statistique (tendençologue) de ce corpus. 80 millions d’URL ont été collectées au cours de la campagne, dont plus de 15 000 vidéos (hébergées pour près de 90% d’entre elles par Dailymotion), soit près de 700Go de stockage compressé et dédoublonné, dont plus de 300Go pour les seules vidéos, dans le format de stockage DAFF développé par l’Ina.
L’opération de collecte des sites a commencé le 26 janvier. Depuis le mois d’avril, les 500 principales pages de chaque site ont été collectées jusqu’à 4 fois par jour, une collecte plus profonde étant menée tous les trois jours environ, et une collecte complète chaque mois. 220 versions de chaque site auront ainsi été captées en moyenne, à différentes profondeurs, au cours de la campagne.
Les pages d’accueil des sites ont été captées toutes les 15 minutes pendant les 2 dimanches des élections, afin de suivre l'évolution des tendances dès connaissance des premiers chiffres et sondages."
Plus d'infos :
www.ina.fr