Actualité

Europeana vs Google

Mettre fin au fiasco est une nécessité !

La base de données internet Europeana est un projet devant permettre la consultation d'œuvres et d'ouvrages appartenant aux fonds des bibliothèques et des musées de l'Union Européenne.
Elle aurait pu représenter l'outil idéal de valorisation du patrimoine culturel européen et incidemment français, capable de dynamiser les universités européennes pour faire face à la concurrence mondiale. Elle aurait dû pour cela permettre sur le plan central l'interopérabilité entre les différentes bases de données nationales, à commencer par le fonds de la BNF, de la British Library, et de leurs homologues européennes.
A terme, conduire à y verser également les fonds numérisés des différentes universités européennes en agissant sur le plan local afin de développer à l'échelon national les bases de données documentaires et leur unification au sein d'un système commun. Pourtant, Europeana, n'est rien de tout cela.<

Pour que le projet réussisse, il aurait fallu qu'il soit préparé avec soin et non dans la précipitation. Or, tel n'a justement pas été le cas. Ce projet Europeana a été lancé à l'initiative de la France sous l'impulsion de Jean-Noël Jeanneney en 2005 alors conservateur de la BNF pour répondre au défi posé selon lui par Google [1]. Il l'évoque dans un opuscule aux accents de manifeste : Quand Google défie l'Europe [2].

Le moteur de recherche américain venait de se lancer dans la numérisation de l'ensemble des ouvrages disponibles dans les fonds de nombreuses bibliothèques étatiques et universitaires, aux Etats-Unis comme autour du monde notamment les fonds des universités d'Harvard et d'Oxford sur la base du volontariat [3].

Sacrilège suprême, Google proposait une mise à disposition gratuite de l'ensemble de ces connaissances, ce qui aurait cassé les monopoles académiques français sur les fonds documentaires et leur déplorable politique de restriction d'accès : une politique orientée à la fois quasi-uniquement vers la recherche, et marquée par un très grand éparpillement des ressources. Une politique qui a toujours eu beau jeu de se retrancher derrière le respect de la propriété littéraire et artistique, défendue de façon sourcilleuse par le SNL (syndicat national du livre) sans réellement chercher à s'interroger plus avant sur la conciliation de l'entreprise de numérisation avec le respect des droits d'auteurs [4]. Pour contrer l'offensive de la firme américaine, une politique de numérisation de masse est alors lancée ... à très petits pas :
Jusqu'en 2007, l'initiative française ne compte que deux partenaires au niveau européen : la Hongrie et le Portugal, avec respectivement 4000 et 1000 ouvrages qui s'ajoutent aux seulement 7 000 références françaises. A partir de 2007, l'opération s'étoffe timidement avec la passation auprès de la société Sagfi de la numérisation de 100 000 ouvrages par an en mode image et en mode texte, afin comme l'évoque Bruno Racine, successeur de Jean-Noël Jeanneney à la tête de la BNF que « L'accès aux textes ne (soit) pas monopolisé par un opérateur commercial pour lequel la diversité culturelle n'est pas la préoccupation première ».

En réalité, le projet de numérisation évolue et change substantiellement d'objectif afin d'améliorer l'affichage de résultats concrets massifs : la participation des fonds de l'INA et du Louvre, permet avec le concours plus soutenu des pays européens de revendiquer 2 millions d'œuvres numérisées. Encore faut-il faire le tri, puisque les œuvres d'arts, les photos le disputent aux ouvrages.

Quand Europeana « plante » et se trompe dans sa communication

Lancé le 21 novembre 2008 par la commissaire européenne chargée de la société de l'information Viviane Reding et les ministres de la culture des différents pays de l'Union, la bibliothèque Europeana n'était déjà plus accessible quelques heures plus tard, surchargée - d'après les administrateurs - par l'engouement des requêtes des internautes : en un mot, un site numérique inédit victime de son succès. L'administration européenne a alors immédiatement décrit l'ampleur de l'engouement rencontré : pas moins selon elle de 10 millions de connections par heure. En réalité beaucoup moins, sachant qu'il s'agissait en définitive de « hits » par heure, le « hit » se définissant comme « le nombre de fichiers demandés lors du chargement d'une page dans un navigateur », c'est-à-dire directement proportionnel au nombre d'images affichées sur une même page lors d'une consultation internet. Résultat des courses : des visites réelles vérifiables oscillant entre 3000 et 4000, ce qui révélait en définitive une faiblesse particulièrement grande du site théoriquement ouvert à un public de plusieurs centaines de millions d'internautes. Une faiblesse structurelle qui nécessita une remise en ligne à vitesse de tortue : 25 jours plus tard soit le 15 décembre. En réalité la réouverture prendra un peu plus de temps, beaucoup plus même pour une totale activation du site, qui ne sera réellement effective qu'en 2010... et l'on nous promet à cette occasion la mise en ligne de 10 millions d'objects numériques... une subtilité terminologique qui cache les lenteurs de la numérisation des ouvrages (il s'agira donc d'oeuvres d'art, d'images, de documents sonores et textuels... vaste programme !). Ce problème de sous-dimensionnement des sites internet est malheureusement récurrent au niveau européen comme français :

- Le moteur européen Quaero, projet cherchant à concurrencer directement Google et subventionné à hauteur de 99 millions d'€ est actuellement perdu corps et biens.

- Les projets de l'INA et de l'IGN, Vidéothèques et Géoportail, mis en ligne avec les déboires que l'on connaît, mais qui, croulant sous le nombre toujours mal-anticipé des connections, avaient su tout de même régler leurs problèmes de trafic en 3 à 4 jours. Une fatalité franco-française en quelque sorte.

A l'heure actuelle, les fichiers français représentent 52% du total, 10% pour l'Angleterre et les Pays-Bas, 7% pour la Suède, les 24 autres pays européens ne contribuant que pour les 21% restants… Face à cet embryon de base, Google quant à lui affiche 7 millions de livres dûment numérisés dont les ouvrages d'Harvard et d'Oxford tombés dans le domaine public, les autres faisant l'objet d'un agrément contre versement de recettes à l'issue d'un accord conclu avec la Guilde américaine des auteurs sur la base d'une rémunération 2/3 (éditeurs et ayants droit), 1/3 pour Google. Une situation qui risque de se consolider davantage au bénéfice de l'opérateur américain : alors que les européens continuent à atermoyer sur la définition d'un modèle d'accès par internet aux œuvres sous droit (programme ARROW [5]). Google est déjà sur les terres françaises : ainsi la bibliothèque de Lyon verra l'intégralité de ses ouvrages libres de droits numérisés par Google aux frais de l'opérateur.

De son côté Europeana est d'abord abondé par le fonds de la Bibliothèque nationale de France, par l'intermédiaire de la base Gallica et non par les ressources des bibliothèques universitaires françaises [6]. Une lacune de conception qui risque de se voir amplifiée si la numérisation de ses fonds ne s'accompagne pas de la constitution d'une base de données nationale et d'une synergie d'ensemble des différents acteurs. En la matière, la contribution française à Europeana est donc subordonnée à l'avancement de l'enrichissement de la base Gallica qui est le principal contributeur hexagonal et non les ressources universitaires ...

A la vérité, le budget d'Europeana reste dérisoire parce que la commission qui n'a pas su afficher de politique claire de numérisation et n'a pas réussi à attirer le mécénat d'entreprise et plus généralement l'investissement privé. Le budget de fonctionnement de la base elle-même représente 2 millions d'€/an et la mobilisation de 14 personnes. Autour de ce noyau a été saupoudré pour 160 millions d'€ sur deux ans qui ne sont pas consacrés à la numérisation elle-même, mais à l'amélioration des technologies existantes (120 millions) et aux techniques multilingues (40 millions). Une erreur de casting budgétaire puisque l'objectif assigné par la commission était de numériser 8 millions d'ouvrages en 2 ans, soit une vitesse de production double de celle de Google (7 millions d'€ en 4 ans). On peut d'ores et déjà dire que l'objectif ne pourra pas être tenu [7] !

Quoi qu'il en soit, le travail de numérisation des ressources documentaires européennes ne fait que commencer. Selon nos calculs, il serait de 1,25 milliard d'ouvrages différents à traiter [8] , ce qui représenterait un coût astronomique de 50 milliards d'€. Un chantier qui, à la vitesse théorique des objectifs européens de 4 millions d'ouvrages/an et sans tenir compte de l'enrichissement permanent des collections, verrait sa conclusion dans 312,5 ans… en mai 2329...

La seule alternative crédible à cet écart croissant entre Google et Europeana, repose sur un partenariat stratégique qui devrait conduire Europeana à travailler directement avec Google : moyennant le croisement et l'échange de fichiers, le développement d'une véritable opérabilité et la négociation de conventions similaires avec les professionnels du livre pour les ouvrages sous licence, il serait possible de définir une politique bipolaire harmonisée [9] : une numérisation de masse permettant un premier défrichage et une mise en ligne rapide, pourrait se conjuguer à une numérisation plus lente basée sur les œuvres fondamentales de la culture européenne (Europeana).

Tout autre attitude débouchera tôt ou tard sur une guerre des fonds : la bibliothèque de Lyon par exemple ou d'Oxford accepteront-elles de participer à Europeana après avoir vu leur numérisation financée aux frais de Google ? La résistance et l'isolation ne semblent pas être de bonne politique lorsque le temps travaille contre soi. Lorsque la taille critique prise par la bibliothèque virtuelle de Google sera suffisante, l'opérateur américain pourra alors se passer des fonds de Gallica et de ses homologues européens par simple contournement, à moins d'ailleurs que certains n'aient rejoint le projet au moment où leur apport pouvait encore être significatif.

Surtout qu'à terme l'opération pourrait être également profitable pour les institutions européennes concernées : rappelons à cette occasion, pour tordre le cou à l'image d'une « marchandisation de la culture » véhiculée par les contempteurs du projet européen, que le projet de Google était strictement gratuit ! C'est la négociation qui est intervenue entre Google, l'Association of American Publishers et l'Author Guild (entre 2005 et 2008) [10] , qui a conduit à rendre l'accès au nouveau système Google Library Project payant. Payant à l'entrée pour les particuliers comme les institutionnels, mais avec un nombre illimité de consultations [11].

A l'heure où les bases sont encore d'une taille relativement peu importante, il importe donc qu'enfin Européens et Américains acceptent la cohérence et l'intérêt de procéder à une numérisation raisonnée et partagée. Un drastique changement d'attitude des autorités françaises et communautaires pour une collaboration au sein du Google Library Project s'impose !

[1] Le 14 décembre 2004, la firme annonçait un programme de numérisation d'une quinzaine de millions de livres imprimés en 6 ans, soit près de 4,5 milliards de pages

[2] Jean-Noël Jeanneney, Quand Google défie l'Europe, plaidoyer pour un sursaut, éditions de Minuit, Paris, 2005, 114 p.

[3] Mais aussi les bibliothèques des universités du Michigan, de Stanford, la New York Library, la Bayerische Staatsbibliothek etc…

[4] Le 27 septembre 2007, le Parlement européen a adopté une résolution « i2010 : Vers une bibliothèque numérique européenne » à l'initiative du député Marie-Hélène Descamps, proposant sur son volet de respect du droit d'auteur, de reprendre le modèle Numilog proposé par la BNF concernant les œuvres sous droits, en se bornant à définir le rôle de la bibliothèque européenne à celui d'intermédiaire entre l'internaute et les sites spécialisés payants permettant l'accès aux documents recherchés, moyennant rémunération. Un système qui ne permet pas, ce qui devrait être la norme, la consultation sur abonnement des documents dans leur intégralité (contrairement au nouveau Google Library Project (voir infra)). Le produit des abonnements étant réparti entre les professionnels de l'édition, l'auteur et la bibliothèque en ligne.

[5] Projet européen ARROW (Accessible Registry of Rights and Orphan Works in Europe), qui devrait faciliter l'identification des ayants droit, le statut des œuvres et l'acquisition des licences de reproduction, mais aussi le développement de bases de données d'œuvres orphelines ou épuisées et d'interopérabilité.

[6] Il faut dire que la base française Gallica n'est pas richement dotée : son objectif est la numérisation de 300 000 documents sur trois ans, subventionnée à hauteur de 4 millions d'€ par le Centre national du livre (CNL).

[7] Le financement scrupuleux de l'objectif aurait suscité de trouver un financement de 320 millions d'€ uniquement dédié à la numérisation des ouvrages.

[8] Sur un total recensé en 2001 de 2,5 milliards d'ouvrages, dont on retient de façon optimiste un taux de recouvrement (doublon) de 50%.

[9] voir www.actualitte.com/actualite..., où l'auteur avec intelligence s'interroge sur la pertinence d'une stratégie d'action frontale : "La défense du droit d'auteur est primordiale, mais opposer Europeana contre Google Books semble quelque peu illusoire, autant que cela illustre une compréhension floue des attentes du lectorat." Et pourtant le SNE (Syndicat national des éditeurs), continue de vouloir porter l'action en justice, voir http://www.actualitte.com/actualite...

[10] 45 millions de dollars seraient alloués par Google aux détenteurs de droits pour les fonds déjà numérisés, avant le 5 janvier 2009, le financement par la firme pour 34,5 millions $ d'une agence de paiement des redevances le Book Rights Registry, permettant de reverser 63% des revenus futurs dégagés par le fonds Google Library Project.

[11] Cette politique de coopération nécessaire avec le moteur de recherche américain ne semble malheureusement pas être celle vers laquelle se dirige Europeana. Et pourtant, il n'existe pas à l'heure actuelle de système alternatif crédible à celui développé par Google. Pourrait-elle par exemple se tourner vers une collaboration avec l'Open Content Alliance (OCA), qui fut le projet anglo-saxon concurrent de Google depuis octobre 2005, financé à grand renfort de publicité par Microsoft, Yahoo, l'Université de Californie et l'université de Toronto ? Il semble que ce rapprochement ne soit pas une bonne idée car le projet peine à se développer depuis que Microsoft s'est retiré de l'OCA en mai 2008, laissant derrière lui la numérisation de 750 000 ouvrages. En matière de bibliothèque virtuelle, il est plus que temps, dans un contexte budgétaire difficile, de ne pas se disperser et de s'orienter vers une coopération pour un partenariat « gagnant-gagnant ».