Le web invisible
La forme du web
Selon une étude
(http://www.almaden.ibm.com/cs/k53/www9.final) menée
par des chercheurs d'IBM, Compaq et AltaVista, parue en mai 2000, le web a la
forme d'un noeud papillon constitué de 4 parties :
- un coeur, qui comprend 30% des pages et qui correspond aux pages facilement
accessibles par un outil de recherche;
- des pages initiatrices, 24%, on peut accèder à partir d'elles
à d'autres pages, mais la réciproque n'est pas vraie;
- les pages destination, 24%, l'inverse des pages initiatrices;
- des pages complètement disjointes, 22%, se sont des pages perso ou
sur un domaine bien particulier.
Nombre de pages sur le web
Le nombre de pages contenues sur le web est incalculable. Certaines
études parlent de 5 milliards de pages, avec un acroissement journalier
de 7 millions de pages. Aucun outil à l'heure actuel ne peut indéxer
toutes ces pages, de plus certaines pages ou informations présentes sur
le web ne peuvent pas apparaître parmi les résultats des outils
de recherche. Les raisons en sont multiples :
- la personne qui a fait ses pages ne veut pas qu'elles apparaîssent
(source confidentielle ou propre à un groupe particulier). Il est en
effet possible de demander aux outils de recherche de ne pas fureter et indexer
des pages;
- page qui nécessitent une identification de l'internaute;
- les pages situées dans un cadre (Frame). Dorénavant, certains
outils (Google) indexent ces pages;
- les formats des documents ne sont pas indexables (formats propriétaires,
power point, ....). Dans ce cas, certains outils, tel que Google, commencent
à indexer des formats extérieurs au web (fichiers word, excel,
...);
- les archives (surtout celles de la presse) : dans beaucoup de cas, l'accès
à l'information du jour est gratuite alors que l'accès aux archives
est payant;
- les banques de données professionnelles (payantes ou gratuites) :
elles ont des formats propriètaires ou nécessitent un mode d'accès
particulier (identifiant et mot de passe);
- les pages web réalisées dynamiquement. 2 types de pages existent
sur le web : les pages statiques (le format le plus connu est le html), se
sont des pages rédigées sous un éditeur de textes html
et mises tel quel sur un serveur; les pages dynamiques qui sont créées
suite à une demande spécifique (requête) de l'internaute.
Les données des pages dynamiques sont contenues dans des bases de données.
Des pages générées sous Flash, technologie de la société
Macromedia, ou générées en Java, Javascript, ...
sont dans ce cas.
Comment avoir accès à ces pages
Pour accèder à ces pages, il faut parcourir le web à la
recherche de sites thématiques dans lesquels on navigue profondément.
Un moyen complémentaire est de s'inscrire à des lettres de diffusion.
Enfin, le moyen le plus long mais aussi le plus intéressant est de participer
à des listes de discussion ou des forums.
Pour en savoir plus
- Statistiques du web :
- SearchEngines
(http://www.searchengineshowdown.com/stats) : statistiques
sur la taille du web.
- Inktomi (http://www.inktomi.com/webmap)
- Pages d'information :
- Outils de recherche :
- CompletPlanet
: recherche dans des bases de données.
- invisibleWeb
: ce site référence les sites qui ne sont pas indexés
par les outils de recherche.