Le traitement
Vous avez bien délimiter votre périmètre de recherche
et avez lancé une recherche. Une série de documents vous intéresse
et vient le traitement des informations afin de répondre à la
demande.
Evaluation et validation
Tout document doit être évalué puis validé. Evaluer
un document signifie aussi évaluer le site sur lequel vous avez trouvé
ce document. Différents critères sont cités ici.
Une fois que vous avez évaluer un document, il vous faut aussi le valider.
Il y a 2 validations à faire pour chaque document :
- la validation de l'information du document;
- la validation du document par rapport aux autres documents : il ne faut
pas en effet qu'il y ait des documents redondant. Pour cela, il vous faut
juger de la pertinence d'une information, i.e. de la plus-value qu'un document
offre par rapport à un autre. Cette plus-value peut prendre différentes
formes :
- analyse : une information est clairement développée;
- synthèse : ou au contraire, vous avez accès à l'idée
principale;
- liste de références;
- renommée de l'auteur....
Traitement des documents
Gestion des documents
Vous avez validé les documents et avez ainsi constitué un corpus
plus ou moins conséquent qu'il vous faut gérer. Selon le support
plusieurs choix s'offrent à vous.
- support papier : il faut les conserver mais aussi avoir accès rapidement
à leur information. Mettre sous forme électronique quelques
mentions de ces documents (titre, auteur, thème, résumé)
est un moyen simple pour ne pas avoir à les compulser pour y rechercher
une information. Selon la quantité, vous pouvez réaliser un
fichier sous un éditeur de texte tel que Word ou constituer
une base de données sous Access (cf. Pour
en savoir plus pour avoir des cours en ligne). Il se peut aussi que
dans certains cas, vous vouliez scanner des documents papiers afin de les
avoir sur support électronique. Dans ce cas, il vous faut utiliser
un OCR (logiciel de reconnaissance optique). Par défaut, lorsque vous
acheter un scanner, vous avez un logiciel qui vous est fourni. Cependant,
ce logiciel de base ne reconnaît pas certaines structures (telles que
les tableaux) et est limité dans le nombre de langue. Un très
bon logiciel de reconnaissance est Fine
reader.
- support électronique : tout ce qui n'est pas issu de l'Internet peut
être classé comme décrit ci-dessus. Pour les documents
issus de l'Internet, 2 solutions s'offrent à vous selon le type de
documents :
- soit garder l'adresse dans vos favoris. L'intérêt est
d'avoir ainsi accès au mise à jour. Le risque est que le
page change d'adresse ou disparaisse;
- soit vous l'enregistrez sur votre disque dur puis vous classez vos documents
à l'image de ce qui est dit pour le support papier.
Indexer des documents
Classer les documents signifie les indexer, donc trouver des critères
discriminant et exploitables. Vous pouvez aussi utiliser un outil informatique
qui se chargera lui-même de l'indexation en se basant sur des filtres
que vous aurez définis.
Différents outils permettent une indexation, plus ou moins spécialisée
:
- Copernic Indexer
- Datagold : Le système de recherche
Datagold vous permet d'indexer la totalité d'un site Internet qui vous intéresse.
Vous possédez ensuite une base de données pour effectuer les recherches à
l'intérieur des sites sélectionnés. Vous pouvez utiliser ces bases pour les
diffuser sur Internet ou sur Intranet. Le système est entièrement configurable,
vous pouvez contrôler la profondeur de l'indexation, le genre des liens à
suivre, le classement des URL et bien d'autres choses encore. Le programme
contient un grand nombre de fonctionalitées et un outil puissant de scripte
pour construire et automatiser la mise à jour. Datagold est idéal pour l'utilisation
dans un domaine défini ou une industrie particulière car il pemet de cibler
les recherches (avec un éventail plus large à l'intérieur du domaine ciblé)
afin d'obtenir des informations plus pertinentes que les autres moteurs de
recherches (source : AgentLand)
Analyser des documents
Suite à cette indexation, vous pouvez réaliser différents
types d'analyse sur vos données : analyse bibliométrique, analyse
sémantique, ....
Des outils d'aide à la compréhension et à la lecture rapide
sont apparus :
- Résumé de texte :
- Copernic
Summariser : Copernic Summarizer est un logiciel de résumé automatique.
S'inspirant des technologies d'intelligence artificielle, Copernic Summarizer
extrait les concepts clés des textes, après analyse, et produit un résumé
formé des phrases principales du texte original (source
: AgentLand).
Diffuser des documents
Ces documents doivent aussi pouvoir être consultable par n'importe quelle
personne. Cet aspect concerne l'accès physique de ces documents (réseau,
cd) et la compréhension de leur classement.
Le réseau est le moyen le plus pratique, que ce réseau soit privé
(n'y ont accès que ceux qui sont identifiés) ou non (tous le monde
peut y avoir accès).
Vous pouvez donner la possibilité d'accèder à vos documents
selon différents angles (arborescence, recherche thématique ou
recherche libre). Dans les 2 derniers cas, l'utilisation d'un moteur de recherche
est nécessaire, et vous serez sans doute tributaire des possibilités
de ce moteur. Le premier cas demande un travaille d'indexation très poussé
afin que la navigationsoit le plus fluide possible.
Imprimer une page web
Modifier la page
Certaines impressions de pages html ne sont pas exploitables. La couleur du
fond ne rend pas lisible le texte sur un support papier; des images empêchent
un bon formatage papier; vous avez non seulement l'information mais aussi tout
le contexte de la page, et certaines fois un cadre à gauche fait que
l'information est coupée à l'impression.
Vous pouvez retraiter cette information afin d'en avoir une sortie papier plus
propre, voire rajouter des commentaires :
- sous Internet Explorer, il vous faut d'abord enregistrer cette page
sur votre disque dur puis retraiter l'information de cette page soit dans
le bloc note (si vous êtes familier avec le code html) soit sous un
éditeur html tel que Dreamweaver, FrontPage, GoLive ....
- Netscape vous propose de corriger cette page sans avoir à l'enregistrer
sur votre disque et sans avoir à connaître le langage html. Une
fois la page affichée dans le navigateur Netscape, allez dans Fichier
/ Modifier la page. La page est envoyé dans l'un des modules de
Netscape (Netscape Composer) et vous pouvez modifier cette page comme sous
n'importe quel éditeur html.
Indications
Lors de l'impression, vous avez la possibilité de garder les sources
de la page ainsi que la date, le nombre de pages totales du documents, ....
- sous Internet Explorer, allez dans Fichier / Mise en page,
vous avez 2 champs dans la partie En-tête et pied de page. Le
premier champs vous permet d'indiquer ce que vous voulez dans l'en-tête
de la page et le second dans le pied de page.
Le titre de la fenêtre |
&&w |
L'adresse (URL) de la page |
&&u |
La date au format abrégé (comme
indiqué dans les Paramètres régionaux du Panneau de
configuration) |
&&d |
La date au format long (comme indiqué
dans les Paramètres régionaux du Panneau de configuration) |
&D |
L'heure au format spécifié dans les Paramètres régionaux
du Panneau de configuration |
&&t |
L'heure au format 24 heures |
&T |
Le numéro de la page en cours |
&&p |
Le nombre total de pages |
&P |
Du texte centré (après &b) |
&&b |
Du texte aligné à droite (après
&b&b) |
&b&b |
Le et commercial (&) |
&& |
Suite logicielle
Vous avez plusieurs gammes de logiciels intégrant différents
composant qui vont de l'indexation à l'analyse et le recherche d'information
:
- Autonomy : cette société
a développé un moteur axé sur l'aspect sémantique.
- Digimind : V-Strat
- Hummingbird : cette
société développe SearchServer,
un moteur de recherche pour les technologies Internet.
- Lexiquest
- Sinequa : une gamme de logiciel tournée
vers l'analyse linguistique. Un service en ligne (Free
Index) est proposé afin d'indexer 250 pages au maximum et de
pouvoir les interroger.
- T-Gid : cette société
a développé la suite Spirit qui va de l'indexation à
la veille.
- Verity : cette société
développe l'un des moteurs les plus puissants du marché, Verity
K2.
Pour en savoir plus