Recherche D'information

Documents Gratuits : Recherche D'information. Recherche parmi 304 000+ dissertations

Par dorra525 • 18 Décembre 2012 • 821 Mots (4 Pages) • 1 179 Vues

Page 1 sur 4

1) Conseils de réalisation

Le but de ce projet est de réaliser un système simple de recherche de documents. Un corpus de documents en format texte est à votre disposition (FileBD.zip). Vous devez indexer ce corpus et ensuite implémenter différents modèles de recherche.

Le langage de programmation est à votre choix : C/C++ ou Java. Votre programme peut s'exécuter à partir de la ligne de commande :

• En java : java <votre fichier>

Si vous utilisez un environnement intégré de programmation, vérifiez bien à la fin que vos fichiers s'exécutent depuis la ligne de commande. Vous devrez fournir à la fin toutes les instructions pour exécuter et utiliser vos programmes.

Il est préférable de faire plusieurs petits programmes faisant chacun une tâche spécifique qu'un gros programme devant tout réaliser. Il n'est pas demandé aucune interface à vos programmes. Les arguments seront donnés en ligne de commande et les résultats seront produits dans des fichiers ou directement sur la sortie standard.

2) Indexation par fichiers inverses

La première partie concerne l'indexation des du corpus de documents. Différentes étapes sont à réaliser.

• Pré-traitements

1. Tokenisation : ce traitement consiste à séparer chaque ligne en une séquence de mots. Pour ce projet, on procède de façon simplifiée : on considère que les espaces et toutes les ponctuations constituent des séparateurs de mots. On enlève les ponctuations pour obtenir une liste de termes séparés par des espaces uniquement.

2. Comparaison avec la stop-list : Pour chaque mot reconnu, il faut le comparer avec une liste qui contient tous les mots non-significatifs. Si un mot fait partie de cette liste, on l'enlève du document (terme non indexé).

3. Passage en minuscule : Pour simplifier l'indexation, puis la recherche, on transforme toutes les lettres majuscules en minuscules.

4. Lemmatisation : implémentez l’algorithme de Porter vu en cours.

• Extraction des index des documents (fichier d'index) : elle correspond à une liste comme suit :

nom du document -> liste de <mots et fréquences>

file01-> {<preliminary, 1>, <report, 1>, <international,1>, <algebraic, 1>, <language,1>}

1. Statistique : Dès qu’un mot significatif est rencontré, vous devez incrémenter de 1 sa fréquence d’occurrence dans le document.

Par exemple, on devrait avoir le résultat comme suit :

file01 -> {<preliminary, 1>, <report, 1>, <international,1>, <algebraic, 1>, <language,1>}

2. Tri des index

Pour une recherche plus efficace on doit avoir une liste comme suit :

file02 -> {<algebraic, 1>, <international, 1>, <language, 1>, <preliminary, 1>, <report, 1>}

3. Regroupement des index

Vos fichiers d'index et inverses seront sous la forme de fichiers texte. Ecrivez les fonctions de lecture et d'écriture pour ces fichiers. Vous remettrez à la fin vos fichiers (pour utiliser votre programme).

...

Télécharger au format txt (5.7 Kb) pdf (77.3 Kb) docx (10.1 Kb)

Voir 3 pages de plus »

Uniquement disponible sur LaDissertation.com

Lire le document complet Enregistrer

Aperçu de la Dissertation

prev next

Signaler un document

Documents relatifs

TD 1 Rechercher des informations commerciales
. COMMENT RECHERCHER UNE INFORMATION SUR INTERNET ? (livre page 31 et suivantes) 1.1. Les outils Pour rechercher une information sur internet, 2 outils peuvent

7 Pages • 2013 Vues
La recherche d'informations
- LA RECHERCHE D'INFORMATION - = le site de l'INSEE www.insee.fr Suivez les étapes de ce parcours dans l'ordre. Le signe  indique une action

2 Pages • 1014 Vues
Recherches D'Informations Sur Ubisoft
Ubisoft (anciennement Ubi Soft Entertainment) est une entreprise française de développement et de distribution de jeux vidéo créée en 1986 par les cinq frères Guillemot,

2 Pages • 1435 Vues
Chapitre 2 : Mobiliser les méthodes et outils de recherche d’information
Chapitre 2 : Mobiliser les méthodes et outils de recherche d’information •Réflexion 1) Objectifs de la double mission : - Renseigner le manager sur les

3 Pages • 2365 Vues
TP BTS CI Recherche D'information Miel Prod Naturel
Ilian Lavayssiere BTS-Commerce International. Première Année. TP Informatique Commerciale. Miel Mari Sommaire I- Recherche de l’information. MISSION 1 a) Tableau de validation de l’information. b)

12 Pages • 1840 Vues
Culture général Cned: Préparer la recherche d'information
Activité 1 : Préparer la recherche d'information : 1- Définir les besoins de la recherche d'information : 1.2 Rechercher les idées associées : 1- Travail de nuit, législation →

3 Pages • 1562 Vues
Techniques De Recherche D'informations
2.1 Techniques de recherche d’informations sur internet A. Recherche d’infos : Stratégique !! Il faut : • Cerner • Formuler • Repérer les sources pertinentes

1 Pages • 1241 Vues
Recherche d'informations sur l'hopital CU
FICHE D’ACTIVITE N° 1 : RECHERCHE D’INFORMATIONS SUR L’UC D’ACCUEIL Date de réalisation : 22/11/2013 Durée de l’activité : du 05/10/2013 au 22/11/2013 Contexte professionnel

3 Pages • 1001 Vues
Recherche d'information
Activité 1 Pour commence, il faut préparer la recherche d’informations : - Il convient donc dans un premier temps de définir les « mots-clés ».

4 Pages • 1092 Vues
Questionnaire Mobiliser les méthodes et outils de recherche d'information
Chapitre 2 : Mobiliser les méthodes et outils de recherche d'information. Application n°1 : Réaliser une enquête. 1- Les principaux objectifs attribués à e questionnaire sont : Connaître

1 Pages • 1352 Vues