LaDissertation.com - Dissertations, fiches de lectures, exemples du BAC
Recherche

Le Corpus

Fiche : Le Corpus. Recherche parmi 298 000+ dissertations

Par   •  26 Mai 2013  •  Fiche  •  209 Mots (1 Pages)  •  583 Vues

Il serait maladroit d'un point de vue méthodologique d'appliquer des traitements statistiques sur le corpus qui a permis de faire ressortir un classement ou une modélisation du langage.

Lorsque l'on travaille avec des corpus, il convient donc de séparer un corpus initial en deux sous-corpus:

le corpus d'apprentissage, qui sert à retirer un modèle ou un classement à partir d'un nombre suffisant d'information ;

le corpus de test, qui sert à vérifier la qualité de l'apprentissage à partir du corpus d'apprentissage.

Le calibrage des volumes des corpus se discute en fonction du problème, mais il est fréquent d'utiliser les 2/3 du corpus initial pour l'apprentissage et le tiers restant pour effectuer les tests.

Lorsque le volume du corpus initial n'est pas suffisant, il est possible de croiser les corpus de tests et d'apprentissage sur plusieurs expérimentations. Par exemple, si l'on découpe le corpus initial en 10 sous-corpus, numérotés de 1 à 10

Expérience 1 : utilisation des corpus 1 à 8 en apprentissage, et 9 et 10 pour les tests;

Expérience 2 : utilisation des corpus 1 à 6 et 9 et 10 en apprentissage, 7 et 8 pour les tests;

...

La mesure de qualité des résultats (précision ou rappel) est alors plus précise, mais en aucun cas les corpus d'apprentissage et de tests n'ont été mélangé.

...

Uniquement disponible sur LaDissertation.com