LaDissertation.com - Dissertations, fiches de lectures, exemples du BAC
Recherche

Qu'est-ce qu'un corpus?

Note de Recherches : Qu'est-ce qu'un corpus?. Recherche parmi 298 000+ dissertations

Par   •  7 Mars 2014  •  319 Mots (2 Pages)  •  1 391 Vues

Page 1 sur 2

Un corpus est un ensemble de documents, artistiques ou non (textes, images, vidéos, etc.), regroupés dans une optique précise. On peut utiliser des corpus dans plusieurs domaines : études littéraires, linguistiques, scientifiques, Philosophie, etc.

Plusieurs caractéristiques sont à prendre en compte pour la création d'un corpus bien formé :

la taille ;

le langage du corpus ;

le temps couvert par les textes du corpus ;

le registre ;

Taille

Le corpus doit évidemment atteindre une taille critique pour permettre des traitements statistiques fiables. Il est impossible d'extraire des informations fiables à partir d'un corpus trop petit.

Langage

Un corpus bien formé doit nécessairement couvrir un seul langage, et une seule déclinaison de ce langage. Il existe par exemple de subtiles différences entre le français de France et le français parlé en Belgique. Il ne sera donc pas possible de tirer des conclusions fiables à partir d'un corpus franco-belge sur le français de France, ni sur le français de Belgique.

Temps couvert par les textes du corpus

Le temps joue un rôle important dans l'évolution du langage : le français parlé aujourd'hui ne ressemble pas au français parlé il y a 200 ans ni, de façon plus subtile, au français parlé il y a 10 ans, à cause notamment des néologismes. C'est un phénomène à prendre en compte pour toutes les langues vivantes. Un corpus ne doit donc pas contenir de textes rédigés à des intervalles de temps trop larges, ou il doit les dater (pour un usage par les historiens de la langue ou des concepts).

Registre de langage

Il ne faut pas non plus mélanger des registres différents et le scientifique ne peut s'autoriser à extraire des informations d'un corpus destiné à un certain registre en les appliquant à un autre. Un corpus construit à partir de textes scientifiques ne peut être utilisé pour extraire des informations sur les textes vulgarisés, et un corpus mélangeant des textes scientifiques et vulgarisés ne permettra de tirer aucune conclusion sur ces deux registres.

...

Télécharger au format  txt (2 Kb)   pdf (47.2 Kb)   docx (8.4 Kb)  
Voir 1 page de plus »
Uniquement disponible sur LaDissertation.com