Exemple de tableau de corpus

Les sources disponibles concernent presque exclusivement des livres et des périodiques publiés. Les textes ont été choisis pour être inclus selon trois caractéristiques de sélection: domaine (domaine), temps (à certaines dates) et médium (livre, périodique, etc. Pour 1990, les sources utilisées étaient: le dernier numéro du libraire pour chaque année; The Guardian index, 1989 –, inscriptions sous le terme «littérature»; et The Times index, 1989-, inscriptions sous le terme «littérature — prix». L`information comprenait des listes des cent livres les plus publiés et des cent livres pour enfants les plus publiés, dans les deux cas pour les années 1987 à 1993. Anglais. Ceux-ci ont été choisis pour couvrir aussi large un éventail d`intérêts et de langue que possible. Il est beaucoup plus difficile d`obtenir des données concernant la production ou la réception de l`écriture non publiée. Comme pour la partie écrite du corpus, les considérations les plus importantes dans la construction de la partie parlée étaient l`échantillonnage et la représentativité. Moyen» dans les livres, les périodiques, les inédits, etc. Il est à noter que de nombreux textes demeurent non classés. Cette section décrit ces considérations de conception, ainsi que les rapports sur la dernière version du BNC. Cependant, la distribution globale entre les échantillons de textes informatifs et imaginatifs est définie pour refléter le rôle culturel influent de la littérature et de l`écriture créative.

Dans chaque sous-catégorie, une plage de types de texte a été définie. Segments et mots. Toutes les catégories sous cette rubrique ont été échantillonnées au niveau régional. Le nombre de personnes recrutées peut sembler faible par rapport à certaines études démographiques de la population du Royaume-Uni. Go. Au total, il comprend un peu moins de 100 millions mots orthographiques (plus précisément, 96986707), mais le nombre d`unités w (POS-Tagged items) est légèrement plus élevé à 98363783. Chaque type de texte monologue contient jusqu`à 200 000 mots de texte, et chaque type de texte de dialogue jusqu`à 300 000 mots. Ces pourcentages sont assez indépendants l`un de l`autre: il n`y a pas eu de tentative, par exemple, de faire de l`imagination de 25% des périodiques sélectionnés. Les éléments parlés et écrits du corpus sont discutés séparément dans les deux sections suivantes. Les résultats du projet pilote ont généralement confirmé les prédictions et ont permis de peaufiner certaines procédures pour l`ensemble de l`étude. Ils sont principalement des statistiques sur les livres et les périodiques qui sont publiés, achetés ou empruntés. Il résume les types d`usages pour lesquels le corpus est destiné, et les principes sur lesquels il a été créé.

Les collections Short Loan contiennent généralement des livres requis pour les cours universitaires, qui sont donc en forte demande. Des informations sommaires sur la composition du corpus sont également incluses. Ces informations sont enregistrées pour permettre une analyse contrastive plus délicate de certains ensembles de textes. Dès le début, une décision a été prise de sélectionner le matériel à inclure dans le corpus selon une méthodologie manifeste, avec des quantités cibles spécifiques de types clairement définis de langue. Le premier était de sorte que le corpus pourrait être considéré comme un microcosme de l`anglais britannique actuel dans son intégralité, pas seulement de types particuliers. Cependant, il est beaucoup plus représentatif de la langue écrite qui est reçue, et est également plus facile à obtenir en quantités utiles, et forme donc la plus grande partie de la composante écrite du corpus.

Dette indlæg blev udgivet i Ikke-kategoriseret. Bogmærk permalinket.