HiddenPage Réaliser le texte d'entraînement
Réaliser le texte d'entraînement
Le texte d'entraînement doit être un simple fichier texte contenant
un texte `similaire' à ce que vous avez l'intention d'écrire.
Le plus grand le meilleur.
Nous pensons que 300K c'est la bonne taille qu'il faut chercher à avoir.
Notre format de fichier préféré est l' UTF-8, mais
si vous preférez fournir un autre format, c'est bon; quand vous fournissez le fichier
veillez à inclure une description de son contenu et indiquer le format; nous
utiliserons l'utilitaire linux iconv pour convertir, si necessaire.
Les exemples de textes d'entraînement que vous pouvez utiliser sont:
- Prenez tous les documents que vous avez écrits, et collez les
tous ensemble un un grand document.
- Utilisez des romans - eg, nous avons pris le roman Emma Jane Austen' de
Project Gutenberg. Cependant le problème en utilisant
juste un ou deux romans, c'est que des mots particuliers (tels que Emma ou Alice)
apparaissent très fréquement; donc les romans ne sont pas idéaux pour un texte d'entraînement a usage courant.
- Utilisez tous le courriels que vous avez écrits, et collez les
tous ensemble en un grand document..
Receuil existants
Il y a un receuil de liste de courrier; ce site web a une foule
de liens utiles.
Comment réaliser un texte d'entraînement à usage général
Vous pouvez faire un assez bon receuil simplement en concaténant
un ensemble de documents dans votre choix de langue. Un tel receuil est
assez bien, mais pas idéal, puisque, par exemple, si vous incluez
tous les Alice au pay des merveilles, le mot Alice
et la phrase lapin blanc apparaîtrons
bien plus souvent que la normale. Les buts
de la procédure plus compliquée décrite ci-dessous sont
- de créer un receuil de tous les mots
communs représentés dans une variétés de contextes, sans aucun
document source dominant les statistiques;
- de créer un receuil qui serait sensiblement
rétrécit pour faire un plus petit receuil (pour les ordinateur de poche
avec peu de mémoire, par exemple).
Voici comment j'ai fait un texte d'entraînement pour la version Anglaise de
Dasher.
-
Prenez une série de documents en Anglais. Prenez plus de documents que vous pensez en avoir besoins,
comme cela vous pouvez choisir un ensemble de phrases bien équilibrées
d'une manière appréciable, comme suivant.
-
Préparez les de telle sorte qu'il y aie exactement un phrase par ligne.
J'ai utilisé un programme perl que j'ai écrit,
processbook.p
avec un script tel que celui-ci
foreach f ( alice emma )
processbook.p /books0/$f > /books/$f
end
- Maintenant, prenez une liste des 2000 mots les plus fréquents dans
la langue. L'idée étant, puisque ces mots sont communs, il est important que nous les
ayons représentés plusieurs fois chacun dans le receuil final, dans une variété de
contextes. Nous utiliserons ces mots pour sélectionner quelles phrases sont comprise
dans notre super grand receuil.
j'ai obtenu une telle liste sur internet et mis dans un fichier appelé dict.
J'ai enlevé de ce dict les mots communs qui empêchent les étapes suivantes de fonctionner
correctement.
-
Employez un autre programme pour selectionner de chaque livre préparés, les phrases
qui contiennent les 2000 mots requis. Allez au travers de ces mots dans l'ordre,
de telle manière que le receuil soit aussi ordonné, avec le dessus du receuil contenant
des exemples d'utilisation des mots les plus courants; de cette manière, le receuil peut être réduit en coupant
la fin de celui-ci, et restera un receuil approprié pour sa taille.
Assemblez les phrases ensemble dans un format de paragraphe plausible, de manière à émuler
l'écriture normale.
J'ai fait cela en utilisant l'utilitaire linux glimpse et mon programme
perl corpus.p
rm /data/coll/mackay/books/*~
glimpseindex -b -B -H ~/dasher/ /data/coll/mackay/books/
corpus.p k=1 f=4 o=corpus4.txt
Voici comment j'ai fait ce receuil (316K),
qui est utilisé dans Dasher 1.6.8.
Si quelqu'un fait un bon receuil dans d'autre languages et désire le partager,
Je peux les mettre sur ce site.