HiddenPage Réaliser le texte d'entraînement

Réaliser le texte d'entraînement

Le texte d'entraînement doit être un simple fichier texte contenant un texte `similaire' à ce que vous avez l'intention d'écrire. Le plus grand le meilleur. Nous pensons que 300K c'est la bonne taille qu'il faut chercher à avoir. Notre format de fichier préféré est l' UTF-8, mais si vous preférez fournir un autre format, c'est bon; quand vous fournissez le fichier veillez à inclure une description de son contenu et indiquer le format; nous utiliserons l'utilitaire linux iconv pour convertir, si necessaire.

Les exemples de textes d'entraînement que vous pouvez utiliser sont:

Prenez tous les documents que vous avez écrits, et collez les tous ensemble un un grand document.
Utilisez des romans - eg, nous avons pris le roman Emma Jane Austen' de Project Gutenberg. Cependant le problème en utilisant juste un ou deux romans, c'est que des mots particuliers (tels que Emma ou Alice) apparaissent très fréquement; donc les romans ne sont pas idéaux pour un texte d'entraînement a usage courant.
Utilisez tous le courriels que vous avez écrits, et collez les tous ensemble en un grand document..

Receuil existants

Il y a un receuil de liste de courrier; ce site web a une foule de liens utiles.

Comment réaliser un texte d'entraînement à usage général

Vous pouvez faire un assez bon receuil simplement en concaténant un ensemble de documents dans votre choix de langue. Un tel receuil est assez bien, mais pas idéal, puisque, par exemple, si vous incluez tous les Alice au pay des merveilles, le mot Alice et la phrase lapin blanc apparaîtrons bien plus souvent que la normale. Les buts de la procédure plus compliquée décrite ci-dessous sont

de créer un receuil de tous les mots communs représentés dans une variétés de contextes, sans aucun document source dominant les statistiques;
de créer un receuil qui serait sensiblement rétrécit pour faire un plus petit receuil (pour les ordinateur de poche avec peu de mémoire, par exemple).

Voici comment j'ai fait un texte d'entraînement pour la version Anglaise de Dasher.

Prenez une série de documents en Anglais. Prenez plus de documents que vous pensez en avoir besoins, comme cela vous pouvez choisir un ensemble de phrases bien équilibrées d'une manière appréciable, comme suivant.
Préparez les de telle sorte qu'il y aie exactement un phrase par ligne.
J'ai utilisé un programme perl que j'ai écrit, processbook.p avec un script tel que celui-ci
```
foreach f ( alice emma )
  processbook.p  /books0/$f > /books/$f
end
```
Maintenant, prenez une liste des 2000 mots les plus fréquents dans la langue. L'idée étant, puisque ces mots sont communs, il est important que nous les ayons représentés plusieurs fois chacun dans le receuil final, dans une variété de contextes. Nous utiliserons ces mots pour sélectionner quelles phrases sont comprise dans notre super grand receuil.
j'ai obtenu une telle liste sur internet et mis dans un fichier appelé dict. J'ai enlevé de ce dict les mots communs qui empêchent les étapes suivantes de fonctionner correctement.
Employez un autre programme pour selectionner de chaque livre préparés, les phrases qui contiennent les 2000 mots requis. Allez au travers de ces mots dans l'ordre, de telle manière que le receuil soit aussi ordonné, avec le dessus du receuil contenant des exemples d'utilisation des mots les plus courants; de cette manière, le receuil peut être réduit en coupant la fin de celui-ci, et restera un receuil approprié pour sa taille.
Assemblez les phrases ensemble dans un format de paragraphe plausible, de manière à émuler l'écriture normale.
J'ai fait cela en utilisant l'utilitaire linux glimpse et mon programme perl corpus.p
```
rm  /data/coll/mackay/books/*~
glimpseindex -b  -B   -H ~/dasher/  /data/coll/mackay/books/
corpus.p k=1 f=4 o=corpus4.txt
       
```
Voici comment j'ai fait ce receuil (316K), qui est utilisé dans Dasher 1.6.8.

Si quelqu'un fait un bon receuil dans d'autre languages et désire le partager, Je peux les mettre sur ce site.