Inference Group
.
.




Search :
.

Creazione del testo di addestramento

Il testo di addestramento dovrebbe essere un file di testo pulito contente del testo `simile' a quello che volete scrivere. Più è grande il testo meglio è. Noi pensiamo che 300K siano una dimensione giusta.

Esempio di testi di addestramento che potreste usare sono:

  • Prendere tutti i documenti di testo che avete scritto e incollate tutto insieme in un unico documento.
  • Utilizzate storie - per esempio noi abbiamo usato Emma id Jane Austen dal Progetto Gutenberg. Il problema utilizzando solo una o due storie è che particolari parole (come Emma o Alice) si trovano molto di frequente e quindi le storie non sono ideali per testi di addestramento generici.
  • Utilizzare tutti i messagi email che avete scritto e incollarli insieme in un unico documento.

Come costruire un testo di addestramento generico

Di seguito è spiegato come io ho costruito il testo di addestramento per la versione inglese di Dasher.
  1. Ho preso molti documenti in inglese. Prendete più materiale rispetto a quello che pensate possa servirvi così potete scegliere un insieme di frasi ben bilanciate come le segue.
  2. Elaborate tutto in modo che ci sia solo una frase per linea.
    L'ho fatto usando un programma in perl che ho scritto, processbook.p con scripts come questi
    foreach f ( alice emma )
      processbook.p  /books0/$f > /books/$f
    end
    
  3. Ora ottenete una lista delle 2000 più frequenti parole della lingua. L'idea è che siccome queste parole sono comuni è importante che compaiano diverse volte nel corpo finale in una varietà di contesti. Useremo queste parole per selezionare le frasi da inserire nel grosso testo che rappresenta il corpo finale.
    Io ho ottenuto questa lista da internet e l'ho messa in un file che ho chiamato dict. Ho rimosso da dict tutte le parole comuni assurde che impedivano al procedimento di funzionare correttamente.
  4. Usate un altro programma per selezionare da ogni libro pre-processato le frasi che contengano le 2000 parole richieste. Visitate le parole in ordine per fare in modo che anche il corpo risultante sia ordinato, con le parole più utilizzate in cima alla lista; in questo modo il corpo può essere ristretto tagliando via la parte finale e dovrebbe essere appripriato per la propria dimensione.
    Incollate insieme le frasi dentro paragrafi di dimensione plausibile che possano emulare la normale scrittura.
    Io ho effettuato questo passo uando la utility linux glimpse e un mio programma perl corpus.p
    rm  /data/coll/mackay/books/*~
    glimpseindex -b  -B   -H ~/dasher/  /data/coll/mackay/books/
    corpus.p k=1 f=4 o=corpus4.txt
           
    Ecco come ho fatto this corpus (316K), che è stato usato in Dasher 1.6.8.

Se qualcuno volesse costruire dei corpi in altre lingue e condividerli posso metterli in questo sito.


L'Inference Group è supportato dalla Fondazione Gatsby
e da una collaborazione con l'istituto di ricerca IBM di Zurigo
David MacKay
Ultima modifica Fri Oct 1 10:33:27 BST 2010