N-gramma

Un n-gramma è una sottosequenza di n elementi di una data sequenza. Secondo l'applicazione, gli elementi in questione possono essere fonemi, sillabe, lettere, parole, ecc. Un n-gramma di lunghezza 1 è chiamato "unigramma", di lunghezza 2 "digramma", di lunghezza 3 "trigramma" e, da lunghezza 4 in poi, "n-gramma". Alcuni modelli del linguaggio costruiti a partire da n-grammi sono catene di Markov di ordine n-1.

Esempi

Seguono alcuni esempi di trigrammi di parole e relativi conteggi ottenuti dal Google n-gram corpus.

ceramics collectables collectibles (55)
ceramics collectables fine (130)
ceramics collected by (52)
ceramics collectible pottery (50)
ceramics collectibles cooking (45)

Bibliografia

(EN) Christopher D. Manning e Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press, 1999, ISBN 0-262-13360-1.
Ted Dunning, Statistical Identification of Language. Computing Research Laboratory Memorandum (1994) MCCS-94-273.
Owen White, Ted Dunning, Granger Sutton, Mark Adams, J.Craig Venter, and Chris Fields. A quality control algorithm for dna sequencing projects. Nucleic Acids Research, 21(16):3829--3838, 1993.
Frederick J. Damerau, Markov Models and Linguistic Theory. Mouton. The Hague, 1971.