Aujourd'hui à 14h41, Google a confirmé le lancement prochainement de son index N-gram.
Ce fichier contiendrait 1 011 582 453 213 mots, complétés 1 146 580 664 séquences de 5 mots apparues plus de 40 fois et par 13 653 070 mots uniques recherchés plus de 200 fois. ( quelle précision !

)
Ce fichier serait sous forme de six DVD et serait utilisé pour la traduction automatique d'un bon nombre de sites, pour l'extraction d'informations linguistiques, pour la corrections orthographiques ou pour la reconnaissance vocale
Bon je vous laisse reprendre votre souffle là, je dois avouer que tous cela à l'air très impressionnant !
Alors pour le moment, Google n'a citer aucune date et n'a pas annoncer si elle serait vendue au public ou offerte.