langue parlée ou dans la langue écrite. En France, un institut du CNRS à
Nancy s’est spécialisé dans le recueil d’un très grand nombre de mots, plus
de soixante-dix millions provenant de mille textes des xixe et xxe siècles.
Des linguistes ont fait également une étude de la fréquence d’usage de la
langue parlée (Gougenheim et coll., 1956) afin d’établir le vocabulaire courant
dans l’usage réel de la langue. Le corpus, établi à partir de conversations
parlées est de trois cent mille mots mais seuls huit mille mots
différents sont employés ; voici quelques exemples, le mot le plus fréquent
étant le verbe être (tabl. 7.4).
Tableau 7.4
Exemple de fréquence de mots dans la langue parlée
(extrait de Gougenheim et al., 1956)
Mot Fréquence
Être
Avoir
De
Je
Il(s)
Et
Chose
Maison
Voiture
Train
Journal
Restaurant
Château
14 083
11 552
10 503
7 905
7 505
5 082
477
278
182
98
71
33
23
Les mots ne se suivent pas au hasard dans la langue et de même qu’il y a
une fréquence absolue, il y a des fréquences d’apparition d’un mot en fonction
du mot précédent, ou des deux mots précédents, etc., ce sont les
dépendances séquentielles (les associations sont des dépendances d’ordre
1 : dépendant du mot précédent). Dans le cas de l’approximation zéro, le
hasard, chaque lettre apporte l’information maximum puisque rien ne
nous permet de deviner la lettre suivante ; en revanche, plus l’approximation
est grande, plus la probabilité de devinement est grande. L’écart entre
l’information réellement transmise et l’information maximale (en théorie
si la séquence est au hasard) est appelé la redondance. Dans la théorie de
la communication, la redondance est nécessaire pour compenser le bruit
qui va masquer certaines portions du message ; en télécommunication, le
message peut être morcelé (pour compresser le signal électrique par
exemple) sans que la compréhension ne soit affectée, seule la voix subit
une altération et on observe que les voix ne sont pas toujours facilement
reconnues au téléphone.
Les procédés actuels de compression, Jpeg pour la photo, Mpeg pour les
DVD, suppriment l’information redondante (par exemple un ciel tout