Le langage - La théorie de l'information - page 3
langue parlée ou dans la langue écrite. En France, un institut du CNRS à Nancy s’est spécialisé dans le recueil d’un très grand nombre de mots, plus de soixante-dix millions provenant de mille textes des xixe et xxe siècles. Des linguistes ont fait également une étude de la fréquence d’usage de la langue parlée (Gougenheim et coll., 1956) afin d’établir le vocabulaire courant dans l’usage réel de la langue. Le corpus, établi à partir de conversations parlées est de trois cent mille mots mais seuls huit mille mots différents sont employés ; voici quelques exemples, le mot le plus fréquent étant le verbe être (tabl. 7.4). Tableau 7.4 Exemple de fréquence de mots dans la langue parlée (extrait de Gougenheim et al., 1956) Mot Fréquence Être Avoir De Je Il(s) Et Chose Maison Voiture Train Journal Restaurant Château 14 083 11 552 10 503 7 905 7 505 5 082 477 278 182 98 71 33 23 Les mots ne se suivent pas au hasard dans la langue et de même qu’il y a une fréquence absolue, il y a des fréquences d’apparition d’un mot en fonction du mot précédent, ou des deux mots précédents, etc., ce sont les dépendances séquentielles (les associations sont des dépendances d’ordre 1 : dépendant du mot précédent). Dans le cas de l’approximation zéro, le hasard, chaque lettre apporte l’information maximum puisque rien ne nous permet de deviner la lettre suivante ; en revanche, plus l’approximation est grande, plus la probabilité de devinement est grande. L’écart entre l’information réellement transmise et l’information maximale (en théorie si la séquence est au hasard) est appelé la redondance. Dans la théorie de la communication, la redondance est nécessaire pour compenser le bruit qui va masquer certaines portions du message ; en télécommunication, le message peut être morcelé (pour compresser le signal électrique par exemple) sans que la compréhension ne soit affectée, seule la voix subit une altération et on observe que les voix ne sont pas toujours facilement reconnues au téléphone. Les procédés actuels de compression, Jpeg pour la photo, Mpeg pour les DVD, suppriment l’information redondante (par exemple un ciel tout