Informatikai Jegyzetek (mat/mat03)

A magyar nyelv betűinek információtartalma


A betűk relatív gyakorisága és az ebből számított információtartalma egy
10 000 betűs újságszöveg alapján, szóköz nélkül:

 A  9.35 %  3.43 bit      I  4.39 %  4.53 bit      R  4.22 %  4.58 bit
 Á  3.72 %  4.77 bit      J  1.21 %  6.39 bit      S  6.57 %  3.94 bit
 B  1.72 %  5.87 bit      K  5.35 %  4.24 bit      T  7.87 %  3.68 bit
 C  0.60 %  7.40 bit      L  6.30 %  4.00 bit      U  1.29 %  6.30 bit
 D  1.71 %  5.90 bit      M  3.92 %  4.69 bit      Ü  0.93 %  6.77 bit
 E  9.71 %  3.37 bit      N  5.47 %  4.21 bit      V  1.81 %  5.81 bit
 É  3.87 %  4.71 bit      O  4.47 %  4.50 bit      W  0.00 %  ?
 F  0.88 %  6.87 bit      Ö  2.14 %  5.57 bit      X  0.01 % 13.33 bit
 G  3.55 %  4.83 bit      P  1.04 %  6.61 bit      Y  2.21 %  5.52 bit
 H  1.23 %  6.37 bit      Q  0.00 %  ?             Z  4.46 %  4.50 bit

Ugyanezt a táblázatot pl. szavakra elkészíteni jóval nehezebb lenne, s
hosszabb szövegrészeknél pedig egyenesen lehetetlen, hiszen nagy részük
teljesen egyedi. Az "asztal" szó információtartalmára egy nagyon durva
becslést kaphatunk, ha összeadjuk a szót alkotó betűk információtartalmát
(22.98 bit), de hosszabb szövegeknél még ez is körülményes. Ilyenkor egy
másik módszert használnak, kiszámolják egy adott jelkészlet egy elemének
átlagos információmennyiségét a Shannon-féle elsőrendű entrópia képlet
alapján:

H = p1·log 1/p1 + p2·log 1/p2 + ... + pn·log 1/pn   vagy másképpen felírva
H = - S p(i)·log p(i)  ahol i megy 1-től n-ig.

A magyar nyelv egy jelének átlagos információmennyisége kb. 4.44 bit. Egy
N jelből álló szöveg információja ezek után: I=N·H, amely egy durva
közelítés csupán, mert ezzel bármely jelsorozatot értelmesnek tételezünk
fel. Valamivel pontosabb az ún. kombinatorikus entrópia, amit a következő
képlet fejez ki:

         logM(N)
H~ = lim ------- , ahol az M(N) az N hosszúságú értelmes szövegek száma.
    N->oo   N



Andor Cs. (1980) nyomán               [irodalom.txt -Andor]