A magyar nyelv betűinek információtartalma
A betűk relatív gyakorisága és az ebből számított információtartalma egy
10 000 betűs újságszöveg alapján, szóköz nélkül:
A 9.35 % 3.43 bit I 4.39 % 4.53 bit R 4.22 % 4.58 bit
Á 3.72 % 4.77 bit J 1.21 % 6.39 bit S 6.57 % 3.94 bit
B 1.72 % 5.87 bit K 5.35 % 4.24 bit T 7.87 % 3.68 bit
C 0.60 % 7.40 bit L 6.30 % 4.00 bit U 1.29 % 6.30 bit
D 1.71 % 5.90 bit M 3.92 % 4.69 bit Ü 0.93 % 6.77 bit
E 9.71 % 3.37 bit N 5.47 % 4.21 bit V 1.81 % 5.81 bit
É 3.87 % 4.71 bit O 4.47 % 4.50 bit W 0.00 % ?
F 0.88 % 6.87 bit Ö 2.14 % 5.57 bit X 0.01 % 13.33 bit
G 3.55 % 4.83 bit P 1.04 % 6.61 bit Y 2.21 % 5.52 bit
H 1.23 % 6.37 bit Q 0.00 % ? Z 4.46 % 4.50 bit
Ugyanezt a táblázatot pl. szavakra elkészíteni jóval nehezebb lenne, s
hosszabb szövegrészeknél pedig egyenesen lehetetlen, hiszen nagy részük
teljesen egyedi. Az "asztal" szó információtartalmára egy nagyon durva
becslést kaphatunk, ha összeadjuk a szót alkotó betűk információtartalmát
(22.98 bit), de hosszabb szövegeknél még ez is körülményes. Ilyenkor egy
másik módszert használnak, kiszámolják egy adott jelkészlet egy elemének
átlagos információmennyiségét a Shannon-féle elsőrendű entrópia képlet
alapján:
H = p1·log 1/p1 + p2·log 1/p2 + ... + pn·log 1/pn vagy másképpen felírva
H = - S p(i)·log p(i) ahol i megy 1-től n-ig.
A magyar nyelv egy jelének átlagos információmennyisége kb. 4.44 bit. Egy
N jelből álló szöveg információja ezek után: I=N·H, amely egy durva
közelítés csupán, mert ezzel bármely jelsorozatot értelmesnek tételezünk
fel. Valamivel pontosabb az ún. kombinatorikus entrópia, amit a következő
képlet fejez ki:
logM(N)
H~ = lim ------- , ahol az M(N) az N hosszúságú értelmes szövegek száma.
N->oo N
Andor Cs. (1980) nyomán [irodalom.txt -Andor]