A magyar nyelv betűinek információtartalma


A betűk relatív gyakorisága és az ebből számított információtartalma egy 10 000 betűs újságszöveg alapján, szóköz nélkül: A 9.35 % 3.43 bit I 4.39 % 4.53 bit R 4.22 % 4.58 bit Á 3.72 % 4.77 bit J 1.21 % 6.39 bit S 6.57 % 3.94 bit B 1.72 % 5.87 bit K 5.35 % 4.24 bit T 7.87 % 3.68 bit C 0.60 % 7.40 bit L 6.30 % 4.00 bit U 1.29 % 6.30 bit D 1.71 % 5.90 bit M 3.92 % 4.69 bit Ü 0.93 % 6.77 bit E 9.71 % 3.37 bit N 5.47 % 4.21 bit V 1.81 % 5.81 bit É 3.87 % 4.71 bit O 4.47 % 4.50 bit W 0.00 % ? F 0.88 % 6.87 bit Ö 2.14 % 5.57 bit X 0.01 % 13.33 bit G 3.55 % 4.83 bit P 1.04 % 6.61 bit Y 2.21 % 5.52 bit H 1.23 % 6.37 bit Q 0.00 % ? Z 4.46 % 4.50 bit Ugyanezt a táblázatot pl. szavakra elkészíteni jóval nehezebb lenne, s hosszabb szövegrészeknél pedig egyenesen lehetetlen, hiszen nagy részük teljesen egyedi. Az "asztal" szó információtartalmára egy nagyon durva becslést kaphatunk, ha összeadjuk a szót alkotó betűk információtartalmát (22.98 bit), de hosszabb szövegeknél még ez is körülményes. Ilyenkor egy másik módszert használnak, kiszámolják egy adott jelkészlet egy elemének átlagos információmennyiségét a Shannon-féle elsőrendű entrópia képlet alapján: H = p1·log 1/p1 + p2·log 1/p2 + ... + pn·log 1/pn vagy másképpen felírva H = - S p(i)·log p(i) ahol i megy 1-től n-ig. A magyar nyelv egy jelének átlagos információmennyisége kb. 4.44 bit. Egy N jelből álló szöveg információja ezek után: I=N·H, amely egy durva közelítés csupán, mert ezzel bármely jelsorozatot értelmesnek tételezünk fel. Valamivel pontosabb az ún. kombinatorikus entrópia, amit a következő képlet fejez ki: logM(N) H~ = lim ------- , ahol az M(N) az N hosszúságú értelmes szövegek száma. N->oo N
Andor Cs. (1980) nyomán [irodalom.txt -Andor]