Частотны слоўнік беларускай мовы
Выдавец: Выдавецтва БДУ
Памер: 232с.
Мінск 1976
рабіць 351 234 роўна 62 48
работа 266 110 роўны 39 34
рабочы рубель 41 25
(назоўнік) 66 38 рука 824 260
радасць 94 66 РУХ 50 40
рады 59 32 рушыць 35 30
раён 66 39 рыба 41 19
раз (назоў 413 рэч 48 41
нік) 206 рэчка 50 28
раз (пры Са 324 189
слоуе, злучнік) 47 37 сабака сабе (часціца) 72 82 38 38
разам (прыслоуе) разважаць размова разумець разумны райком рака раней ранейшы 185 34 62 150 33 39 79 118 35 128 30 50 98 29 21 34 94 26 сабрацца сабраць савецкі сад сакратар салдат сам самалёт самы 58 42 45 48 37 104 727 42 499 49 35 28 30 19 34 250 26 224
раніца 82 60 сапраўдны 65 56
215
сапраўды 113 88 сорак 47 33
сачыць 47 40 спадабацца 94 23
свежы 44 38 спадзявацца 38 36
свет 154 104 спакой 40 37
светлы 39 33 спакойна 84 67
свой 1 581 283 спакойны 44 40
святло 54 46 спалохацца 33 25
святы 44 28 спаць 138 78
селянін 40 13 спачатку 84 72
сена 50 42 спектакль 40 6
сенцы 33 23 спіна 82 58
сесці 128 88 справа (на
сёння 181 113 зоўнік ) 314 154
сівы 40 31 спыніцца 118 86
сіла 142 101 спыніць 34 30
сіні 54 39 спытацца 44 27
сказаць 1 268 268 спытаць 169 99
скончыцца 45 36 спяваць 45 27
скончыць 48 41 спяшацца 64 51
след 91 66 станцыя 68 41
слова 370 189 старацца 82 60
служыць 40 32 старшыня
слухаць 167 106 (старшына) 160 58
сляза 81 54 стары 428 162
смерць 45 32 старэйшы 57 41
смех 50 41 стаць 373 195
смяяцца 59 38 стаяць 445 213
снег 80 38 сто 36 29
сон 50 40 стол 282 135
сонца 136 85 СТОЛЬКІ 56 47
216
страляць 41 22 сяло 55 26
страх 39 36 сям’я 77 58
страшна 39 33 сярод 107 79
страшны 56 40 сярэдзіна 36 33
стрэл 35 22 сястра 59 34
стрэльба 37 12 Таварыш 234 87
суд 32 23 тады 423 195
сумна 31 26 так 1039 267
супраць 33 24 такі (займен
сусед 68 46 нік) 1034 274
суседні 39 31 таксама 302 176
сустрэцца 39 33 там 556 226
сустрэць 46 43 тата 61 28
сустрэча 37 33 татка 52 11
сухі 69 54 твар 385 177
схавацца 32 28 твой 155 99
схаваць 35 29 то (злучнік,
схапіць 41 34 часціца) 658 221
сход 68 25 той 1 621 288
сцежка 46 33 толькі 1 082 274
сцяна 149 74 тон 38 35
сын 240 95 тонкі 42 37
сынок 45 27 тоўсты 44 37
сэрца 165 89 трава 70 46
сюды 159 99 трапіць 63 51
сябар 101 57 трое 35 26
сябе 724 258 трохі 84 60
сядаць 32 27 трошкі 46 34
сядзець 334 136 тры
сякера 40 20 ( лічэбнік) 126 93
15 Зак. 27 217
трывога 47 36 умець 60 49
трымацца 69 57 уніз 43 31
трымаць 99 81 упасці 38 34
трыццаць 31 27 упершыню 42 36
трэба 656 241 урок 34 16
трэці 63 55 услед 39 34
туды 97 79 усмешка 75 62
тут 897 260 усміхацца 40 32
ты 3 289 280 усміхнуцца 123 84
тыдзень 71 54 успамінаць 44 38
тысяча 64 42 успомніць 62 57
У(ў) 8 259 290 устаць 94 68
убачыць 218 154 усюды 46 42
убок 35 32 усякі 37 31
увага 65 58 усялякі 36 30
уважліва 34 34 уцякаць 47 39
увайсці 76 64 уцячы 55 40
увесь 2 480 288 учора 52 42
увечары 47 42 Фашыст 48 25
УДар 37 26 фронт 59 40
удацца 45 36 Хадзіць 231 141
ужо 1 004 271 хай 67 48
узгорак 43 27' халодны 44 37
уздыхнуць 59 51 хапаць
узняцца 33 28 («быць да
узняць 31 27 статковым») 56 48
узяцца 67 60 характар 32 28
узяць 271 199 хата 451 243
улада 44 28 хадецца 138 96
уласны 31 26 хацець 502 214
218
хвалявацца 35 30 цікавасць 37 24
хвіліна 175 120 цікавы 46 38
хворы 51 32 ціха 147 104
хвост 34 25 ціхі 59 54
хіба (часціца, цішыня 46 42
злучнік) 150 105 цэгла 37 15
хлапец 58 22 цэлы 114 102
хлапчук 77 36 цяжка 147 106
хлеб 112 60 цяжкі 104 88
хлеў 39 24 цягнуцца 41 35
хлопец 394 137 цягнуць 38 33
хлопчык 150 59 цяпер 696 245
хмара 41 28 Чаго
ход 49 40 (прыслоўе) 184 124
хопіць чакаць 219 134
(прыслоўе) 46 36 чалавек 681 217
хоць (злучнік, часціца) 364 186 чалавечы 32 31
хто 729 242 чаму (прыслоўе) 229 144
хутар 37 17 чамусьці 57 49
хутка 167 109 чарга 51 39
хутчэй 99 66 час 586 236
Цела 49 41 часам
цень 38 33 (прыслоўе) 115 81
цераз 71 51 часта 106 76
цёмны 86 65 часцей 32 26
цёплы 49 38 чатыры 54 46
цётка 101 36 чорны 144 102
ці 687 242 чорт 78 54
цікава 43 28 чуваць 51 39
15* 219
чужы чуць 103 71 штосьці f займеннік ) 46 36
(дзеяслоў) 246 144 шукаць 118 85
чыгунка 39 20 шчака 45 39
чым (параўн. шчаслівы 32 27
злучнік) 142 99 шчасце 51 39
чырвоны 93 60 шчыра 57 44
чысты 65 50 шыба 31 24
чытаць 88 57 шырока 34 32
Шапка 55 41 шырокі 84 64
шафёр 54 25 шыя 35 33
шкада шэры 55 44
(прыслоўе) 55 44 Эх 36 30
шкадаваць 43 36 я 5311 285
шклянка 45 25 язык 40 32
школа 131 59 як 2 681 284
шлях 38 29 які 1 559 284
шмат што (займеннік) 85 1 391 62 263 якраз ясна 59 44 40 1 021 51 32
што (злучнік) штонебудзь 3 350 78 287 62 ясны яшчэ 277
ДАДАТАК
В. В. НЕШЫТОЙ
МАТЭМАТЫЧНЫ НАМЕНТАРЫЙ ДА СЛОЎНІКА
У абследаваных тэкстах агульнай даўжынёй 290 000 словаўжыванняў аказалася 21 754 розных слоў (лексем). Запаўненне тэксту рознымі словамі паводле частотнасці прыведзена ў табліцы 6, дзе z — парадкавы нумар слова ад пачатку частотнага спіса; Fx(z)— інакопленая адносная частата першых z найбольш частых слоў.
Т а б л і ц a 6
Z F (z) Z Fx (z)
1 0,040 200 0,558
2 0,080 300 0,602
3 0,108 500 0,657
5 0,153 1 000 0,740
10 0,228 2 000 0,812
20 0,304 3 000 0,853
30 0,345 5 000 0,900
50 0,399 21 754 1,000
100 0,476
Параўнаем гэтыя вынікі з адпаведнымі данымі «Частотнага слоўніка сучасцай украінскай мастацкай прозы» [1] (табліца 7).
Паколькі ў пачатку двух частотных слоўнікаў значная доля Ьозных слоў прыпадае на службовыя словы, то з прыведзеных табліц Ьыйікае, што ў беларускай мастацкай прозе службовыя словы ўжываюцца часцей, чым ва ўкраінскай мастацкай прозе.
Размеркаванне розных слоў па частаце іх ужывання ў тэксце падпарадкоўваецца закону, функцыя размеркавання і шчыльнасць імавернасці якога вызначаюцца формуламі [2]:
221
T a б л і ц a 7
Z нх U) Z FX (z)
3 0,073 200 0,498
5 0,110 300 0,548
10 0,168 500 0,610
20 0,237 1 000 0,696
30 0,280 2 000 0,780
50 0,335 3 000 0,829
100 0,412 13 954 0,996
дзе z — парадкавы нумар слова ў імавернасным слоўніку; 0; Ь>0; с>0. Тут параметр с улічвае асаблівасць размеркавання самых частых слоў (галоўным чынам службовых слоў).
3 ураўнення (2) можна знайсці выраз для тангенса вугла нахілу датычнай да крывой размеркавання, пабудаванай у лагарыфмічных каардынатах,
dIn р (z)
“ d In z '
b (1 b) е« + c2z (z + 1)1 ь
becz 4 с (z + 1)1—Ь
abz acz
(z+l)‘b
222
Пры дастаткова вялікіх значэннях z (практычна пры z> 1004500) прыведзенае вышэй размеркаванне, якое вызначаецца формуламі (1) і (2), супадае з законам Вейбула, для якога функцыя размеркавання і шчыльнасць імавернасці вызначаюцца формуламі
F(Z)=1—^ (4)
еа
а выраз (3) пераўтвараецца да больш простага выгляду:
у = — (1 — Ь) — abzb. (6)
Для беларускай мастацкай прозы параметры размеркавання роўныя: а = 0,14; Ь = 0,33; с=0,11.
Вылічым па формулах (1—3) тэарэтычныя значэнні функцыі размеркавання F(z), шчыльнасці імавернасці p(z) і велічыні у. Вынікі разлікаў прыведзены ў табліцы 8.
Т а б л і ц a 8
Z FU) Р (2) 7
1 0,049 0,0406 — 0,306
3 0,113 0,0260 — 0,526
10 0,226 0,0111 — 0,927
20 0,306 0,005 36 — 1,140
30 0,348 0,003 40 — 1,093
50 0,394 0,002 02. — 0,915
100 0,472 0,001 11 — 0,881
300 0,601 0,000 403 — 0,973
1 000 0,745 0,000 115 — 1,122
3 000 0,860 0,000 030 3 — 1,319
10 000 0,9461 0,000 005 21 — 1,636
30 000 0,9850 0,0 00 000 695 — 2,057
Fla рыс. 6 суцэльнай лініяй паказана тэарэтычная функцыя раз
Імеркавання F(z) =фі (lg z), a .асобнымі кропкамі—доследная функ
223
цыя размеркавання. 3 графіка відаць, што тэарэтычныя і доследныя даныя практычна супалі.
На рыс. 7 паказана тэарэтычная крывая Y=<₽2(lgz). Яна перасякае прамую у=1 у трох пунктах: С, С' і С". Графік функцыі размеркавання (рыс. 6) мае адпаведна тры пункты перагібу: С, С' і С" і
На рыс. 6 літарай В абазначаны пункт, у якім хуткасць змянення тангенса вугла нахілу датычнай да крывой F(z) =<рі (lg z) дасягае максімалыіага значэння. Пункт В мае каардынаты:
, 1 2,618
^ZB = “b" *8 —a—’ F *ZB> = °’9271 ’
дзе a, b — параметры размеркавання Вейбула,
Велічыня zb можа характарызаваць аптымальны аб’ём частотнага слоўніка, яго актыўную частку. Такі слоўнік пакрывае 92,7% тэкстаў, або, іншымі словамі, мае паўнату 0,927. Каб павялічыць паўнату частотнага слоўніка, напрыклад на 5% вышэй аптымальнай, трэба павялічыць яго аб’ём (пры а = 0,14; Ь = 0,33) у 3,04 раза, у той час як для памяншэння паўнаты таго ж слоўніка на 5% ніжэй аптымальнай дастаткова паменшыць яго аб’ём у 1,96 раза.
Аптымальны аб’ём частотнага слоўніка беларускай мастацкайі
224
прозы складае 7 145 слоў. Для ўкраінскай мастацкай прозы (а = = 0,1135; b = 0,34) zb = 10 200 слоў (лексем).
Закон Вейбула дае магчымасць разлічыць аб'ём слоўніка па зададзенай паўнаце F(z) (пры z>100—500, F(z)>0,5—0,6). Рашаючы ўраўненне (4) адносна z, атрымаем
Разгледзім цяпер рыс. 8, ііа якім адлюстравапа тэарэтычная крывая размеркавання lg p(z) =