• Газеты, часопісы і г.д.
  • Частотны слоўнік беларускай мовы

    Частотны слоўнік беларускай мовы


    Выдавец: Выдавецтва БДУ
    Памер: 232с.
    Мінск 1976
    95.41 МБ
    рабіць	351	234	роўна	62	48
    работа	266	110	роўны	39	34
    рабочы			рубель	41	25
    (назоўнік)	66	38	рука	824	260
    радасць	94	66	РУХ	50	40
    рады	59	32	рушыць	35	30
    раён	66	39	рыба	41	19
    раз (назоў	413		рэч	48	41
    нік)		206	рэчка	50	28
    раз (пры			Са	324	189
    слоуе, злучнік)	47	37	сабака сабе (часціца)	72 82	38 38
    разам (прыслоуе) разважаць размова разумець разумны райком рака раней ранейшы	185 34 62 150 33 39 79 118 35	128 30 50 98 29 21 34 94 26	сабрацца сабраць савецкі сад сакратар салдат сам самалёт самы	58 42 45 48 37 104 727 42 499	49 35 28 30 19 34 250 26 224
    раніца	82	60	сапраўдны	65	56
    215
    сапраўды	113	88	сорак	47	33
    сачыць	47	40	спадабацца	94	23
    свежы	44	38	спадзявацца	38	36
    свет	154	104	спакой	40	37
    светлы	39	33	спакойна	84	67
    свой	1 581	283	спакойны	44	40
    святло	54	46	спалохацца	33	25
    святы	44	28	спаць	138	78
    селянін	40	13	спачатку	84	72
    сена	50	42	спектакль	40	6
    сенцы	33	23	спіна	82	58
    сесці	128	88	справа (на		
    сёння	181	113	зоўнік )	314	154
    сівы	40	31	спыніцца	118	86
    сіла	142	101	спыніць	34	30
    сіні	54	39	спытацца	44	27
    сказаць	1 268	268	спытаць	169	99
    скончыцца	45	36	спяваць	45	27
    скончыць	48	41	спяшацца	64	51
    след	91	66	станцыя	68	41
    слова	370	189	старацца	82	60
    служыць	40	32	старшыня		
    слухаць	167	106	(старшына)	160	58
    сляза	81	54	стары	428	162
    смерць	45	32	старэйшы	57	41
    смех	50	41	стаць	373	195
    смяяцца	59	38	стаяць	445	213
    снег	80	38	сто	36	29
    сон	50	40	стол	282	135
    сонца	136	85	СТОЛЬКІ	56	47
    216					
    страляць	41	22	сяло	55	26
    страх	39	36	сям’я	77	58
    страшна	39	33	сярод	107	79
    страшны	56	40	сярэдзіна	36	33
    стрэл	35	22	сястра	59	34
    стрэльба	37	12	Таварыш	234	87
    суд	32	23	тады	423	195
    сумна	31	26	так	1039	267
    супраць	33	24	такі (займен		
    сусед	68	46	нік)	1034	274
    суседні	39	31	таксама	302	176
    сустрэцца	39	33	там	556	226
    сустрэць	46	43	тата	61	28
    сустрэча	37	33	татка	52	11
    сухі	69	54	твар	385	177
    схавацца	32	28	твой	155	99
    схаваць	35	29	то (злучнік,		
    схапіць	41	34	часціца)	658	221
    сход	68	25	той	1 621	288
    сцежка	46	33	толькі	1 082	274
    сцяна	149	74	тон	38	35
    сын	240	95	тонкі	42	37
    сынок	45	27	тоўсты	44	37
    сэрца	165	89	трава	70	46
    сюды	159	99	трапіць	63	51
    сябар	101	57	трое	35	26
    сябе	724	258	трохі	84	60
    сядаць	32	27	трошкі	46	34
    сядзець	334	136	тры		
    сякера	40	20	( лічэбнік)	126	93
    15 Зак. 27					217
    трывога	47	36	умець	60	49
    трымацца	69	57	уніз	43	31
    трымаць	99	81	упасці	38	34
    трыццаць	31	27	упершыню	42	36
    трэба	656	241	урок	34	16
    трэці	63	55	услед	39	34
    туды	97	79	усмешка	75	62
    тут	897	260	усміхацца	40	32
    ты	3 289	280	усміхнуцца	123	84
    тыдзень	71	54	успамінаць	44	38
    тысяча	64	42	успомніць	62	57
    У(ў)	8 259	290	устаць	94	68
    убачыць	218	154	усюды	46	42
    убок	35	32	усякі	37	31
    увага	65	58	усялякі	36	30
    уважліва	34	34	уцякаць	47	39
    увайсці	76	64	уцячы	55	40
    увесь	2 480	288	учора	52	42
    увечары	47	42	Фашыст	48	25
    УДар	37	26	фронт	59	40
    удацца	45	36	Хадзіць	231	141
    ужо	1 004	271	хай	67	48
    узгорак	43	27'	халодны	44	37
    уздыхнуць	59	51	хапаць		
    узняцца	33	28	(«быць да		
    узняць	31	27	статковым»)	56	48
    узяцца	67	60	характар	32	28
    узяць	271	199	хата	451	243
    улада	44	28	хадецца	138	96
    уласны	31	26	хацець	502	214
    218
    хвалявацца	35	30	цікавасць	37	24
    хвіліна	175	120	цікавы	46	38
    хворы	51	32	ціха	147	104
    хвост	34	25	ціхі	59	54
    хіба (часціца,			цішыня	46	42
    злучнік)	150	105	цэгла	37	15
    хлапец	58	22	цэлы	114	102
    хлапчук	77	36	цяжка	147	106
    хлеб	112	60	цяжкі	104	88
    хлеў	39	24	цягнуцца	41	35
    хлопец	394	137	цягнуць	38	33
    хлопчык	150	59	цяпер	696	245
    хмара	41	28	Чаго		
    ход	49	40	(прыслоўе)	184	124
    хопіць			чакаць	219	134
    (прыслоўе)	46	36	чалавек	681	217
    хоць (злучнік, часціца)	364	186	чалавечы	32	31
    хто	729	242	чаму (прыслоўе)	229	144
    хутар	37	17	чамусьці	57	49
    хутка	167	109	чарга	51	39
    хутчэй	99	66	час	586	236
    Цела	49	41	часам		
    цень	38	33	(прыслоўе)	115	81
    цераз	71	51	часта	106	76
    цёмны	86	65	часцей	32	26
    цёплы	49	38	чатыры	54	46
    цётка	101	36	чорны	144	102
    ці	687	242	чорт	78	54
    цікава	43	28	чуваць	51	39
    15*					219
    чужы чуць	103	71	штосьці f займеннік )	46	36
    (дзеяслоў)	246	144	шукаць	118	85
    чыгунка	39	20	шчака	45	39
    чым (параўн.			шчаслівы	32	27
    злучнік)	142	99	шчасце	51	39
    чырвоны	93	60	шчыра	57	44
    чысты	65	50	шыба	31	24
    чытаць	88	57	шырока	34	32
    Шапка	55	41	шырокі	84	64
    шафёр	54	25	шыя	35	33
    шкада			шэры	55	44
    (прыслоўе)	55	44	Эх	36	30
    шкадаваць	43	36	я	5311	285
    шклянка	45	25	язык	40	32
    школа	131	59	як	2 681	284
    шлях	38	29	які	1 559	284
    шмат што (займеннік)	85 1 391	62 263	якраз ясна	59 44 40 1 021	51 32
    што (злучнік) штонебудзь	3 350 78	287 62	ясны яшчэ		277
    ДАДАТАК
    В. В. НЕШЫТОЙ
    МАТЭМАТЫЧНЫ НАМЕНТАРЫЙ ДА СЛОЎНІКА
    У абследаваных тэкстах агульнай даўжынёй 290 000 словаўжыванняў аказалася 21 754 розных слоў (лексем). Запаўненне тэксту рознымі словамі паводле частотнасці прыведзена ў табліцы 6, дзе z — парадкавы нумар слова ад пачатку частотнага спіса; Fx(z)— інакопленая адносная частата першых z найбольш частых слоў.
    Т а б л і ц a 6
    Z	F (z)	Z	Fx (z)
    1	0,040	200	0,558
    2	0,080	300	0,602
    3	0,108	500	0,657
    5	0,153	1 000	0,740
    10	0,228	2 000	0,812
    20	0,304	3 000	0,853
    30	0,345	5 000	0,900
    50	0,399	21 754	1,000
    100	0,476		
    Параўнаем гэтыя вынікі з адпаведнымі данымі «Частотнага слоўніка сучасцай украінскай мастацкай прозы» [1] (табліца 7).
    Паколькі ў пачатку двух частотных слоўнікаў значная доля Ьозных слоў прыпадае на службовыя словы, то з прыведзеных табліц Ьыйікае, што ў беларускай мастацкай прозе службовыя словы ўжываюцца часцей, чым ва ўкраінскай мастацкай прозе.
    Размеркаванне розных слоў па частаце іх ужывання ў тэксце падпарадкоўваецца закону, функцыя размеркавання і шчыльнасць імавернасці якога вызначаюцца формуламі [2]:
    221
    T a б л і ц a 7
    Z	нх U)	Z	FX (z)
    3	0,073	200	0,498
    5	0,110	300	0,548
    10	0,168	500	0,610
    20	0,237	1 000	0,696
    30	0,280	2 000	0,780
    50	0,335	3 000	0,829
    100	0,412	13 954	0,996
    дзе z — парадкавы нумар слова ў імавернасным слоўніку; 0; Ь>0; с>0. Тут параметр с улічвае асаблівасць размеркавання самых частых слоў (галоўным чынам службовых слоў).
    3 ураўнення (2) можна знайсці выраз для тангенса вугла нахілу датычнай да крывой размеркавання, пабудаванай у лагарыфмічных каардынатах,
    dIn р (z)
    “ d In z '
    b (1  b) е« + c2z (z + 1)1 ь
    becz 4 с (z + 1)1—Ь
    abz	acz
    (z+l)‘b
    222
    Пры дастаткова вялікіх значэннях z (практычна пры z> 1004500) прыведзенае вышэй размеркаванне, якое вызначаецца формуламі (1) і (2), супадае з законам Вейбула, для якога функцыя размеркавання і шчыльнасць імавернасці вызначаюцца формуламі
    F(Z)=1—^	(4)
    еа
    а выраз (3) пераўтвараецца да больш простага выгляду:
    у = — (1 — Ь) — abzb.	(6)
    Для беларускай мастацкай прозы параметры размеркавання роўныя: а = 0,14; Ь = 0,33; с=0,11.
    Вылічым па формулах (1—3) тэарэтычныя значэнні функцыі размеркавання F(z), шчыльнасці імавернасці p(z) і велічыні у. Вынікі разлікаў прыведзены ў табліцы 8.
    Т а б л і ц a 8
    Z	FU)	Р (2)	7
    1	0,049	0,0406	— 0,306
    3	0,113	0,0260	— 0,526
    10	0,226	0,0111	— 0,927
    20	0,306	0,005 36	— 1,140
    30	0,348	0,003 40	— 1,093
    50	0,394	0,002 02.	— 0,915
    100	0,472	0,001 11	— 0,881
    300	0,601	0,000 403	— 0,973
    1 000	0,745	0,000 115	— 1,122
    3 000	0,860	0,000 030 3	— 1,319
    10 000	0,9461	0,000 005 21	— 1,636
    30 000	0,9850	0,0 00 000 695	— 2,057
    Fla рыс. 6 суцэльнай лініяй паказана тэарэтычная функцыя раз			
    Імеркавання F(z) =фі (lg z), a .асобнымі кропкамі—доследная функ
    223
    цыя размеркавання. 3 графіка відаць, што тэарэтычныя і доследныя даныя практычна супалі.
    На рыс. 7 паказана тэарэтычная крывая Y=<₽2(lgz). Яна перасякае прамую у=1 у трох пунктах: С, С' і С". Графік функцыі размеркавання (рыс. 6) мае адпаведна тры пункты перагібу: С, С' і С" і
    На рыс. 6 літарай В абазначаны пункт, у якім хуткасць змянення тангенса вугла нахілу датычнай да крывой F(z) =<рі (lg z) дасягае максімалыіага значэння. Пункт В мае каардынаты:
    ,	1	2,618
    ^ZB = “b" *8 —a—’ F *ZB> = °’9271 ’
    дзе a, b — параметры размеркавання Вейбула,
    Велічыня zb можа характарызаваць аптымальны аб’ём частотнага слоўніка, яго актыўную частку. Такі слоўнік пакрывае 92,7% тэкстаў, або, іншымі словамі, мае паўнату 0,927. Каб павялічыць паўнату частотнага слоўніка, напрыклад на 5% вышэй аптымальнай, трэба павялічыць яго аб’ём (пры а = 0,14; Ь = 0,33) у 3,04 раза, у той час як для памяншэння паўнаты таго ж слоўніка на 5% ніжэй аптымальнай дастаткова паменшыць яго аб’ём у 1,96 раза.
    Аптымальны аб’ём частотнага слоўніка беларускай мастацкайі
    224
    прозы складае 7 145 слоў. Для ўкраінскай мастацкай прозы (а = = 0,1135; b = 0,34) zb = 10 200 слоў (лексем).
    Закон Вейбула дае магчымасць разлічыць аб'ём слоўніка па зададзенай паўнаце F(z) (пры z>100—500, F(z)>0,5—0,6). Рашаючы ўраўненне (4) адносна z, атрымаем
    Разгледзім цяпер рыс. 8, ііа якім адлюстравапа тэарэтычная крывая размеркавання lg p(z) =