Частотны слоўнік беларускай мовы
Выдавец: Выдавецтва БДУ
Памер: 232с.
Мінск 1976
У частотны слоўнік беларускай мастацкай прозы ўключаныі 1002 словы з частатой 31 і вышэй. Пры гэтым адносная частата самых рэдкіх слоў дадзенага слоўніка пры даверыцельнай імавернасці 0,95 вызпачана з пагрэшнасцю, якая магчыма дасягае 36%
Залежнасць паміж аб’ёмам выпадкова складзенай выбаркі х і аб’ёмам слоўніка y=f(x) можа быць знойдзена па формуле [2]
1
у = х /і+ГЙГТ J
3 (8) можна вызначыць параметр а праз у і х
Калі па доследных значэннях у і х пабудаваць графік залежнасці а = ф(1пх), то атрымаем прамую, ураўненне якой мае выгля;
a = a0 + k In х,
або a = a0 + k'lgx,
дзе ао — пачатковая ардыната; к, к7~2,3к— вуглавыя каэфіцыенты дадзенай прамой.
Для вызначэння параметраў выбаркі a0 і k дастаткова ведаць каардынаты двух пунктаў на крывой y = f(x).
Формула (8) справядлівая пры х>104 словаўжыванняў. Пры х<104 яе пагрэшнасць можа перавышаць 5%.
Прамую a=ao+klnx можна назваць абагульненым паказчыкам лексічнага багацця выбаркі. Чым багацейшая выбарка ў лексічных адносінах, тым ніжэй размяшчаецца на графіку дадзеная пра226
мая. Пры гэтым выбаркі, складзеныя з тэкстаў аднаго тыпу, маюнь блізкія значэнні параметра к, або к'~2,3к.
Па даных частотнага слоўніка беларускай мастацкай прозы былі вылічаны значэнні параметраў выбаркі а0 і к', якія ўваходзяць у формулу (8). Абагульнены паказчык лексічнага багацця для выбаркі, складзенай з беларускай мастацкай прозы (х=290 000; у = 21 754), аказаўся роўным
a = — 0,00135 + 0,0088 1g х.
Той жа паказчык для ўкраінскай мастацкай прозы (х= 100 000; Улекс = 13 954; а = 0,1135; Ь = 0,34) роўны
а=0,00466+0,0091 1g х.
Такім чынам, значэнні параметра к' у двух выпадках блізкія паміж сабой і прыкладна роўныя 0,009.
Разлікі, заснаваныя на доследных даных, паказваюць, што для звязнага тэксту прырост новых слоў апісваецца той жа формулай, што і для выпадкова складзенай выбаркі, але з іншымі значэннямі параметраў ао і к':
ат = аот + к'Igx. (10)
Тут велічыня х абазначае даўжыню звязнага тэксту; аОт, к'т — параметры тэксту.
Як паказваюць разлікі, для аднародных тэкстаў адносіны рк'т«1,5.
На падставе апошняй роўнасці для беларускай мастацкай прозы знаходзім:
Пры х=290 000, у=21 754 па формуле (9) маем: ат = 0,04672. Пачатковая ардыната аОт вызначыцца па формуле:
аот = ат—к'т 1g х = 0,04672 —0,0059 • 1g 290.000 = 0,0145.
Такім чынам, маем
ат = 0,0145 + 0,0059 1g х. (11)
Цяпер па формуле (8) з улікам апошняга ўраўнення можна разлічыць залежнасць паміж даўжынёй звязнага тэксту х і аб’ёмам слоўніка у для беларускай мастацкай прозы. Акрамя таго, форму
227
ла (8) дазва ляе вылічваць імавернасць з’яўленн я новага слова
у звязным тэксце даужынем х
Рх(А) dy
dx ’
а таксама вызначаць накопленую імавернасць у розных слоў [3]
F(y) = 1— dx
Дыферэнцыруючы выраз (8 ) па х (з улікам 10)), атрымаем
dy У f 'п М і аот In '| (12)
dx X \ In X / V ' 2
У табліцы 9 прыведзены вынікі разлікаў па формулах (8), (11)
і (12), а таксама некаторыя доследныя значэнні у для рускай мовы.
Т а б л і ц a 9
“т РХ(А) У Па даных:
з доследу аўтар, год
10 000 0,0381 2 770 0,187
20 000 0,0399 4 380 0,143
30 000 0,0409 5 700 0,120
50 000 0,0422 7 860 0,097
100 000 0,0440 11 890 0,070
120 000 0,0445 13 180 0,063 14 208 Л. Н. Засорына, 1966
200 000 0,0458 17 650 0,049
300 000 0,0468 22 170 0,040
400 000 0,0475 25 800 0,034 24 224 Э. А. Штэйн
фельдт, 1963
500 000 0,0481 29 170 0,031
1 000 000 0,0499 41 350 0,021 41 115 Н. Josselson,
1953
2 000 000 0,0517 58 350 0,014
3 000 000 0,0527 70 860 0,011
5 000 000 0,0540 89 280 0,008
10 000 000 0,0558 120 570 0,005
228
Як відаць з табліцы, тэарэтычныя і доследныя даныя блізкія паміж :сабой.
ЛІТАРАТУРА
1. Частотный словарь современной украннской художественной прозы (пробная тетрадь). Отв. ред. В. 14. Перебейнос. Кяев, 1969.
2. Н е ш ы т о й В. В. Лексічная параметрызацыя тэксту.— «Beepi АН БССР», серыя грамадскіх навук, 1973, № 4, с. 94—104.
3. Неш ытой В. В. Закон размеркавання імавернасцей падзей і статыстыка тэксту.— «Весці АН БССР», серыя грамадскіх навук, 1972, № 4, с. 101—113.
ЗМЕСТ
УВОДЗІНЫ................................ з
ЧАСТОТНЫ СПІС СЛОУ......................25
АЛФАВІТНЫ СПІС СЛОУ 3 ЧАСТАТОЙ 31 I ВЫШЭЙ (1002 словы)...........................203
Дадатак: В. В. НЕШЫТОЙ. МАТЭМАТЫЧНЫ КАМЕНТАРЫЙ ДА СЛОУНІКА......................221
Мажэйка Н. С., Супрун А. Я.
М 13 Частотны слоўнік беларускай мовы. Мастацкая проза. Мн., Выдва БДУ, 1976.
232 с. з іл.
У слоўніку прыводзяцца паказчыкі аб ужывальнасці 22 тыс. слоў у сучаснай беларускай прозе. Выкарыстанне дадзеных частотнага слоўніка будзе спрыяць вырашэнню пытанняў аб функцыяніраванні лексікі сучаснай беларускай мовы, аб яе структуры, суадносінах асобных лексічных груп і г. д.
Слоўнік разлічаны на настаўнікаў роднай мовы, спецыялістаўмовазнаўцаў і літаратуразнаўцаў, студэнтаўфілолагаў.
70105—025
ММ317—76
56—76
4 Бел(ОЗ)
На белорусском языке
Надежда Семеновна Можейко, Адам Евгеньевйч Супрун
ЧАСТОТНЫЙ СЛОВАРЬ БЕЛОРУССКОГО
ЯЗЫКА (художественная проза)
Нздательство Белорусского государственного уннверснтета нм. В. JI. Леннна. Мннск, ул. Кнрова, 24.
Рэдактар А. М. Ляпіч. Вокладка Ул. I. Папова. Мастацкі рэдактар Л. Г. Мядзведэева. Тэхнічны рэдактар Г. М Романчук. Карэктар В. А. Ждановіч.
АТО1?^; Здзлзекз Ў набор 4/1 1976 г. Падпісана да друку 8/1V 1976 г. Фармат 70Х108'/з2 Папера друкарская № 1. “м др*к арк 10’15 улвыд. арк. 9,87. Тыраж 5650 экз. Заказ 27. Цана 30 кап.
Ордэна Працоўнага Чырвонага Сцяга друкарня выдавецтва ЦК КП Беларусі. Мінск, Ленінскі праспект, 79.