Частотны слоўнік беларускай мовы
Выдавец: Выдавецтва БДУ
Памер: 232с.
Мінск 1976
Н. С. МАЖЭЙКА, А. Я. СУПРУН
ЧАСТОТНЫ СЛОЎНІК БЕЛАРУСКАЙ МОВЫ
МАСТАЦКАЯ ПРОЗА
ВЫДАВЕЦТВА БДУ імя У. I. ЛЕНІНА
МІНСК 1976
4 Бел(ОЗ) М 13
70105—025
М 317—76
56—76
© Выдавецтва БДУ імя У. I. Леніна, 1976 г.
УВОДЗІНЫ
Галоўная функцыя мовы як важнейшага сродку зносін паміж людзьмі ажыццяўляецца шляхам пабудовы і абмену тэкстаў. Кожнае паведамленне, якое людзі перадаюць адзін другому пры дапамозе мовы, прымае форму тэксту. Тэксты — гэта і рэпліка ў дыялогу, і маналог, і верш, і нарыс у газеце, і вялікі раман. Мова існуе для Taro, каб ствараць і перадаваць тэксты. Даўжыня тэкстаў, іх колькасць у той ці іншай мове практычна могуць быць бясконцыя. А колькасць моўных адзінак (напрыклад, гукаў (фанем) ці літар), пры дапамозе якіх могуць быць пабудаваны гэтыя незлічоныя тэксты, абмежаваная. Яна не перавышае некалькіх дзесяткаў. Толькі адзін чалавек на працягу года будуе і ўспрымае тэксты колькасцю не менш як паўтарадва мільёны гукаў! Калі ж улічыць, што мовай карыстаюцца некалькі мільёнаў чалавек на працягу многіх стагоддзяў, то тэксты, якія будуюцца пры дапамозе сарака гукаў ці літар, патрэбна вымяраць ужо мільярдамі і яшчэ большымі лічбамі адзінак мовы. Так, паводле вельмі прыблізных падлікаў, за год на беларускай мове ўтвараюцца і ўспрымаюцца тэксты даўжынёй у 10 000 000 000 000 гукаў. Калі прыняць сярэднюю даўжыню слова за 7 гукаў (а так прыблізна і ёсць), то аказваецца, што гэта складае каля 1 500 000 000 000 слоў. Між тым, колькасць розных слоў, якія ўжываліся для стварэння гэтых тэкстаў, наўрад ці перавышае 200 тыс. (нагада■ ем, што ў найбольшы з беларускіх слоўнікаў—«Беларускарускі слоўнік» 1962 г.—уключана каля 90 тыс. слоў,
3
а ў Беларускую савецкую энцыклапедыю—палова гэтай колькасці слоўнікавых артыкулаў). Гэта значыць, што ў працэсе параджэння тэкстаў словы паўтараюцца. Аднак паўтарэнне слоў зусім не раўнамернае.
Калі падзяліць прыведзеную лічбу 1,5 трыльёна словаўжыванмяў, з якіх складаюцца беларускія тэксты, створаныя і ўспрынятыя за год, на аб’ём слоўніка (200 тыс. слоў), то выйдзе, што кожнае слова ўжывалася 7,5 млн. разоў. На самай справе гэта не так. Некаторыя словы выкарыстоуваюцца надзвычай рэдка, а іншыя словы — па некалькі разоў у дзень кожным з нас. Гэта зусім зразумела. Некаторыя словы, як, напрыклад, квінтэсенцыя, абсівераны, пагрэбнік, выкарыстоўваюцца ў абмежаванай колькасці выпадкаў. А іншыя, такія, як чалавек, дзень, рабіць, казаць, ужываюцца надзвычай часта; магчыма, што кожнаму носьбіту беларускай мовы такімі словамі прыходзіцца карыстацца штодзённа ў розных сітуацыях.
Колькасць ужыванняў таго ці іншага слова ў тэкстах вызначанай даўжыні, яго частата, з’яўляецца важнай характарыстыкай слова. Чым часцей слова ўжываецца, тым часцей яго трэба ўспомніць, каб уключыць у тэкст, ці зразумець тэкст, тым лягчэй і хутчэй яно павінна адшуквацца ў памяці. Есць падставы меркаваць, што частата слоў своеасабліва ўплывае на захаванне слоў у памяці. А гэта азначае, што частотнасць слоў мае наогул істотнае значэнне для ўтварэння слоўніка мовы чалавека. Папершае, слоўнік арганізаваны адпаведна семантычным прызнакам. Пры гэтым словы складаюцца ў семантычныя групы (напрыклад, у групы назваў дзён тыдня: панядзелак, аўторак, серада, чацвер і г. д.), потым — у семантычныя мікрасістэмы (напрыклад, назвы розных з’яў надвор’я: мароз, спёка, дождж, снег, шэрань, раса, туман, завея, вецер, ураган, хмара, навальніца, маланка і г. д.), семантычныя палі і г. д. Падругое, у рамках семантычных груповак рознага рангу словы раз
4
мяркоўваюцца адпаведна іх частаты. Так, напрыклад, словы снег, дождж, вецер, хмара адносяцца да ліку найбольш частых слоў беларускай мовы; яны сустракаюцца ў сярэднім часцей аднагодвух разоў на дзесяць тысяч словаўжыванняў; радзей іх, але ўсё ж даволі часта сустракаюцца словы надвор’е, туман, мароз; яшчэ радзей — такія словы, як раса, шэрань, завея; такія ж словы, як тайфун ці пурга, ўжываюцца зусімрэдка, звычайна ў спецыяльных тэкстах, а ўюга, вея, дуйка адзначаюцца як дыялектныя сінонімы літаратурных слоў завея, завіруха, мяцеліца і іх ужыванне абме.жавана пэўнымі тэрытарыяльнымі рамкамі. Такім чынам, I семантычная мікрасістэма назваў з’яў надвор’я складаецца^ў беларускай мове (як і ў іншых мовах) са слоў рознайчастотііасці. Нярэдка ў семантычных сукупнасцях слоў можна выдзеліць больш частотнае, шырока ўжывальнае ядро і менш частотную, а значыць менш ужывальную перыферыю. I ядро і перыферыя слоўніка выконваюць свае функцыі. Без ядра немагчыма пабудаваць ніякага тэксту. Ядро слоўніка роднай мовы перш за ўсё асвойваюць дзеці, а таксама дарослыя, якія вывучаюць чужую мову стыхійна. Пры мэтанакіраваным вывучэнні чужой мовы, а таксама роднай мовы ў школе неабходна перш за ўсё звярнуць увагу на асваенне ядра слоўніка. Але толькі словамі, што ўтвараюць ядро слоўніка, немагчыма абысціся ў жыцці. Калі нам даводзіцца весці размову на тую ці іншую канкрэтную тэму, мы карыстаемся словамі, абавязкова выходзячы за межы ядра слоўніка. Замест спалучэння снег і вецер, апісваючы нейкую жыццёвую сітуацыю, мы выкарыстаем словы завіруха, завея, мяцеліца. Калі ж мы будзем расказваць пра падзеі на далёкай Поўначы, мы звернемся да слова пурга. Багацце мовы асобнага аўтара, асобнага твора вызначаецца найбольш поўным выкарыстаннем усіх слоўнікавых магчьр масцей агульнанароднай мовы, а значыць, І большай колькасцю розных слоў у адпаведных тэкстах. I тут ужо
5
немагчыма абысціся без слоў рэдкіх, такіх, што адносяцца да перыферыі слоўніка.
Па колькасці розных слоў ядро слоўніка адносна невялікае. Але словы гэтыя ўжываюцца надзвычайна часта. Відаць, 80—90% тэкстаў складаюць словы, што належаць да ядра слоўніка; такіх слоў ад адной да трох тысяч, гэта значыць 1% слоўніка. Астатнія 10—20% тэкстаў ўтвораны са слоў, якія ўжываюцца рэдка, але ў лексіконе складаюць яго пераважную большасць, 95—99%.
3 мэтай выявіць ядро слоўніка і параўнаць яго з перыферыяй і складаюцца перш за ўсё частотныя слоўнікі. Пры гэтым трэба ўлічваць, што для характарыстыкі розных жыццёвых падзей, з’яў рэчаіснасці мы, зразумела, карыстаемся рознымі словамі, што абазначаюць асобныя фрагменты рэчаіснасці. Трэба ўлічваць і тое, што розныя моўныя сродкі, у тым ліку словы, ужываюцца ў адпаведнасці з мэтазгоднасцю тэкстаў, з іх жанравымі асаблівасцямі. Адна і тая ж падзея парознаму будзе апісана ў дзелавым рапарце, у прыватным лісце, у апавяданні сведкі ці ў мастацкім творы.
Таму частотныя слоўнікі ствараюцца не для аналізу мовы наогул, ці дакладней, не толькі для мовы наогул, a для аналізу асобных разнавіднасцей тэкстаў, для статыстычнага даследавання пэўных перыядаў у функцыяніраванні і развіцці мовы.
Наш частотны слоўнік сучаснай беларускай мовы мяркуецца скласці з частак, прысвечаных аналізу тэкстаў мастацкай прозы, публіцыстыкі і дзелавых жанраў савецкага, у асноўным пасляваеннага часу. ёсць задума падрыхтаваць частотны слоўнік паэзіі, а таксама вуснаразмоўных тэкстаў. У першую чаргу мы звярнуліся да мовы мастацкай прозы, таму што менавіта тут найбольш разнастайна і шырока адлюстравана агульнанародная мова.
Пры складанні частотнага слоўніка неабходна ўлічваць, што частотнасць слова ў пэўным тэксце не заўсёды супадае з яго ўжывальнасцю ва ўсёй сукупнасці тэкстаў
на дадзенай мове: у асобным тэксце адлюстроўваецца і канкрэтная тэма, і асаблівасці мовы аўтара і іншыя суб’ектыўныя фактары. Таму нельга спадзявацца, што слоўнік аднаго тэксту, нават такога разнастайнага і вялікага, як, напрыклад, трылогія Якуба Коласа ці раманы Мележа, Лынькова, Шамякіна або іншых аўтараў, дасць уяўленне пра агульную частотнасць лексікі беларускай мовы. Так, напрыклад, у «Атлантах і карыятыдах» шырока прадстаўлена лексіка дойлідства і будаўніцтва, у «Векапомных днях» — ваенная лексіка, у дылогіі Мележа шмат палескіх дыялектызмаў. Таму частотны слоўнік складаецца на базе асобных фрагментаў (выбарак) па тысячы слоў, якія бяруцца з розных твораў (у выпадку выдатных твораў —з розных месц аднаго твора) розных аўтараў. Пры кожным слове, якое было ўжыта ў абследаваных урыўках і таму трапіла ў частотны слоўнік, указваецца не толькі яго абсалютная частата ў нашым матэрыяле, але і колькасць фрагментаў, у якіх было ўжыта слова. Гэта дае больш шырокую характарыстыку распаўсюджання слова. Можна лічыць, што слова з аднолькавай частатой, але такое, якое сустрэлася ў большай колькасці фрагментаў, больш пашырана, чым слова з той самай частатой, але ўжытае ў меншай колькасці фрагментаў.
Пры складанні частотных слоўнікаў неабходна ўлічваць некаторыя агульнастатыстычныя заканамернасці. Як ужо адзначана, агульны аб’ём тэкстаў, якія пабудаваны на дадзенай мове, надзвычай вялікі, практычна невычарпальны. Таму неабходна было з гэтай вялікай сукупнасці моўных фактаў адабраць некаторую абмежаваную, з аднаго боку, дастатковую, а з другога — даступную для аналізу колькасць тэкстаў. Як вызначыць такую колькасць? Мы ўжо адзначалі, што ядро слоўніка складаецца прыблізна з дзвюх ці трох тысяч найбольш частых слоў. У тэкстах гэтыя словы ўжываюцца надзвычай часта і складаюць да 90% тэксту. Выбарка ў 800 тыс.—1 млн. словаўжыванняў, як паказвае вопыт іншых слоўнікаў,
7
дае магчымасць таго, каб кожнае з найбольш частых дзвюх тысяч слоў сустрэлася ў аналізуемым творы не менш чым 40 разоў. Гэта значыць, што памылка выбаркі, магчымасць таго, што ў іншых тэкстах таго ж аб’ёму такая лічба зменіцца, вагаецца ў межах 30% : магчыма, што ў іншай выбарцы гэта слова сустрэнецца не 40, a 27— 53 разы. Такое ваганне забяспечвае дастатковую верагоднасць адбору дзвюх тысяч найбольш частых слоў. А для таго каб забяспечыць адпаведную дакладнасць адбору трох тысяч найбольш частых слоў, патрэбна выбарка ў 1,5—2 млн. словаўжыванняў. Вырашана было таму на дадзеным этапе абмежавацца для складання частотвага слоўніка беларускай мовы аналізам тэкстаў аб’ёмам 900 тыс. словаўжыванняў, які размяркоўваецца паміж трыма жанравастылёвымі групамі тэкстаў. У гэтым, першым выпуску слоўніка аналізуецца 290 фрагментаў мастацкай прозы па тысячы словаўжыванняў. Уласныя імёны і лічэбнікі, пазначаныя лічбамі, не ўключаліся ў падлікі.