WWW.NEW.PDFM.RU
БЕСПЛАТНАЯ  ИНТЕРНЕТ  БИБЛИОТЕКА - Собрание документов
 

«ОТДЕЛЕНИЕ ФИЗИКО-МАТЕМАТИЧЕСКИХ, ХИМИЧЕСКИХ, ГЕОЛОГИЧЕСКИХ И ТЕХНИЧЕСКИХ НАУК №4 (153), 2013 г. ИНФОРМАТИКА УДК 81’322::811.222.8::519.25 З.Д.УСМАНОВ, М.ДОВУДОВ* АЛГОРИТМ ...»

ИЗВЕСТИЯ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН

ОТДЕЛЕНИЕ ФИЗИКО-МАТЕМАТИЧЕСКИХ, ХИМИЧЕСКИХ,

ГЕОЛОГИЧЕСКИХ И ТЕХНИЧЕСКИХ НАУК

№4 (153), 2013 г .

ИНФОРМАТИКА

УДК 81’322::811.222.8::519.25

З.Д.УСМАНОВ, М.ДОВУДОВ*

АЛГОРИТМ ПРЕДСТАВЛЕНИЯ ТАДЖИКСКИХ

СЛОВОСОЧЕТАТЕЛЬНЫХ СЛОВОФОРМ ФРАГМЕНТАМИ

ПРЕДЛОЖЕНИЙ

Институт математики им. А.Джураева АН Республики Таджикистан, *Худжандский политехнический институт Таджикского технического университета им. академика М.С.Осими Поступила в редакцию 15.11.2013 г .

Рассматриваются таджикские словоформы, не соотносимые к каким-либо частям речи .

Предлагается алгоритм для формирования словосочетания, эквивалентного по смыслу заданной словоформе .

Ключевые слова: таджикский язык – словоформа – постфикс – словосочетание – алгоритм – автоматизация .

В таджикском языке будем различать три типа постфиксов – словоизменительные, словообразовательные и “словосочетательные” .

Словоизменительный постфикс выделяет из списка словоформ вполне определённой лексемы одну словоформу с присущими ей грамматическими категориями. Словоизменения, порождаемые такими постфиксами, выражают неопределенность (шаре), уменьшительность (хонача), степени сравнения (сурх-сурхтар-сурхтарин-сурхак), спряжения по лицам (рафтам-рафтї-рафт…), изменения по времени (кардам-кардаам…) и по числам (одам-одамон…) и т.д .

Словообразовательный постфикс своим присоединением к основе слова создаёт производное слово, основа которого образована от исходной основы, связывается с ней по смыслу и объясняется ею (кор-коргар, омўз-омўзиш, мард-мардона) .

Постфикс, присоединение которого к основе слова образует словоформу, эквивалентную по смыслу сочетанию слов, назван нами словосочетательным (бароятон = барои Адрес для корреспонденции: Усманов Зафар Джураевич. 734063, Республика Таджикистан, г. Душанбе, пр. Айни, 299/1, Институт математики АН РТ. E-mail: zafar-usmanov@rambler.ru .

шумо; китобамрову = китоби манро ва; гуфтатон = гуфти шумо; чорам = чори ман, … ), а содержащая такой постфикс словоформа – словосочетательной. Очевидно, что словоформы такого типа не могут быть отнесены к какой-либо части речи .

1. Парадигмообразующие постфиксы. Произвольный постфикс PS таджикского языка целесообразно представлять в виде конкатенации PS PS 1 PS 2 суффикса PS 1 и окончания PS 2 (иными словами, соответственно в виде парадигмообразующего и парадигмоформирующего постфиксов). Не останавливаясь на подробном описании множества PS 1, отметим, что на данный момент нами выявлено 2935 его элементов, причём все они представляют собой либо словоизменительные, либо словообразовательные постфиксы. Добавим к сказанному, что парадигмообразующие постфиксы PS 1 состоят не более чем из 5 простых постфиксов .

2. Парадигмоформирующие постфиксы, обозначаемые через PS 2, в общем случае являются составными, сформированными из простых постфиксов. Последние, в соответствии с грамматикой таджикского языка, классифицируются как VE (verb ending) – личные окончания глаголов (+ам, +ям, +ї, +ад, +яд, +ем, +ед, +анд, +янд);

PE (predicative ending) – предикативные окончания (+ам, +ям, +ї, +аст, +яст, +ст, +ем, +ед, +анд, +янд);





E (pronominal enclitic) – местоименные энклитики (+ам, +ат, +аш, +амон, +атон, +ашон, +ям, +ят, +яш, +ямон, +ятон, +яшон);

PP (postposition) – послелог (+ро);

UN (union) – союзы (+у, +ю, +ву);

I (izafet) – изафет (+и) .

Допустимые порядки их присоединения друг к другу в согласии с грамматикой таджикского языка представлены на рисунке в графическом виде .

В рисунок включены два дескриптора с именами PS 2 – постфикс и END. Они не являются узлами графа и предназначены только для того, чтобы исходящими от них стрелками отметить, соответственно, первый и последний простые постфиксы в структуре составного постфикса. Прочие стрелки являются рёбрами графа, указывающими порядок следования простых постфиксов .

Используемое нами определение отлично от общепринятого, в котором словосочетание – это соединение двух или нескольких знаменательных слов, связанных по смыслу и грамматически, служащее для расчленённого обозначения единого понятия .

–  –  –

Что касается описания всего многообразия PS 2 - постфиксов, то оно получается путём подстановок всевозможных значений, которые могут принимать простые постфиксы, в указанные в таблице 1 структуры. Формальное выполнение такой процедуры выявляет 1492 элемента множества { PS 2 }, однако экспертный анализ, основанный на действующей грамматике таджикского языка, сужает круг реальных PS 2 - постфиксов до 344 элементов (см. табл. 2) .

Таблица 2 Список парадигмоформирующих постфиксов Уровень Постфикс Число +ї, +ад, +ам, +амон, +анд, +аст, +ат, +атон, +аш, +ашон, +ву, +ед, 1 +ем, +и, +ро, +ст, +у, +ю, +яд, +ям, +ямон, +янд, +яст, +ят, +ятон, 27 +яш, +яшон +ад-ам, +ад-амон, +ад-ат, +ад-атон, +ад-аш, +ад-ашон, +ад-у, +ам-ї, +ам-анд, +ам-аст, +ам-ат, +ам-атон, +ам-аш, +ам-ашон, +ам-ед, +амем, +амон-ї, +амон-ам, +амон-анд, +амон-аст, +амон-ед, +амон-ем, +амон-ро, +амон-у, +ам-ро, +ам-у, +анд-ї, +анд-ам, +анд-амон, +анд- ат, +анд-атон, +анд-аш, +анд-ашон, +анд-у, +аст-у, +ат-ї, +ат-ам, +ат- анд, +ат-аст, +ат-ед, +ат-ем, +атон-ї, +атон-ам, +атон-анд, +атон-аст, +атон-ед, +атон-ем, +атон-ро, +атон-у, +ат-ро, +ат-у, +аш-ї, +аш-ам, +аш-анд, +аш-аст, +аш-ед, +аш-ем, +ашон-ї, +ашон-ам, +ашон-анд, +ашон-аст, +ашон-ед, +ашон-ем, +ашон-ро, +ашон-у, +аш-ро, +аш-у, +ї-ву, +ед-ам, +ед-амон, +ед-аш, +ед-ашон, +ед-у, +ем-ат, +ем-атон, 2 +ем-аш, +ем-ашон, +ем-у, +ро-ву, +ро-ст, +ро-ю, +ст-ї, +ст-ам, +ст- 158 анд, +ст-ед, +ст-ем, +ст-у, +ї-ю, +яд-ам, +яд-амон, +яд-ат, +яд-атон, +яд-аш, +яд-ашон, +яд-у, +ї-ям, +ям-ї, +ям-анд, +ям-аст, +ям-ат, +ям- атон, +ям-аш, +ям-ашон, +ям-ед, +ям-ем, +ї-ямон, +ямон-ї, +ямон-ам, +ямон-анд, +ямон-аст, +ямон-ед, +ямон-ем, +ямон-ро, +ямон-у, +ям- ро, +ям-у, +янд-ам, +янд-амон, +янд-ат, +янд-атон, +янд-аш, +янд- ашон, +янд-у, +яст-у, +ят-ї, +ят-ам, +ят-анд, +ят-аст, +ят-ед, +ят-ем, +ятон-ї, +ятон-ам, +ятон-анд, +ятон-аст, +ятон-ед, +ятон-ем, +ятон-ро, +ятон-у, +ят-ро, +ят-у, +ї-яш, +яш-ї, +яш-ам, +яш-анд, +яш-аст, +яш- ед, +яш-ем, +ї-яшон, +яшон-ї, +яшон-ам, +яшон-анд, +яшон-аст, +яшон-ед, +яшон-ем, +яшон-ро, +яшон-у, +яш-ро, +яш-у +ї-ямон-у, +ї-ям-у, +ї-яшон-у, +ї-яш-у, +ад-амон-у, +ад-ам-у, +ад- атон-у, +ад-ат-у, +ад-ашон-у, +ад-аш-у, +ам-ї-ву, +ам-ї-ю, +ам-анд-у, +ам-аст-у, +ам-атон-у, +ам-ат-у, +ам-ашон-у, +ам-аш-у, +ам-ед-у, +ам- ем-у, +амон-ї-ву, +амон-ї-ю, +амон-ам-у, +амон-анд-у, +амон-аст-у, +амон-ед-у, +амон-ем-у, +амон-ро-ву, +амон-ро-ю, +ам-ро-ву, +ам-ро- ю, +анд-ї-ву, +анд-ї-ю, +анд-амон-у, +анд-ам-у, +анд-атон-у, +анд-ат- у, +анд-ашон-у, +анд-аш-у, +ат-ї-ву, +ат-ї-ю, +ат-ам-у, +ат-анд-у, +ат- аст-у, +ат-ед-у, +ат-ем-у, +атон-ї-ву, +атон-ї-ю, +атон-ам-у, +атон- анд-у, +атон-аст-у, +атон-ед-у, +атон-ем-у, +атон-ро-ву, +атон-ро-ю, +ат-ро-ву, +ат-ро-ю, +аш-ї-ву, +аш-ї-ю, +аш-ам-у, +аш-анд-у, +аш- аст-у, +аш-ед-у, +аш-ем-у, +ашон-ї-ву, +ашон-ї-ю, +ашон-ам-у, +ашон-анд-у, +ашон-аст-у, +ашон-ед-у, +ашон-ем-у, +ашон-ро-ву, +ашон-ро-ю, +аш-ро-ву, +аш-ро-ю, +ед-амон-у, +ед-ам-у, +ед-ашон-у, 3 +ед-аш-у, +ем-атон-у, +ем-ат-у, +ем-ашон-у, +ем-аш-у, +ро-ст-у, +ст-ї- 159 ву, +ст-ї-ю, +ст-ам-у, +ст-анд-у, +ст-ед-у, +ст-ем-у, +яд-амон-у, +яд-ам- у, +яд-атон-у, +яд-ат-у, +яд-ашон-у, +яд-аш-у, +ям-ї-ву, +ям-ї-ю, +ям- анд-у, +ям-аст-у, +ям-атон-у, +ям-ат-у, +ям-ашон-у, +ям-аш-у, +ям-ед- у, +ям-ем-у, +ямон-ї-ву, +ямон-ї-ю, +ямон-ам-у, +ямон-анд-у, +ямон- аст-у, +ямон-ед-у, +ямон-ем-у, +ямон-ро-ву, +ямон-ро-ю, +ям-ро-ву, +ям-ро-ю, +янд-амон-у, +янд-ам-у, +янд-атон-у, +янд-ат-у, +янд-ашон- у, +янд-аш-у, +ят-ї-ву, +ят-ї-ю, +ят-ам-у, +ят-анд-у, +ят-аст-у, +ят-ед- у, +ят-ем-у, +ятон-ї-ву, +ятон-ї-ю, +ятон-ам-у, +ятон-анд-у, +ятон-аст- у, +ятон-ед-у, +ятон-ем-у, +ятон-ро-ву, +ятон-ро-ю, +ят-ро-ву, +ят-ро- ю, +яш-ї-ву, +яш-ї-ю, +яш-ам-у, +яш-анд-у, +яш-аст-у, +яш-ед-у, +яш- ем-у, +яшон-ї-ву, +яшон-ї-ю, +яшон-ам-у, +яшон-анд-у, +яшон-аст-у, +яшон-ед-у, +яшон-ем-у, +яшон-ро-ву, +яшон-ро-ю, +яш-ро-ву, +яш-ро-ю, В этой таблице PS 2 - постфиксы разделены на три группы по уровням сложности (простые, двухсложные и трёхсложные) и для наглядности представлены в разделённом на простые постфиксы виде. Отметим также, что элементы множества PS 2 состоят не более чем из 3-х простых постфиксов .

3. Распознавание морфов таджикских словоформ WF. С помощью разработанного авторами статьи морфораспознавателя – полуавтоматической итеративной процедуры, предназначенной для формирования базы морфов таджикского языка на основе обработки текстового файла, см.[1,2,3], – любая таджикская словоформа в общем случае представляется в форме

WF PR R PS 1 PS 2,

где PR – префикс, R – корень, PS 1 и PS 2, соответственно, словоизменительный (или словообразовательный) и словосочетательный постфиксы .

4. Алгоритм для представления словосочетательной словоформы фрагментом предложения. При анализе произвольной словоформы WF будем различать случаи отсутствия или наличия в ней постфикса PS 2. В первом случае алгоритм оставляет словоформу неизменной, поскольку она является результатом словоизменения или же словообразования некоторой основы. В обоих случаях словоформа относится к определённой части речи .

Во втором случае словоформа переписывается в виде

–  –  –

Из таблицы видно, что постфикс PS 2 в словоформе (1) может принимать любое из 20 значений, указанных во втором столбце. Фрагмент предложения, эквивалентный по смыслу рассматриваемой словоформе, даётся в 3-м столбце. Границы фрагмента отмечены фигурными скобками. Внутри них символ обозначает соединения без пробела цепочки букв, расположенных до и после символа. Пробелы между словами для наглядности отмечены вертикальным отрезком. Примеры, поясняющие содержание фрагментов предложений, даются в 4-м столбце. В них в левой позиции приводятся словоформы, а в правой, с применением знака равенства, выписывается эквивалентный фрагмент предложения. Как видно из таблицы, в случае когда PS 2 - постфикс принимает значения I, VE или PP, соответствующие им словоформы являются результатами словоизменения и потому не имеют отношения к фрагментированию .

Отметим также, что обозначение PRN(X), используемое в ячейках столбца 2, определяет функцию, заданную на элементах множеств E,PE, VE, то есть на местоименных энклитиках, предикативных окончаниях и личных окончаниях глаголов. Отображение, осуществляемое этой функцией, характеризуется таблицей 4 .

Рассмотренный алгоритм реализован в виде компьютерной программы, выполняющей автоматическое представление словосочетательной словоформы эквивалентным по смыслу сочетанием слов .

–  –  –

Исследования настоящей статьи поддерживаются грантом 8749 Фонда Сороса .

Л И Т ЕРАТ У РА Усманов З.Д., Солиев О.М., Довудов Г.М. О множестве постфиксов таджикского литературного языка. – Доклады Академии наук Республики Таджикистан, 2010. т.53, № 2, с. 99 -103 .

Усманов З.Д., Довудов Г.М. О статистических закономерностях морфемной базы таджикского 2 .

языка. – Доклады Академии наук Республики Таджикистан, 2010. т.53, № 3, с.188-191 .

Усманов З.Д., Довудов Г.М. Частотный морфемный словарь таджикского литературного языка .

3 .

– Доклады Академии наук Республики Таджикистан, 2010. т.53, № 4. с.257-262 .

З.Љ.УСМОНОВ, Г.М.ДОВУДОВ*

АЛГОРИТМИ ТАБДИЛДИЊИИ КАЛИМАЊОИ МАЉМЎИИ ЗАБОНИ

ТОЉИКЇ БА ФРАГМЕНТИ ЉУМЛА

–  –  –

ба номи академик М.С.Осими дар ш. Хуљанд Дар маќола калимањои забони тољикї, ки баробарвазни фрагменти љумла буда, ба ягон њиссаи нутќ мутаалиќ нестанд, мавриди омўзиш ќарор гирифтаанд .

Алгоритми табдили калимањои мазкур ба фрагменти љумла, ки аз рўи мазмун ба он мутаносиб аст, оварда мешавад .

Калимањои калидї: забони тољикї – калима – постфикс – калимањои маљмўї – алгоритм – автоматиронї .

–  –  –

A.Juraev Institute of Mathematics, Academy of Sciences of the Republic of Tajikistan, *Khujand’s Polytechnic Institute of M.S.Osimi Tajik Technical University The subjects of our discussion are Tajik word forms not related to any of the parts of speech. We offer an algorithm for constructing a piece of phrase, equivalent in meaning to the given word form.


Похожие работы:

«Министерство образования и науки Российской Федерации федеральное государственное автономное образовательное учреждение высшего образования "НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ТОМСКИЙ ПОЛИТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ" Институт кибернетики Направление подготовки 09.03.01 И...»

«Баранова Татьяна Витальевна Флорентийская мозаика в России середины ХIХ начала ХХI веков: Петергоф, Екатеринбург, Колывань Специальность 17.00. 04 – изобразительное и декоративно-прикладное искусство и архитектура Авторе...»

«Schmidt Hammer 225 Руководство по эксплуатации Склерометр Модель: Schmidt Hammer 225 Производитель: ADAINSTRUMENTS Адрес: WWW.ADAINSTRUMENTS.COM Schmidt Hammer 225 Оглавление 1. Назначение изделия...........»

«МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ, МЕХАНИКИ И ОПТИКИ ВЕСТНИК II МЕЖВУЗОВСКОЙ КОНФЕРЕНЦИИ МОЛОДЫХ УЧЕНЫХ Сборник научных трудов Том O САНКТ-ПЕТЕРБУРГ OMMR Выпуск содержит ма...»

«9. Реализация программы дальнейшей информатизации университета, формирования базовых основ "Электронного университета" Электронное и дистанционное обучение Продолжились организационные и технические работы по дальнейшему развитию и модернизации Электронной образовател...»

«МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ Государственное образовательное учреждение высшего профессионального образования "НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ТОМСКИЙ ПОЛИТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ" ИНСТИТУТ ГЕОЛОГИИ И НЕФТЕГАЗОВОГО ДЕЛА _ СТУДЕНЧЕСКИЙ ЧАПТЕР МЕЖДУНАРОДНОГО ОБЩЕСТВА ИНЖЕНЕРОВ-НЕФТЯНИКОВ, г....»

«Ипполитов Владимир Александрович СОЦИАЛЬНО – ПОЛИТИЧЕСКИЕ АСПЕКТЫ ДЕЯТЕЛЬНОСТИ СЕЛЬСКОГО КОМСОМОЛА ЦЕНТРАЛЬНОГО ЧЕРНОЗЕМЬЯ В 1930 – 1935 ГОДАХ Специальность 07.00.02 – Отечественная истор...»

«Система непрерывного профессионального образования ФГУП "ГосНИИАС" как опыт построения корпоративной образовательной среды Описание результатов образовательной деятельности, представленных на конкурс на соискание премии "Авиастроитель года" 2015 года в номинации "За подготовку нового поколения специалистов авиастроитель...»








 
2018 www.new.pdfm.ru - «Бесплатная электронная библиотека - собрание документов»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.