Федеральная лезгинская
национально-культурная автономия

Московские лингвисты сохраняют богатство лезгинского языка

В последнее время проекты академической науки становятся ближе к нуждам рядовых граждан. Это касается и лингвистики. В рамках большой программы Российской академии наук «Корпусная лингвистика» развивается проект, посвященный лезгинскому литературному языку. Для того чтобы узнать подробнее о том, какую пользу несет в себе этот проект и ознакомиться с другими исследованиями в этой области мы обратились к руководителю проекта «Корпус лезгинского литературного языка» кандидату филологических наук Дмитрию Ганенкову.

- Дмитрий Сергеевич, расскажите, пожалуйста, подробнее о программе "Корпусная лингвистика" и о проекте в котором Вы участвуете.

- Проект, руководителем и исполнителем которого я являюсь, называется «Корпус лезгинского литературного языка». Организационно он входит в программу «Корпусная лингвистика», а точнее в одно из его направлений по «Созданию и развитию корпусных ресурсов по языкам народов России».

Программа «Корпусная лингвистика» поддержана Президиумом Российской академии наук в 2011 г. Она ставит перед собой довольно широкий спектр задач, одной из главных среди которых является создание языковых корпусов. Что такое корпус языка? Это собрание текстов на данном языке в электронной форме, снабженных дополнительной лингвистической информацией или, как выражаются лингвисты, «разметкой». Не углубляясь в подробности, можно сказать, что в корпусной лингвистике для характеристики корпусов используется два основных параметра: объем корпуса и глубина его разметки. Объем корпуса представляет собой количественную характеристику — это общее число слов во всех текстах, которые включены в данный корпус. Для средних и крупных языков объем корпуса обычно измеряется в миллионах словоупотреблений. Так, объем Национального корпуса русского языка (www.ruscorpora.ru) составляет около 365 млн. словоупотреблений, а Британского национального корпуса (www.natcorp.ox.ac.uk) — около 100 млн. словоупотреблений.

Глубиной разметки называют объем дополнительной лингвистической информации, которой снабжены тексты в корпусе. Разметка может включать только самую базовую грамматическую информацию, например, о части речи каждого слова в корпусе, а может быть гораздо более подробной, например, для существительных — помимо указания части речи, включать также информацию о числе и падежной форме существительного. Естественно, чем более подробной лингвистической разметкой снабжен корпус языка, тем больший диапазон задач можно решать с его помощью и тем легче он в использовании.

Несколько слов следует сказать и о том, зачем вообще нужен корпус. Дело в том, что тексты на языке являются важнейшим источником лингвистического материала, на основании которого делаются выводы о значении и употреблении того или иного слова или грамматической формы. В идеале любой словарь и грамматика языка должны опираться не только на интуицию носителей языка, но и на объективные данные, содержащиеся в текстах на данном языке. В докорпусную эпоху для получения объективной картины, предоставляемой текстами, лингвисту было необходимо просматривать огромное количество книг в поисках нужных ему лексем или грамматических форм и выписывать найденные примеры для дальнейшей систематизации и обработки. Это гигантская по своей трудоемкости и времяёмкости работа. Компьютерный корпус языка облегчает работу в десятки и сотни раз, избавляет исследователя от необходимости физически просматривать тексты. Вместо этого он позволяет за считанные секунды получить необходимый материал, сохранить его в удобном формате и сосредоточиться на собственно лингвистическом анализе языковых явлений, а не на технической работе. Кроме того, в отличие от исследователя-человека компьютерный корпус не может пропустить нужный пример из-за спешки или невнимательности.

- Каковы цели Вашего проекта «Корпуса лезгинского литературного языка» и его значение?

- В течение советского (начиная с 20-х гг. XX-го века) и постсоветского периода на лезгинском литературном языке был опубликован значительное количество прозаических текстов различных жанров (рассказы, повести, романы, сказки, анекдоты, публицистика, духовная литература). Развитие современных компьютерных технологий позволяет использовать эти тексты для детального исследования грамматики и лексики лезгинского языка. Конечной целью моего проекта является создание корпуса лезгинского литературного языка объемом 7-10 млн. словоупотреблений.

В 2011 году мной был создан пилотный вариант корпуса лезгинского литературного языка (доступен в интернете по адресу www.dag-languages.org/LezgianCorpus/search). Это полностью функциональный ресурс объемом около 1 млн. словоупотреблений. В настоящее время корпус включает прозаические произведения таких лезгинских авторов, как Къияс Межидов, Межид Гьажиев, Буба Гьажикъулиев, Гьаким Къурбан и других. Корпус снабжен подробной морфологической разметкой: для каждой словоформы указывается не только лексема и часть речи, но и полная грамматическая характеристика данной словоформы, а также русский и английский переводы лезгинской лексемы. Так, например, словоформе акунач приписана информация о том, что данное слово является отрицательной формой прошедшего времени лексемы акун ‘видеть’. Морфологическая разметка позволяет осуществлять поиск по точной словоформе, по лезгинской лексеме, русскому или английскому переводу лексемы, по грамматическим характеристикам словоформы, а также по любой комбинации этих параметров и по сочетаниям нескольких словоформ на заданном расстоянии друг от друга.

Лезгинский язык является первым дагестанским языком, для которого разработан морфологически размеченный корпус. Из языков Кавказа аналогичные корпуса существуют только для восточноармянского и осетинского языков. Таким образом, в этом отношении лезгинский язык опередил не только другие языки Дагестана, но и такие крупные языки Кавказа, как грузинский, азербайджанский, кабардинский, чеченский и др. Глубина морфологической разметки лезгинского корпуса превосходит имеющиеся корпуса многих крупных языков Европы, например, французского или португальского. Появление такого корпуса выводит работу по исследованию лезгинского языка на совершенно новый уровень, позволяя за мгновения сформировать представительную выборку примеров употребления изучаемых языковых единиц — лексем, грамматических форм, синтаксических конструкций, фразеологизмов. Корпус является, в первую очередь, современным исследовательским инструментом. Поэтому и предназначен он, прежде всего, для ученых-лингвистов, интересующихся проблемами грамматики, лексики и фразеологии лезгинского языка. Не сомневаюсь, однако, что корпус будет полезен также и литературоведам, изучающим особенности языка того или иного писателя. В конце концов, корпус может быть использован любым носителем лезгинского языка и просто как справочная система. Например, если Вас, например, интересуют особенности употребления или сочетаемости какого-нибудь слова, Вы можете задать поиск по данному слову и увидеть, в каком значении и в каких контекстах его употребляют авторитетные лезгинские писатели.

- Почему в качестве одного из языков данного направления «Создание и развитие корпусных ресурсов по языкам народов России» был выбран лезгинский?

- Выбор именно лезгинского языка в каком-то смысле был отчасти случаен. Программа по созданию корпусов, о которой я говорил выше, была рассчитана только на один год. И за этот год необходимо было получить готовый результат, то есть создать полностью работающий интернет-ресурс. Поэтому в программу включались, в первую очередь, те проекты, у которых был определенный задел в этом направлении. И корпус лезгинского языка оказался как раз одним из таких проектов. Дело в том, что впервые мысль о создании корпусов дагестанских языков пришла ко мне около десяти лет назад, когда я участвовал в создании Национального корпуса русского языка. В то время я не располагал необходимыми техническими возможностями для создания полноценного корпуса, но решил в свободное от текущих проектов время начать постепенную подготовку к созданию такого корпуса с мыслью о том, что рано или поздно технические возможности появятся.

Первым шагом на пути к созданию любого корпуса является составление библиотеки текстов в электронной форме. В настоящее время подавляющее большинство текстов на лезгинском литературном языке представлено в печатном виде. Для составления электронной библиотеки было необходимо сканировать книги, распознать сканированные тексты при помощи программы ABBYY Fine Reader, а затем произвести ручную корректуру, поскольку автоматически распознанные тексты содержат некоторое количество ошибок. К концу 2010 года, когда был объявлен конкурс на участие в программе Российской академии наук, в моем распоряжении был довольно большой объем сканированных текстов на лезгинском языке, из которых значительное число было распознано и вычитано. Именно поэтому проект по созданию корпуса лезгинского языка был признан перспективным и включен в программу.

- Как в сфере лично Ваших научных интересов оказался лезгинский язык? Какие еще языки лезгинской группы вы исследовали?

- Мое знакомство с дагестанскими языками началось с изучения агульского языка. Начиная с 2004 года совместно с двумя другими сотрудниками нашего отдела — Солмаз Рамазановной Мердановой и Тимуром Анатольевичем Майсаком — я участвую в проекте по описанию диалектов агульского языка. Лезгинский язык с самого начала привлекал мое внимание как один из наиболее близких к агульскому языку. Поэтому когда ко мне пришла мысль о создании корпуса какого-либо языка, выбор именно лезгинского среди прочих литературных языков Дагестана был закономерен. Признаюсь, что до создания корпуса лезгинский язык не находился в сфере моих активных интересов: я знакомился с грамматикой и лексикой лезгинского языка, однако этим дело и ограничивалось, как таковых научных исследований на материале лезгинского языка я не проводил.

Как я уже сказал, одним из основных моих проектов стал проект по изучению диалектов агульского языка. В своем проекте мы поставили три основные задачи. Во-первых, это аудиозапись оригинальных текстов на агульском языке. Во-вторых, фиксация словарного состава агульского языка, в особенности тех его пластов, которые связаны с традиционной культурой и выходят из употребления. В-третьих, это изучение грамматики агульского языка на современном научном уровне. Особенностью нашего проекта является то, что мы стремимся охватить говоры всех агульских селений, собрать лексический и грамматический материал всех говоров по единой схеме. В настоящее время тексты, грамматика и словарь агульского языка готовятся к публикации.

Кроме этого, я близко знаком еще с двумя языками лезгинской группы. С 2002 года я участвую в проекте по описанию удинского языка, в особенности, его ниджского диалекта, который ранее почти не был изучен. Эта работа ведется совместно с уже упоминавшимся выше сотрудником нашего отдела Тимуром Анатольевичем Майсаком и сотрудником Института востоковедения РАН Юрием Александровичем Ландером. С 2009 года совместно с сотрудницей нашего отдела Натальей Константиновной Богомоловой я принимаю участие в полевом изучении диалектов табасаранского языка.

Все проекты, в которых я принимаю участие, ставят перед собой две цели. Во-первых, перед нами стоит ответственная задача записи и фиксации лезгинских языков. В настоящее время мы еще имеем такую возможность — еще живы носители, которые помнят традиционный уклад жизни и особенности традиционной культуры, которые могут об этом рассказать на говоре своего родного селения. Нет никаких сомнений, что происходит существенное изменение языкового ландшафта Дагестана — уже в самом скором времени под влиянием русского языка будут забыты исконные слова и изменится грамматика дагестанских языков, многие говоры, диалекты и даже языки исчезнут, в общем, Дагестан превратится из горы языков, в лучшем случае, в холм, а то и вовсе в равнину. В такой ситуации мы должны приложить как можно больше усилий, чтобы зафиксировать и сохранить для будущих поколений хотя бы часть этого богатства.

Во-вторых, для лингвиста дагестанские языки представляют собой сокровищницу. Дело в том, что в грамматике дагестанских языков обнаруживаются лингвистические явления, редко или вообще не встречающиеся в других языках мира. Даже в речи жителей небольшого селения может быть обнаружена такая черта или такое сочетание нескольких черт, которое не предусматривается лингвистической теорией. Поэтому для лингвиста изучение грамматики дагестанских языков — это не только описание конкретного языка, но еще и хорошая возможность обнаружить что-то новое и сделать весомый вклад в теорию Языка вообще.

- На какой стадии находится Ваш проект? Он не завершился?

- Формально программа была рассчитана на один год и завершилась в декабре 2011 года. Конечно, за такой короткий срок невозможно создать полномасштабный корпус какого-либо языка. Поэтому хотя проект финансово больше не поддерживается, я не считаю его завершенным. В ближайшее время я собираюсь постепенно расширять корпус с тем, чтобы, в конце концов, довести его до планируемого объема 7–10 млн. словоупотреблений.

- Дмитрий Сергеевич, можно ли оказать поддержку Вашим исследованиям и разработкам?

- Спасибо за вопрос. Хотя корпус уже функционирует и может быть использован в лингвистической работе, сейчас стоит задача увеличения его объема с тем, чтобы сделать корпус пригодным для полноценных корпусных исследований по лезгинскому языку. Во-первых, все еще остается огромное количество работы по сканированию и вычитке текстов лезгинской художественной литературы. Во-вторых, можно думать и о дальнейшем развитии корпусных ресурсов лезгинского языка, в частности, о создании диалектного корпуса лезгинского языка. Это очень важная, но вместе с тем еще более трудоемкая задача, подразумевающая аудиозапись, расшифровку и лингвистический анализ большого количества диалектной речи. Безусловно, я буду рад любому сотрудничеству и любой помощи в этой работе.

- Планируете ли Вы и дальше заниматься лезгинским языком?

- Как я уже сказал, корпус является, в первую очередь, удобным исследовательским инструментом. Поэтому, конечно, создание такого инструмента является лишь первым шагом, за которым должно последовать его использование в реальной лингвистической работе. Я надеюсь, что корпус будет полезен всем специалистам по лезгинскому языку. Сам я буквально несколько дней назад подал тезисы доклада на международную конференцию, в котором я планирую применить корпусный метод исследования, чтобы изучить одно типологически весьма нетривиальное явление в лезгинском языке. Кроме того, уже давно у меня на примете есть еще несколько грамматических явлений в лезгинском языке, которые теперь можно будет изучить при помощи корпуса.

-Какие области и направления в изучении лезгинского языка Вы считаете наиболее важными и перспективными?

- Наиболее насущной в настоящее время задачей в изучении лезгинского языка я считаю документацию современного состояния диалектов и говоров. Прежде всего, это подразумевает запись текстов, в особенности, фиксирующих лезгинскую традиционную культуру и фольклор, а также историческую память уходящих поколений. Второй важный компонент связан с фиксацией грамматики и лексики лезгинских диалектов и говоров. Помимо общетеоретического интереса, о котором я говорил раньше, грамматический и лексический материал различных вариантов лезгинского языка играет ведущую роль в реконструкции исторического развития как самого лезгинского языка, так и, более широко, в целом языков лезгинской группы, а также в реконструкции доисторических миграций носителей этих языков. Таким образом, перед нами стоит целый ряд важнейших задач, к решению которых, я надеюсь, мы обратимся в ближайшее время.

Райсама Фатуллаева

Корреспондентский корпус ФЛНКА

Поделиться

Возможно Вам будут интересны:

Лезгинско-азербайджанский словарь

Грант на дагестанские языки

Вышел сборник материалов научно-практической конференции «Пути сохранения, изучения и развития родного (лезгинского) языка»

Лезгинская языковая конференция в Дербенте

Московские лингвисты «в поле»

Комментарии (1)
Комментарий #1, дата: 06 март 2012 23:45
Есть ли средства у ФЛНКА помочь в работе по сохранению лезгинского языка?
Нужно находить спонсоров и провести эту работу на самом высоком уровне. ОТ дагестанских лингвистов все равно ничего толкового не дождешся.
Важно проведение этой работы и на територии Кусарского района без этого изучение языка не будет полноценным. Спасибо уважаемому ученному за работу, его вклад в сохранение языкового богатства Российских народов и лезгин как его части



Официальный сайт FLNKA.RU © 1999-2021 Все права защищены.

Российская Федерация, г. Москва

Федеральная лезгинская национально-культурная автономия