ЛАБОРАТОРИЯ АВТОМАТИЗИРОВАННЫХ

ЛАБОРАТОРИЯ АВТОМАТИЗИРОВАННЫХ ЛЕКСИКОГРАФИЧЕСКИХ СИСТЕМ
	English

Главная

История лаборатории

Основные направления

Экспедиции

Таймыр

Томская область

Карта:
Территория распространения
говоров западных эвенков

Мультимедийный архив: инструкция по просмотру

Документация и исследование исчезающих языков: Проект РФФИ 2010-2012

Мультимедийный размеченный корпус текстов на говорах западных эвенков

10-06-00532

Руководитель проекта: О. А. Казакевич, кфн, зав.лаб. НИВЦ МГУ

Исполнители: Т. Б. Багаряцкая (НИВЦ МГУ),
Е. М. Будянская (НИВЦ МГУ),
Д. М. Вахонева (НИВЦ МГУ),
М. И. Воронцова (НИВЦ МГУ),
Ю. Е. Галямина (НИВЦ МГУ),
Е. Н. Дувакин (РГГУ),
Л. М. Захаров (Филологический факультет МГУ),
Е. Л. Клячко (РГГУ),
Н. К. Митрофанова (Институт языкознания РАН),
Е. А. Ренковская (ООО «Аби Продакшн»),
Т. Е. Реутт (НИВЦ МГУ),
А. В. Чвырев (НИВЦ МГУ).

Целью проекта являлось построение мультимедийного размеченного корпуса текстов на говорах западных эвенков, в котором обеспечивалось бы хранение языковой и метаязыковой информации и осуществлялся поиск информации по различным параметрам, а также анализ проблем, возникающих по ходу работы. За три года работы над проектом эта цель была достигнута.

На базе мультимедийного эвенкийского архива лаборатории автоматизированных лексикографических систем НИВЦ МГУ был создан мультимедийный аннотированный эвенкийский корпус, содержащий 52 текста с морфологической и дискурсивной разметкой (глоссами) общим объемом 35 тыс. словоупотреблений.

Тексты, вошедшие в корпус, представляют 14 локальных говоров западных эвенков. По жанру это в основном истории жизни и охотничьи рассказы, фольклорных текстов немного: для первой версии корпуса было решено отобрать тексты, в которых представлена максимально спонтанная речь.

Большинство текстов корпуса имеют графическое, звуковое и визуальное представление. Лишь для нескольких текстов визуальное представление отсутствует. Каждый текст снабжен набором метаданных. Тексты разбиты на предложения. Синхронизация графического, звукового и визуального представлений осуществлялась в программе ELAN.

Графическое представление каждого предложения состоит, по меньшей мере, из четырех слоев: это фонетическая транскрипция с поморфемной разбивкой слов, приближенная к фонематической, но отражающая особенности локальных вариантов языка, поморфемные аннотации (глоссы – семантические, грамматические и дискурсивные), текст в официально принятой графике, и русский перевод.

Корпус размещен на Московском сервере языковых архивов LangueDOC http://languedoc.philol.msu.ru, использующем программную платформу LAT (Language Archive Technology). (См. инструкцию по просмотру мультимедийного архива.)

В корпусе обеспечивается поиск как текстов по определенным параметрам метаданных (поселок, говор, наречие, информант, жанр и т.д.), так и внутритекстовой поиск на уровне звукового или графического представления.

В звуковом представлении параметром поиска является время звучания, в графическом представлении возможен поиск в любом слое по отдельному параметру или набору параметров (морфема, слово, словосочетание, глосс, набор глосс, переводной эквивалент и т.д.). Возможен внутритекстовой поиск по любому подмножеству текстов корпуса, которое задается с помощью метапараметров.

Пользователями корпуса могут стать исследователи, представляющие разные направления гуманитарной науки, но прежде всего лингвисты – тунгусоведы, типологи, компаративисты, социолингвисты, специалисты по малым языкам Сибири.

В процессе работы над корпусом решались следующие задачи:

1) каталогизация текстов эвенкийского архива;

2) отбор текстов для включения в корпус таким образом, чтобы обеспечивалась его репрезентативность в отношении многообразия локальных вариантов западноых эвенкийских говоров;

3) выработка системы морфологических, деривационных и дискурсивных глосс;

4) выбор формата представления текста в корпусе;

5) дополнительный сбор текстового материала в поле для заполнения территориальных лакун (было подготовлено и проведено две экспедиции – в Верхнекетский и Каргасокский районы Томской области и в Таймырский муниципальный район Красноярского края);

6) выверка полевой расшифровки (фонетической транскрипции и русского перевода) аудиозаписи эвенкийских текстов; выработка критериев разбиения эвенкийских текстов, являющихся текстами устной речи, на предложения, в частности, анализ типов и функций пауз в этих текстах;

7) морфологическая и дискурсивная индексация (глоссирование) эвенкийских текстов;

8) синхронизация звукового и видеоряда с графическим представлением текстов;

9) подготовка метаданных для каждого текста;

10) загрузка текстов в формате ELAN на сервер Languedoc.

В ходе поморфемной индексации текстов был выявлен ряд ранее не описывавшихся или описанных не вполне адекватно с точки зрения современных лингвистических теорий грамматических феноменов, а также некоторое количество ранее не зафиксированных лексем, что представляется нам весьма важным результатом проекта.

Полученные в ходе работы над проектом результаты частично отражены в 11 опубликованных и 4 принятых к печати работах.

Степень новизны полученных результатов

Cоздан первый размеченный мультимедийный корпус эвенкийских текстов и, пожалуй, один из первых мультимедийных размеченных корпусов текстов на малом языке Сибири достаточно большого объема, в котором представлена широкая панорама говоров западных эвенков в их современном функционировании. Кроме того, в процессе грамматической разметки текстов был выявлен ряд ранее не описывавшихся или не совсем адекватно, если подходить с позиций современной лингвистической типологии, описанных грамматических феноменов.

Так, в ходе работы с текстами нами были обнаружены:

нестандартный (с точки зрения существующих грамматик, большинство которых ориентировано на литературный вариант языка) лично-числовой глагольный показатель в текстах на сымском диалекте, причастный показатель в экондинских и чириндинских текстах, случаи нестандартного употребления множественного числа в текстах, записанных на севере Эвенкии и на Таймыре.

Было обнаружено семантически мотивированное противопоставление существующих в илимпийских говорах форм инклюзивного местоимения 1 лица множественного числа, ранее считавшихся дублетными.

Выдвинутая нами гипотеза о развитии в северо-западных эвенкийских говорах противопоставления минимального и расширенного инклюзива была подтверждена на таймырском материале.

Были определены границы распространения этой инновации и предложено объяснение происхождения этого противопоставления: различение минимального и расширенного инклюзива появляется в зонах контакта эвенкийских говоров с самодийскими языками, прежде всего, северными самодийскими (энецким, ненецким, нганасанским) и может быть отнесено на счет влияния трехчленной категории числа этих языков.

В самодийских языках формы 1 лица двойственного числа и 1 лица множественного числа семантически противопоставлены ровно так, как противопоставлены формы минимального и расширенного инклюзива в инклюзивных местоимениях 1 лица множественного числа: признаком, по которому идет противопоставление, является величина референтной группы.

Форму местоимения мит имеет смысл рассматривать именно как минимальный инклюзив, так как она употребляется не только по отношению к двум участникам коммуникативной ситуации (говорящему и слушающему – ‘мы с тобой’), но и в случае, если в ситуации участвуют трое (говорящий и двое слушающих). Важно, чтобы группа, в которую включает себя говорящий, была мала.

Наконец, проведенное в рамках проекта инструментально-фонетическое исследование типов и функций пауз в текстах корпуса (напомним, что все это тексты устной речи, преимущественно спонтанной) – это также, насколько нам известно, первое исследование подобного рода, выполненное на материале языка, функционирующего в ситуации языкового сдвига.

Сопоставление полученных результатов с мировым уровнем

Документация исчезающих языков, включающая сбор мультимедийных лингвистических данных, организацию компьютерных архивов и обеспечение в них информационного поиска является одним из основных направлений современной лингвистики во всем мире.

Реализуемый проект вполне органично вписывается в парадигму международных проектов по документации исчезающих языков и архивации получаемых полевых материалов. Современные технические средства дают возможность представлять тексты в различных форматах, а современной уровень лингвистических знаний – классифицировать и индексировать лингвистические данные.

Эвенкийские тексты, составляющие основу информационного обеспечения нашего проекта, записаны с использованием современных аудио- и видеозаписывающих устройств и обрабатываются с учетом современной парадигмы лингвистической типологии.

Для создания нашей мультимедийной текстовой базы мы используем программные средства, разработанные в Институте психолингвистики им. Макса Планка в Нидерландах специально для решения задач документации и архивации материалов малых языков: для синхронизации видео, аудио и графического представления текста мы используем программу ELAN; нашу пробную версию корпуса мы разместили на Московском сервере языковых архивов LangueDOC, где установлена программная платформа LAT (Language Archive Technology).

Эти программные средства используются в документационных проектах, поддерживаемых Фольксвагеновским фондом исчезающих языков, Национальным научным фондом США и Фондом исчезающих языков Райзинга.

Таким образом, не только уровень информационного обеспечения нашего проекта, но и его программная реализация отвечает современным международным стандартам, принятым в этой области.

Методы и подходы, использованные в ходе выполнения проекта

У нашего проекта имеется две стороны: информационное обеспечение и программная реализация. Поскольку мы создаем размеченный корпус текстов на языке, сфера функционирования которого неуклонно сужается, а письменная традиция невелика, важной составляющей информационного обеспечения является фиксация текстового материала.

Современные технические средства позволяют сравнительно легко делать это в полевых условиях в аудио- и видео-формате. Получение графического формата записи текстов и их смыслового представления в виде перевода на язык, используемый существенно шире, чем язык самих текстов (в нашем случае на русский язык), требует существенно больших усилий.

Для многих западных эвенкийских говоров к началу работы над проектом мы имели тексты, представленные не только в звуковом и видео-форматах, но и в графическом формате в виде полевой расшифровки (фонетической транскрипции и близкого к пословному русского перевода), сделанной с помощью носителей соответствующего говора, и это создало нам «стартовый капитал». Однако в нашем материале имелись лакуны, которые мы постарались хотя бы отчасти заполнять.

В ходе работы над проектом мы подготовили и провели лве экспедиции в Томскую область для сбора дополнительного материал по сымскому диалекту и на Таймыр для сбора материала по говорам таймырских эвенков. Таким образом нам удалось пополнить наш корпус и сделать его более представительным в отношении локального многообразия говоров западных эвенков.

Существенным для нас является наличие адекватного представления о языковой ситуации в местах записи текстов и знание языковой биографии каждого из наших информантов. Помимо прочего, все это иногда помогает при работе с самими текстами.

Первым этапом работы с текстом является выверка и при необходимости корректировка полевой расшифровки (фонетической транскрипции и русского перевода) аудиозаписи эвенкийских текстов архива. Однако иногда и после неоднократного прослушивания в тексте остаются «темные места», прояснить которые удается только на следующем этапе в процессе поморфемного разбора и индексирования каждой выделенной морфемы.

Морфологическая индексация (глоссирование) текстов - это наиболее временеемкая часть нашей работы, к тому же требующая достаточно высокой квалификации (знания эвенкийской грамматики, причем не одного, а всех описанных говоров и диалектов западных эвенков, поскольку между локальными вариантами существуют не только фонетические и лексические, но и структурные различия). Этой части работы в ходе проекта уделялось особое внимание.

При разработке системы поморфемной индексации мы исходили из Лейпцигских правил глоссирования (см. http://www.eva.mpg.de/lingua/resources/glossing-rules.php), дополняя исходно составленный список общеупотребительных в работах по лингвистической типологии глосс (SG ‘единственное число’, PL ‘множественное число’, NFUT ‘небудущее время’, POSS ‘посессивность’, ACC ‘винительный падеж’ и т.д.) обозначениями специфических для эвенкийского языка деривационных значений (PRGRN ‘перегринатив (‘пойти за X’, Х –производящая основа), BUSH ‘кустарник’ (имеющий X в качестве плода, Х - производящая основа) и т.д.).

При индексировании текстов мы иногда сталкивались с формами, или явлениями, ранее в соответствующих говорах (или ни в одном из говоров) не замечавшимися и/или не описанными, с незафиксированными в словарях лексическими единицами, с ранее не отмечавшимися значениями известных лексических единиц или морфологических показателей. Кроме того, в процессе индексирования иногда обнаруживается различие говоров в отношении предпочтения употребления некоторых грамматических или лексических форм.

Индексация текстов, таким образом, рассматривалась нами не как чисто технический процесс, а как процесс исследовательский, и обнаружение некоторого количества новых лексических единиц, форм, значений форм и даже новой категории в отдельных говорах или группах говоров в общем-то хорошо описанного, по крайней мере, на морфологическом уровне, языка стало, на наш взгляд, одним из важных результатов нашей работы.

Морфологическая разметка текстов дополнена разметкой дискурсивной. Выбранная нами дискурсивная разметка довольно проста: в соответствии с тремя выделяемыми функциями дискурсивных маркеров – упорядочение фрагментов текста и обеспечение его (текста) связности; заполнение пауз; указание на источник информации и/или степень достоверности сообщаемого – в текстах специальными глоссами в отдельной строке (ELAN обеспечивает возможность использования нескольких строк для разного типа разметки текста) отмечаются три типа дискурсивных маркеров: связки (LINK), заполнители пауз (JOKER), и указатели источника/достоверности информации (INFORM).

Важным элементом в подготовке текстов к загрузке в базу является их сопроводительная разметка - создания метаописания каждого текста, которое впоследствии позволит вести в корпусе поиск текстов по различным параметрам. Параметры метаразметки текстов можно разделить на четыре группы:

1) данные о тексте,
2) данные о рассказчике в случае монолога или о собеседниках в случае диалога или полилога,
3) данные о тех, кто записал и обработал (расшифровал, выверил, проиндексировал и т.д.) текст,
4) данные о месте и времени записи текста.

К характеристикам текста относятся его название, диалектная принадлежность, жанр, сюжет и мотив в случае, если мы имеем дело с фольклорным текстом.

К данным о рассказчике относится его имя (фамилия, имя, отчество), возраст, место рождения, место постоянного проживания к моменту записи текста, краткая лингвистическая биография.

В разделе о тех, кто работал с текстом, указывается, кто сделал аудио- и видеозапись текста, информант, помогавший в расшифровке текста, и лингвист, работавший с этим информантом, лингвист, проверивший полевую расшифровку, лингвист, снабдивший текст морфологической аннотацией и т.д.

Программная реализация корпуса осуществляется на Московском сервере языковых архивов LangueDOC http://languedoc.philol.msu.ru, где установлена программная платформа LAT (Language Archive Technology), разработанная в Нидерландах в Институте психолингвистики им. Макса Планка и специально предназначенная для решения задач архивации языковых материалов.

Для поиска текстов по базе используется их метаразметка. Поиск внутри текстов может осуществляться на всех графических уровнях – текст в стандартной орфографии, текст в транскрипции, морфологические глоссы, дискурсивная разметка и т.д.

Перед загрузкой на сервер для синхронизации видео, звукового и графического образа текста мы используем разработанную в том же Институте психолингвистики им. Макса Планка программу мультимедийной разметки ELAN. На начальном этапе мы осуществляли морфологическую индексацию текстов в таблицах Microsoft Word. Для конвертирования полученных файлов doc формата в текстовые файлы, подходящие для загрузки в ELAN, была написана специальная программа на Visual Basic for Applications. Постепенно мы перешли на морфологическое индексирование (глоссирование) текстов в программе SIL Fieldworks в том числе и потому, что подготовленные в этой программе файлы легко импортируются в ELAN.

Отметим еще один аспект работы над проектом, не связанный с методикой исследования, но для нас весьма существенный: мы стараемся привлекать к работе по сбору и первичной обработке лингвистических материалов студентов (половина участников двух проведенных в рамках проекта экспедиций – это студенты РГГУ, а одна из основных исполнителей нашего проекта, Елена Леонидовна Клячко, начала работу в нем, будучи студенткой Института лингвистики РГГУ, а закончила дипломированным специалистом в области информационных систем и квалифицированным лингвистом – сочетание специализаций, редко встречающееся, но так необходимое для работы над созданием компьютерных лингвистических архивов.

Публикации, подготовленные в рамках проекта

Статьи в журналах и научных сборниках

1. Казакевич О.А. Языки коренных малочисленных народов Сибири в сфере образования: проблемы и перспективы // Решение национально-языковых вопросов в современном мире: Страны СНГ и Балтии / Гл. ред. ак. Е.П. Челышев. М.: Изд. центр «Азбуковник», 2010. С. 492-500.

2. Kazakevich, Olga. Endangered Languages Documentation and Description: Should these Activities be Separated // Shixuan XU, Tjeerd D. Graaf, and Cecilia Brassett (eds). Languages Endangerment and Maintenance. Beijing: Zhongguozhishichanquan Press, 2011. С. 136-154.

3. Клячко Е.Л. Дополнительная семантика множественного числа в эвенкийском языке // Полевые исследования студентов РГГУ: Этнология, фольклористика, лингвистика, религиоведение. Выпуск VII. М.: РГГУ, 2012. С. 155-163.

4. Казакевич О.А. Языковая ситуация у западных эвенков // Урало-алтайские исследования. М.: ИЯз РАН, 2013. № 1 (8). (В печати)

5. Казакевич О.А. Лингвистическое поведение билингвов и кодовые переключения как процесс и продукт // Вестник РГГУ. Серия «Филологические науки. Языкознание» / Московский лингвистический журнал. Том 15. М.: РГГУ, 2013. (В печати)

6. Дувакин Е.Н. Обзор эвенкийских фольклорных материалов из архива Лаборатории автоматизированных лексикографических систем НИВЦ МГУ // Антропологический форум. СПб: МАЭ РАН; Европейский университет, 2013. № 18 Online. (В печати)

7. Захаров Л.М., Казакевич О.А. Многозначительная и/или многозначная: о типах и функциях пауз в эвенкийской речи // Актуальные проблемы теоретической и прикладной фонетики. Сборник научных статей к юбилею О.Ф. Кривновой. М.: МГУ, 2013. (В печати)

Полные тексты докладов в сборниках материалов конференций

8. Казакевич О.А. Традиционная культура сымских эвенков глазами старообрядческого населения Сыма // Культура как система в историческом контексте: Опыт Западно-Сибирских археолого-этнографических совещаний. Материалы XV Международной Западно-Сибирской археолого-этнографической конференции. Томск: Аграф-Пресс, 2010. С. 344-347

9. Казакевич О.А. Селькупско-эвенкийские языковые контакты от верховьев Кети и Тыма до Советских озер // Материалы 3-й Международной научной конференции по самодистике (Новосибирск, 26-28 октября 2010 г.) / Отв.редактор С.И. Буркова. Новосибирск, 2010. С. 107-115

10. Казакевич О.А. К вопросу о построении функциональной типологии малых языков (на материале языков автохтонного населения среднего енисея и прилегающих территорий) // Язык и общество в современной России и других странах: Международная конференция конференция (Москва, 21 – 24 июня 2010 г.): Доклады и сообщения / Отв. ред. В.А. Виноградов, В.Ю. Михальченко. М.: Тезаурус, 2010. С. 297-302.

11. Казакевич О.А. На руинах автохтонных языков Томской области // Проблемы изучения и сохранения языков и культур народов России. Материалы секции XL Международной филологической конференции. 15-19 марта 2011, Санкт-Петербург / Отв. ред. Л.Д. Раднаева. СПб: Филологический факультет СПбГУ, 2011. С. 67-73.

Тезисы докладов на конференциях

12. Казакевич О.А. Грамматический раритет северо-западных эвенкийских говоров // Типологически редкие и уникальные явления на языковой карте России. Тезисы докладов международной научной конференции, проходившей в Санкт-Петербурге 2-4 декабря 2010 г. / Отв.ред. Е.В. Головко. СПб: Нестор-История, 2010. С. 24-26.

13. Казакевич О.А. Язык и его носители: к вопросу о возможности визуализации жизни языка // IX Конгресс этнографов и антропологов России. Тезисы докладов. Петрозаводск 4-8 июля 2011 г. Петрозаводск: Карельский научный центр РАН. Редакционно-издательский отдел, 2011. С. 96.

14. Казакевич О.А. Документация говоров западных эвенков в ЛАЛС НИВЦ МГУ // Многоязычие и преподавание языков в России, Китае и Монголии. Материалы международной конференции. Улан-Удэ 22-25 августа 2011 г. Улан-Удэ, 2011. С. 14-15.

15. Галямина Ю.Е. Грамматическое освоение предикатного кодового переключения: на материале кетского и эвенкийского языков // Тезисы 26-й Международной конференции “Дульзоновские чтения” (Томск 24-28 июня 2011). Томск: ТПГУ, 2011. С. 135-138.

Аннотации опубликованных и принятых в печать работ, подготовленных в рамках проекта