ЛАБОРАТОРИЯ
АВТОМАТИЗИРОВАННЫХ
ЛЕКСИКОГРАФИЧЕСКИХ
СИСТЕМ
  English
Главная
История лаборатории
Основные направления
Публикации
Экспедиции
Семинар
Сотрудники
Контакты

   

Компьютерная справочно-аналитическая система для работы с текстами русских сказок

 

А. В. Рафаевой разрабатывается справочно-аналитическая система СКАЗКА-2, предназначенная для работы с русскими народными сказками, прежде всего для анализа сюжета, мотивного фонда и персонажей русских волшебных сказок.

При проектировании системы СКАЗКА-2 преследовались следующие цели:

·       создание полнотекстовой БД, содержащей русские сказки из наиболее авторитетных источников и научное описание этих сказок;

·       разработка дополнительных средств (правил поиска и выборки текстов, удовлетворяющих определенным условиям, дополнительные словари и т.п.) для  предварительного анализа текстов на естественном языке (записей сказок и описаний из фольклорных указателей). Эта часть работы во многом опирается на опыт разработки и использования системы СКАЗКА.

 

В отличие от системы СКАЗКА-2, система СКАЗКА базируется на фрагменте указателя Аарне-Томпсона[1] (далее АТ). В качестве среды для реализации системы была выбрана СУБД STARLING.

Система СКАЗКА разрабатывалась как исследовательская система, позволяющая ставить компьютерные эксперименты над текстом указателя АТ. Требовались возможности обработки указателя АТ как текстовой и структурированной информации (обработка описания типа целиком и отдельно по полям БД), возможность в дальнейшем изменять и дополнять систему по мере необходимости, создание и сохранение правил выборки текстов, содержащие определенные мотивы, наборы мотивов и т.п. Все эти возможности в системе реализованы (частично они предоставляются средой STARLING, частично реализованы в виде отдельных программных модулей). Кроме того, в систему вошли процедуры, позволяющие создавать частотный словарь, словарь мотивов, а также модуль создания конкордансов заданного слова или сочетания слов.

В процессе работы с системой СКАЗКА был выработан ряд принципов компьютерной обработки фольклорных указателей, а также требований к текстам таких указателей. К примеру, эти принципы использовались для нахождения мотива чрезмерной тоски по умершему в текстах ряда русскоязычных указателей сказок и несказочной прозы, доступных в электронной форме на сайте "Фольклор и постфольклор" http://ruthenia.ru/folklore/
В частности, как выяснилось, для компьютерной обработки более важным фактором является полнота представленной в указателе информации о фольклорных текстах, чем более или менее удачное структурирование таковой.

Работа с системой СКАЗКА позволила также сделать ряд выводов об организации исследований с помощью компьютерной системы, построенной на основе указателя.

·       необходимо применять различные принципы анализа и наборы ключевых слов для различных сказочных жанров. Например, такой персонаж как лиса будет играть различную роль в волшебных сказках и сказках о животных.

·       существует возможность организации связи между указателем и записями фольклорных текстов, каталогизированных по этому указателю. Организовать подобную связь технически несложно; в то же время она позволит существенно расширить возможности системы.

В настоящее время поддержка системы СКАЗКА прекращена, однако ряд результатов, полученных при разработке и использовании этой системы, применяется и при проектировании системы СКАЗКА-2.

 

Основой системы СКАЗКА-2 являются записи фольклорных сказок. Система разрабатывается в СУБД Starling для обеспечения частичной совместимости с системой СКАЗКА. В дальнейшем возможен перенос системы в СУБД MySQL. И в том, и в другом случае основными критериями выбора СУБД является наличие полей переменной длины, встроенного языка запросов и возможность создания и подключения дополнительных программных модулей.

В настоящее время создан макет системы, включающий тексты русских сказок из собрания А.Н. Афанасьева (используется электронная версия, опубликованная на сайте Фундаментальной электронной библиотеки http://www.feb-web.ru), а также ряд отдельных сказок из других собраний.

Работа над системой производится в несколько этапов.

1.     Подготовка текста. Тексты сказок переводятся в электронную форму, вычитываются с учетом последующего автоматического анализа. Определенную сложность представляют собой записи, отражающие диалектные и просторечные формы. По-видимому, в этом случае придется прибегать либо к специальной разметке текста, либо к составлению таблиц или правил соответствия для автоматического анализа текста.

2.     Разработка программных модулей для создания словарей. Предполагается создание и подключение к системе следующих словарей:

частотный словарь;

словарь персонажей;

словарь ключевых слов;

словарь имен.

3.     Разработка правил автоматического поиска мотивов в тексте. Правила разрабатываются и дополняются вручную для каждого мотива по мере пополнения системы новыми текстами. В частности, в настоящее время разрабатываются правила нахождения русских волшебных сказок, содержащих мотивы чудесного зачатия, чудесного рождения и связанных с ними. Вспомогательным средством для построения правил поиска мотивов является программа составления конкордансов заданного слова.

4.     Разработка алгоритмов подключения и обработки новых текстов. Подключение новых сказочных текстов к системе должно вызывать изменение автоматически создаваемых словарей.

5.     Разработка пользовательского интерфейса системы, автоматизация частых запросов и т.п.

 

[1] АТ – Thompson S. The Types of the Folktale: A Classification and Bibliography. Anti Aarne's Verzeichnis der Märchentypen. Third printing. Helsinki, 1973. FFC No. 184.