ЛАБОРАТОРИЯ
АВТОМАТИЗИРОВАННЫХ
ЛЕКСИКОГРАФИЧЕСКИХ
СИСТЕМ
  English
Главная
История лаборатории
Основные направления
Публикации
Экспедиции
Семинар  
Сотрудники
Контакты

Архив 2010

 

 

Фрагменты выступления 

  

 Архив семинара «Когнитивные аспекты лексикографии»

 

 30.03.10

А. Я. Шайкевич,
доктор филологических наук, профессор,
главный научный сотрудник Института русского языка РАН

Текстуальные связи слов в языке газеты: результаты и трудности

Формальная статистическая процедура применяется к корпусу «Независимой Газеты» (1990-е гг.). Исследуемый корпус (35 млн словоупотреблений) автоматически разбивается на фрагменты равной длины (40 слов). Зная частоту слов в корпусе можно подсчитать математическое ожидание числа фрагментов, в которых встретилась произвольная пара слов (в предположении их взаимонезависимости). Сравнение реального числа подобных фрагментов с математическим ожиданием позволяет оценить степень статистической неслучайности для всех пар слов корпуса. В результате получаем грандиозную сеть текстуально связанных пар слов. Построенная (семантическая?) сеть варьируется в зависимости от тематики газетных материалов.