ЛАБОРАТОРИЯ АВТОМАТИЗИРОВАННЫХ ЛЕКСИКОГРАФИЧЕСКИХ СИСТЕМ |
|
English |
|
Архив семинара «Когнитивные аспекты лексикографии» |
||||||||
---|---|---|---|---|---|---|---|---|---|
30.03.10
А. Я. Шайкевич, Текстуальные связи слов в языке газеты: результаты и трудности Формальная статистическая процедура применяется к корпусу «Независимой Газеты» (1990-е гг.). Исследуемый корпус (35 млн словоупотреблений) автоматически разбивается на фрагменты равной длины (40 слов). Зная частоту слов в корпусе можно подсчитать математическое ожидание числа фрагментов, в которых встретилась произвольная пара слов (в предположении их взаимонезависимости). Сравнение реального числа подобных фрагментов с математическим ожиданием позволяет оценить степень статистической неслучайности для всех пар слов корпуса. В результате получаем грандиозную сеть текстуально связанных пар слов. Построенная (семантическая?) сеть варьируется в зависимости от тематики газетных материалов.
|