Программирование Компьютерная лингвистика. Лингвистические корпуса и их количественный анализ [Архэ]

Irinka

МОДЕРАТОР
Регистрация
10 Апр 2025
Сообщения
2,718
Реакции
0
Авторство: Архэ
Наименование: Компьютерная лингвистика. Лингвистические корпуса и их количественный анализ (2024)

1743145730530.png



3. Лингвистические корпуса и их количественный анализ

Бо́льшая часть компьютерно-лингвистических приложений сейчас опирается на большие массивы собранных текстов — лингвистические корпуса. Некоторые из них, например Национальный корпус русского языка, доступны для онлайн-поиска и позволяют также получать результаты, интересные и с точки зрения традиционной, некомпьютерной лингвистики. На занятии мы поговорим о том, как устроены такие большие собрания текстов и какими количественными свойствами они обладают: например, чем частотное распределение слов в корпусах похоже на численность населения городов и почему большинство слов в любом корпусе, какой бы мы ни взяли, встречаются только один раз.

Скачать
 📥 Скрытое содержимое! Войдите или Зарегистрируйтесь
 
19,616Темы
19,634Сообщения
55Пользователи
UtilitovНовый пользователь
Сверху