База данных
База данных русскоязычных коллокаций включает в себя около 40000 словарных примеров различных синтаксических структур: «существительное+прилагательное», «глагол+наречие» и т.д.
В настоящий момент доступно два варианта поиска по коллокациям: лингвистический и статистический. В лингвистических формах приводится ссылка на определение каждой леммы коллокации из Викисловаря, тип синтаксической структуры, ссылка на пример из Национального корпуса русского языка, наличие/отсутствие в корпусах СинТагРус и Тайга, пересечение с другими коллокациями и общий словарный индекс (количество словарей, в которых встретилось словосочетание). В статистических формах пользователи смогут ознакомиться с вхождением коллокаций в тот или иной словарь, ipm из веб-корпусов, а также статистическими метриками (Dice, PMI...). Под результатами выдачи в каждой форме приводится краткая инфографика.
К каждому главному слову или коллокату возможен просмотр визуализированной структуры, при этом необходимо отметить следующее.
1. Иногда количество главных слов/коллокатов для коллоката/главного слова может превышать 100, что приводит к невозможности зрительного восприятия визуализированной структуры коллокации, поэтому было принято решение для коллокаций, которые обладают более 35 связями, выводить только так называемые значимые.
2. Под значимыми мы понимаем коллокации, у которых словарный индекс равен 2 и более. Если коллокаций с таким индексом нет в базе данных, то выводятся коллокации с индексами 0 и 1.
Для визуализации связей использовалась следующая нотация:
Словарный индекс 1 — коллокация в одном словаре (жёлтый цвет).
Словарный индекс 2 — коллокация в двух словарях (синий цвет).
Словарный индекс 3 — коллокация в трёх словарях (фиолетовый цвет).
Словарный индекс 4 — коллокация в четырёх словарях (красный цвет).
Словарный индекс 5 — коллокация в пяти словарях (коричневый цвет).
Словарный индекс 6 — коллокация в шести словарях (чёрный цвет).
Каждый узел в визуализированной структуре соответствует лемме коллокации, при этом цвет узла обозначает определённую часть речи. Например, синий цвет обозначает имена существительные, зелёный — глаголы, оранжевый — имена прилагательные, коричневый — наречия и пр.
Печать