О проекте

В последнее время в связи с возросшей потребностью в автоматизированных системах большое внимание уделяется вопросу, связанному автоматическим выделением словосочетаний сочетаний в текстах. Одним из подходов является использование статистических данных. Существуют различные статистические метрики для оценки сочетаемости слов. Ряд мер получил название мер ассоциации, или ассоциативных мер. Они позволяют вычислять силу связи между элементами словосочетаний и основываются на частотах данных словосочетаний и входящих в них отдельных слов. Таким образом, может быть вычислена некоторая устойчивость, присущая лексическим единицам, позволяющая их расположить на шкале: от свободных сочетаний до фразеологизированных структур. Методы машинного обучения являются новым подходом к исследованию языка и также позволяют получить информацию о сочетаемости, которая, возможно, не отражена в словарях.

Данные о сочетаемости могут быть полезны при разработке алгоритмов проверки текстов, автокоррекции, при построении онтологий, автоматической классификации и кластеризации лексики по группам и др. Применение статистических методов для получения информации о лексической и синтаксической сочетаемости на базе корпусов текстов (в том числе большого объема) служит основой для создания словарей и грамматик нового типа.

Материалом при разработке базы данных послужили разнообразные источники — словари и корпусы текстов. В нее вошли словосочетания из  корпусов текстов (СинТагРус, Aranea Russicum Maximum), а также из толковых словарей и словарей сочетаемости.

В базе данных представлены коллокации, снабженные количественными характеристиками (в том числе значениями соответствующих мер ассоциации MI, t-score, Dice).

В ходе работы над наполнением базы данных нами были использованы следующие словари:

1) Большой толковый словарь русского языка: А-Я / Сост., гл. ред. канд. филол. наук С. А. Кузнецов. СПб.: Норинт, 1998. (БТС)

2) Словарь русского языка: В 4-х т. / Под ред. А. П. Евгеньевой. 4-е изд., стер. М.: Рус. яз., 1999. (МАС)

3) Борисова Е.Г. Слово в тексте. Словарь коллокаций (устойчивых сочетаний) русского языка с англо-русским словарем ключевых слов. – М.: Филология, 1995.

4) Дерибас В.М. Устойчивые глагольно-именные словосочетания русского языка. Москва: Русский язык, 1983.

5) Регинина К. В., Тюрина Г. П., Широкова Л. И. Устойчивые словосочетания русского языка: Учеб. пос. для студентов-иностранцев / Под ред. Л. И. Широковой М., 1980.

6) Убин И. И. Словарь усилительных словосочетаний русского и английского языков.— М.: Рус. яз., 1987.

7) Кустова Г. И. Словарь русской идиоматики. Сочетания слов со значением высокой степени. М., 2008. [Электронный ресурс] URL: http://dict.ruslang.ru/magn.php

8) Бирюк О.Л., Гусев В.Ю., Калинина Е.Ю. Словарь глагольной сочетаемости непредметных имен  русского языка. М., 2008. [Электронный ресурс] URL: http://dict.ruslang.ru/abstr_noun.php

9) Мельчук И. А., Жолковский А. К. и др. Толково-комбинаторный словарь современного русского языка. Опыты семантико-синтаксического описания русской лексики. — Вена: Wiener Slavistischer Almanach, 1984.

Печать