Вестник НовГУ

Вестник НовГУ > 2014 > №81 > Николаев Ф., Иванов В. Генерация словаря моделей управления для задачи извлечения событий

Николаев Ф., Иванов В. Генерация словаря моделей управления для задачи извлечения событий

УДК 004.912
Н и к о л а е в Ф., И в а н о в В. Генерация словаря моделей управления для задачи извлечения событий // Вестн. Новг. гос. ун-та. Сер.: Технические науки. 2014. № 81. С.98-102. Библиогр. 8 назв.

К л ю ч е в ы е с л о в а: извлечение событий, модели управления, корпус n-грамм Google Books

Модели управления являются важным понятием в ряде задач обработки текста на естественном языке. В частности, специальным образом составленный словарь моделей управления глаголов-индикаторов событий может быть применен для задачи извлечения событий и аргументов из текстов. Особенно актуален этот способ для языков со свободным порядком расположения слов, таких как русский, так как традиционный способ извлечения на основе линейных шаблонов является в этом случае сложно применимым. В статье предлагается способ полуавтоматического формирования такого словаря с использованием корпуса Google Books Ngram и последующего его дополнения экспертом с помощью разработанного авторами веб-приложения. На основе составленного словаря разработан алгоритм извлечения, показаны примеры его применения к новостным текстам.
-----------------------------------------------------------------------------
UDC 004.912
N i k o l a e v F., I v a n o v V. Generating a dictionary of subcategorization frames for event extraction // Vestnik NovSU. Issue: Engineering sciences. 2014. № 81. P.98-102. The reference list 8 items.

K e y w o r d s: event extraction, subcategorization frames, Google Books Ngram corpus

Subcategorization frames are important in a number of natural language processing tasks. In particular, a specially constructed dictionary of subcategorization frames of words that indicates some events (usually verbs) can be used for the task of extracting the events and their arguments. This is especially useful for languages with free words order like Russian for which the traditional approach based on linear templates is not quite easy to use. This article proposes a method for semi-automatic construction of such dictionary using Google Books Ngram corpus and following expert assignment with help of a specially developed web application. On the basis of the constructed dictionary an algorithm for event extraction was designed. In this article we show some results of its work.


Загрузить (467 КБ)