Вестник НовГУ

Вестник НовГУ > 2014 > №81 > Аванесов В., Козлов И. Ускорение тематической модели PLSA за счет начального приближения и за счет приближенного решения

Аванесов В., Козлов И. Ускорение тематической модели PLSA за счет начального приближения и за счет приближенного решения

УДК 004.9
А в а н е с о в В., К о з л о в И. Ускорение тематической модели PLSA за счет начального приближения и за счет приближенного решения // Вестн. Новг. гос. ун-та. Сер.: Технические науки. 2014. № 81. С.85-92. Библиогр. 11 назв.

К л ю ч е в ы е с л о в а: PLSA, тематическое моделирование, начальное приближение

Модель PLSA эффективно используется в задачах информационного поиска. Однако обучение модели требует большого количества вычислительных ресурсов, что затрудняет применение модели к большим коллекциям. Целью данной работы является увеличить эффективность алгоритма обучения. Рассматриваются два подхода: один основывается на нахождение хорошего начального приближения, второй основан на обучение модели на части коллекции и последующей аппроксимации решения на всю коллекцию.
-----------------------------------------------------------------------------
UDC 004.9
A v a n e s o v V., K o z l o v I. PLSA efficiency improvement based on initialization and approximation // Vestnik NovSU. Issue: Engineering sciences. 2014. № 81. P.85-92. The reference list 11 items.

K e y w o r d s: PLSA, topic modeling, initial approximation

Probabilistic Latent Semantic Analysis (PLSA) is an effective technique for information retrieval, but it has a serious drawback: it consumes a huge amount of computational resources, so it is hard to train this model on a large collection of documents. The aim of this paper is to improve time efficiency of the training algorithm. Two different approaches are explored: one is based on efficient finding of an appropriate initial approximation; the idea of another is that for the most of collection topics may be extracted from relatively small fraction of the data.

Загрузить (663 КБ)