Застосування латентного розміщення Діріхле для аналізу публікацій з наукометричних баз даних
DOI:
https://doi.org/10.15276/opu.1.43.2014.32Ключові слова:
модель, латентний, семантичний, Діріхле, тематичний, публікаціяАнотація
Метою роботи є визначення найбільш відповідної тематичної моделі для класифікації наукових публікацій за автором-однофамільцем. Проаналізовано ймовірнісні тематичні моделі та запропоновано використання моделі латентного розміщення Діріхле — лідируючої серед імовірнісних тематичних моделей завдяки численним узагальненням і додаткам до аналізу колекцій текстових документів. Для порівняння обрано модель латентно-семантичного аналізу, недоліки якої вирішуються за допомогою розглянутої моделі. Модель використана у проекті по вилученню публікацій з наукометричних баз даних. У цьому проекті застосування тематичного моделювання дозволяє вирішити проблему поділу публікацій авторів-однофамільців, де колекцією документів обрано назви публікацій. Результати показують, що модель латентного розміщення Діріхле поступається латентно-семантичному аналізу, коли використовується малий обсяг вмісту документів. Тому для колекцій документів малого обсягу переважним є використання латентно-семантичного аналізу, а для великих обсягів — латентного розміщення Діріхле
Завантаження
Посилання
Коляда, А.С. Автоматизация извлечения информации из наукометрических баз даннях / А.С. Коляда, В.Д. Гогунский // Управління розвитком складних систем. - 2013. - Вип. 16. - С. 96 - 99.
Коляда, А.С. Латентно семантический подход для анализа информации из наукометрических баз даннях / А.С. Коляда // Управління розвитком складних систем. - 2014. - Вип. 17. - С. 101 -108.
Воронцов, К.В. Вероятностное тематическое моделирование [Электронный ресурс] / К.В. Воронцов // MachineLearning.ru. - Режим доступа:
http://www.machinelearning.ru/wiki/images/2/22/Voron-2013-ptm.pdf (Дата обращения: 03.03.2014).
Daud, A. Knowledge discovery through directed probabilistic topic models: a survey / A. Daud, J. Li, L. Zhou, F. Muhammad // Frontiers of Computer Science in China. - 2010. - Vol. 4, Iss. 2. - PP. 280 - 301.
Blei, D.M. Latent Dirichlet Allocation / D.M. Blei, A.Y. Ng, M.I. Jordan // Journal of Machine Learn-ing Research. - 2003. -Vol. 3. - PP. 993 - 1022.