А. В. Кузнецов, кандидат исторических наук,
ORCID 0000-0003-4755-250X, e-mail: historyras@gmail.com,
Институт всеобщей истории РАН,
г. Москва, Россия
Стремительное развитие информационных технологий в XXI веке коренным образом изменило характер исследований в гуманитарных науках в целом и в частности в исторической науке. Исследователям доступно всё большее число цифровых источников, вместе с этим существенно расширился набор инструментов и методов автоматического анализа текстов. Одним из наиболее популярных стал метод тематического моделирования (англ. topic modeling). Под тематическим моделированием понимается метод машинного обучения, который определяет, к каким темам относится каждый документ текстовой коллекции и какие слова (термины) образуют каждую тему. «Тема» в тематическом моделировании – это «повторяющийся набор совместно встречающихся слов» [12, с. 12]. В настоящее время разработано множество конкретных вариантов построения тематических моделей [4, с. 63; 9, с. 410], но наибольшую популярность в гуманитарных науках нашел алгоритм латентного размещения Дирихле, предложенный в 2003 году [7]. Его успех можно объяснить наличием большого количества готовых к использованию и хорошо документированных инструментов.
Уважаемые авторы! Кроме избранных статей в разделе "Избранные публикации" Вы можете ознакомиться с полным архивом публикаций в формате PDF за предыдущие годы.