Статья представляет собой обзор подходов к тематическому моделированию – современному направлению исследования больших текстовых коллекций. В настоящее время сверхвысокие темпы накопления информации приводят к тому, что при изучении той или иной темы пользователю становится все труднее разобраться в исследуемом предмете. Таким образом, актуальным вопросом является смысловая компрессия информации – своего рода «дальнее чтение» – необходимое условие получения знаний в условиях стремительного разрастания доступного объема информации. «Дальнее чтение» может быть реализовано с помощью тематического моделирования –направления, находящегося на стыке компьютерной лингвистики и машинного обучения и призванного определять структуру коллекции текстовых документов путем выявления скрытых тем в документах, а также термов (слов или словосочетаний), характеризующих каждую из тем.
«Мы умеем читать тексты,теперь нужно научиться не читать их»
Ф. Моретти