Статья посвящена извлечению ключевых терминов из правительственных документов, выпущенных в период 2013-2018 годы и связанных с направлением Цифровая экономика. Изучение пра-вительственных документов представляет интерес с точки зрения анализа одного из источников зарождения терминологии цифровой экономики. В статье приводится краткий обзор основ-ных подходов к извлечению ключевых терминов из текста, а также дается детальное описание одного из графоориентированных методов – алгоритма TextRank. Выбранный алгоритм был протестирован на 13 правительственных документах. Результатом обработки каждого текста явилось построение взвешенного графа семантических связей между ключевыми словами, на ос-новании которого были выделены ключевые термины.
Научный сотрудник ЦЭМИ РАН, лаборатория экспериментальной экономики. Сферы научных интересов: анализ естественного языка (NLP), тематическое моделирование, поведенческая экономика, экономика внимания.
Комментарии