Программный комплекс «Oculus» (версия VK 1.0) (далее – ПК Oculus, Oculus, программный комплекс) представляет собой специализированное программное обеспечение, разработанное для комплексного анализа и мониторинга информационного контента открытых для пользователя виртуальных сообществ социальной сети «ВКонтакте»[1]. Программа реализует многоуровневый подход к обработке данных и предназначена для решения широкого спектра задач в области анализа социальных медиа.
Программный комплекс разрабатывался с целью формирования эффективного инструментария для мониторинга, анализа и выявления противоправного контента в цифровой среде, в том числе, мониторинга информационного пространства на предмет выявления потенциальных угроз, раннего выявления признаков радикализации в виртуальных сообществах, анализа динамики распространения деструктивных идеологий, формирования эмпирической базы для разработки профилактических мер. Вместе с тем, Oculus может использоваться в образовательной и научно-исследовательской деятельности. Например, для проведения лингвистических и социологических исследований в цифровой среде, анализа механизмов формирования общественного мнения в социальных сетях, изучения закономерностей распространения информации в виртуальных сообществах, а также формирования практических навыков работы с большими массивами данных, обучения современным методам анализа социальных медиа, подготовки специалистов в области информационной безопасности, развития аналитического мышления у обучающихся.
Программный комплекс реализует три взаимосвязанных функциональных модуля:
1. Модуль сбора и систематизации данных:
– автоматизированный парсинг[2] публичных сообществ ВКонтакте с использованием официального API[3];
– многоуровневое извлечение данных, таких как посты, комментарии, ответы на комментарии, метаданные;
– интеллектуальное хранение в реляционной базе данных SQLite с поддержкой целостности и уникальности записей;
– многопоточная обработка, позволяющая осуществлять сбор данных без блокировки пользовательского интерфейса;
– автоматическое определение дубликатов для оптимизации хранения и исключения повторной обработки.
2. Модуль лингвистического анализа текстов:
– лемматизация русского языка на основе использования морфологического анализатора pymorphy2[4], обеспечивающая приведение слов к нормальной форме с учетом морфологических особенностей;
– частотный анализ лексики с построением ранжированных списков наиболее употребительных терминов;
– фильтрация «стоп-слов» для исключения служебных и малозначимых слов для фокусировки на содержательной лексике;
– статистическая обработка данных с вычислением абсолютных и относительных частот употребления слов;
– семантическая группировка терминов по тематическим кластерам.
3. Модуль интеллектуального поиска и сравнения
– поиск совпадений по пользовательским словарям с возможностью задания произвольных наборов терминов для мониторинга;
– контекстный анализ найденных совпадений с сохранением исходного окружения ключевых слов;
– сравнительный анализ различных сообществ по лексическим характеристикам;
– визуализация результатов в табличном и текстовом форматах;
– экспорт данных в формате *.csv для дальнейшей обработки в специализированных аналитических системах.
Программный комплекс базируется на следующих научных и методологических подходах:
1. Контент-анализ: количественный анализ частотности употребления ключевых терминов, качественный анализ смыслового наполнения текста, контекстуальный анализ использования лексических единиц.
2. Корпусная лингвистика: создание специализированных корпусов текстов по тематическим направлениям, статистическая обработка языковых данных, выявление закономерностей употребления лексики.
3. Социолингвистика: анализ языка как социального явления, изучение взаимосвязи языковых особенностей и социальных характеристик сообществ, выявление маркеров социальной идентичности в речи.
4. Компьютерная лингвистика: автоматическая обработка естественного языка, применение алгоритмов машинного обучения для классификации текстов, разработка лингвистических процессоров для русского языка.
Области применения программного комплекса:
1. В оперативно-розыскной деятельности:
– профилактическая работа: мониторинг групп риска, выявление признаков радикализации в виртуальных сообществах, анализ распространения деструктивных субкультур;
– аналитическая работа: сбор и систематизация информации из открытых источников, выявление закономерностей в коммуникации целевых групп, прогнозирование развития социально-опасных явлений.
2. В образовательном процессе:
– внедрение комплекса в учебные дисциплины: оперативно-розыскная деятельность, оперативно-розыскная психология, криминалистика, криминология, информационная безопасность, профессиональные системы в целях формирования профессиональных компетенций;
– использование комплекса при написании курсовых и дипломных работ, проведении научных исследований: исследование механизмов распространения экстремистских идей, изучение кибербуллинга и деструктивного поведения, формирование эмпирической базы для социологических исследований, разработка методик раннего выявления деструктивных тенденций.
Программный комплекс Oculus представляет собой современный инструмент, сочетающий в себе возможности автоматизированного сбора данных, лингвистического анализа и интеллектуального поиска. Его использование позволяет перейти от интуитивных оценок к доказательному анализу коммуникационных процессов в социальных сетях, что особенно важно в условиях возрастающей роли цифровой среды в формировании общественного сознания. Разработка и внедрение подобных аналитических систем соответствует современным тенденциям цифровизации правоохранительной деятельности и образовательного процесса, обеспечивая как повышение эффективности профессиональной подготовки, так и совершенствование методов оперативно-розыскной деятельности.
[1] Согласно отчету Mediascope, ВКонтакте – самая популярная социальная сеть в Российской Федерации, ежемесячная аудитория российских пользователей которой составила 79,5 млн. пользователей. Общее количество пользователей ежемесячно посещающих указанную платформу составляет 101,7 млн. человек. Ежедневная аудитория ВКонтакте составляет 53,6 млн. пользователей.
[2] Синтаксический анализ (или разбор, жарг. парсинг ← англ. parsing) в лингвистике и информатике – процесс сопоставления линейной последовательности лексем (слов, токенов) естественного или формального языка с его формальной грамматикой.
[3] API (Application Programming Interface) — термин программирования, который означает набор правил и инструкций, по которым различные программы и сервисы могут общаться между собой. API выполняет роль посредника, позволяет приложениям подключаться друг к другу через набор заранее описанных методов.
[4] Pymorphy2 — морфологический анализатор, разработанный на языке программирования Python. Выполняет лемматизацию и анализ слов, способен осуществлять склонение по заданным грамматическим характеристикам слов. Работает со словарем OpenCorpora, а для незнакомых слов строит гипотезы. Поддерживаются русский и украинский языки.