Назначение программного комплекса

Программный комплекс «Oculus» (версия VK 1.0) (далее – ПК Oculus, Oculus, программный комплекс) представляет собой специализированное программное обеспечение, разработанное для комплексного анализа и мониторинга информационного контента открытых для пользователя виртуальных сообществ социальной сети «ВКонтакте»[1]. Программа реализует многоуровневый подход к обработке данных и предназначена для решения широкого спектра задач в области анализа социальных медиа.

Программный комплекс разрабатывался с целью формирования эффективного инструментария для мониторинга, анализа и выявления противоправного контента в цифровой среде, в том числе, мониторинга информационного пространства на предмет выявления потенциальных угроз, раннего выявления признаков радикализации в виртуальных сообществах, анализа динамики распространения деструктивных идеологий, формирования эмпирической базы для разработки профилактических мер. Вместе с тем, Oculus может использоваться в образовательной и научно-исследовательской деятельности. Например, для проведения лингвистических и социологических исследований в цифровой среде, анализа механизмов формирования общественного мнения в социальных сетях, изучения закономерностей распространения информации в виртуальных сообществах, а также формирования практических навыков работы с большими массивами данных, обучения современным методам анализа социальных медиа, подготовки специалистов в области информационной безопасности, развития аналитического мышления у обучающихся.

Программный комплекс реализует три взаимосвязанных функциональных модуля:

1. Модуль сбора и систематизации данных:

– автоматизированный парсинг[2] публичных сообществ ВКонтакте с использованием официального API[3];

– многоуровневое извлечение данных, таких как посты, комментарии, ответы на комментарии, метаданные;

– интеллектуальное хранение в реляционной базе данных SQLite с поддержкой целостности и уникальности записей;

– многопоточная обработка, позволяющая осуществлять сбор данных без блокировки пользовательского интерфейса;

– автоматическое определение дубликатов для оптимизации хранения и исключения повторной обработки.

2. Модуль лингвистического анализа текстов:

– лемматизация русского языка на основе использования морфологического анализатора pymorphy2[4], обеспечивающая приведение слов к нормальной форме с учетом морфологических особенностей;

– частотный анализ лексики с построением ранжированных списков наиболее употребительных терминов;

– фильтрация «стоп-слов» для исключения служебных и малозначимых слов для фокусировки на содержательной лексике;

– статистическая обработка данных с вычислением абсолютных и относительных частот употребления слов;

– семантическая группировка терминов по тематическим кластерам.

3. Модуль интеллектуального поиска и сравнения

– поиск совпадений по пользовательским словарям с возможностью задания произвольных наборов терминов для мониторинга;

– контекстный анализ найденных совпадений с сохранением исходного окружения ключевых слов;

– сравнительный анализ различных сообществ по лексическим характеристикам;

– визуализация результатов в табличном и текстовом форматах;

– экспорт данных в формате *.csv для дальнейшей обработки в специализированных аналитических системах.

Программный комплекс базируется на следующих научных и методологических подходах:

1. Контент-анализ: количественный анализ частотности употребления ключевых терминов, качественный анализ смыслового наполнения текста, контекстуальный анализ использования лексических единиц.

2. Корпусная лингвистика: создание специализированных корпусов текстов по тематическим направлениям, статистическая обработка языковых данных, выявление закономерностей употребления лексики.

3. Социолингвистика: анализ языка как социального явления, изучение взаимосвязи языковых особенностей и социальных характеристик сообществ, выявление маркеров социальной идентичности в речи.

4. Компьютерная лингвистика: автоматическая обработка естественного языка, применение алгоритмов машинного обучения для классификации текстов, разработка лингвистических процессоров для русского языка.

Области применения программного комплекса:

1. В оперативно-розыскной деятельности:

– профилактическая работа: мониторинг групп риска, выявление признаков радикализации в виртуальных сообществах, анализ распространения деструктивных субкультур;

 – аналитическая работа: сбор и систематизация информации из открытых источников, выявление закономерностей в коммуникации целевых групп, прогнозирование развития социально-опасных явлений.

2. В образовательном процессе:

– внедрение комплекса в учебные дисциплины: оперативно-розыскная деятельность, оперативно-розыскная психология, криминалистика, криминология, информационная безопасность, профессиональные системы в целях формирования профессиональных компетенций;

– использование комплекса при написании курсовых и дипломных работ, проведении научных исследований: исследование механизмов распространения экстремистских идей, изучение кибербуллинга и деструктивного поведения, формирование эмпирической базы для социологических исследований, разработка методик раннего выявления деструктивных тенденций.

Программный комплекс Oculus представляет собой современный инструмент, сочетающий в себе возможности автоматизированного сбора данных, лингвистического анализа и интеллектуального поиска. Его использование позволяет перейти от интуитивных оценок к доказательному анализу коммуникационных процессов в социальных сетях, что особенно важно в условиях возрастающей роли цифровой среды в формировании общественного сознания. Разработка и внедрение подобных аналитических систем соответствует современным тенденциям цифровизации правоохранительной деятельности и образовательного процесса, обеспечивая как повышение эффективности профессиональной подготовки, так и совершенствование методов оперативно-розыскной деятельности.


[1] Согласно отчету Mediascope, ВКонтакте – самая популярная социальная сеть в Российской Федерации, ежемесячная аудитория российских пользователей которой составила 79,5 млн. пользователей. Общее количество пользователей ежемесячно посещающих указанную платформу составляет 101,7 млн. человек. Ежедневная аудитория ВКонтакте составляет 53,6 млн. пользователей.

[2] Синтаксический анализ (или разбор, жарг. парсинг ← англ. parsing) в лингвистике и информатике – процесс сопоставления линейной последовательности лексем (слов, токенов) естественного или формального языка с его формальной грамматикой.

[3] API (Application Programming Interface) — термин программирования, который означает набор правил и инструкций, по которым различные программы и сервисы могут общаться между собой. API выполняет роль посредника, позволяет приложениям подключаться друг к другу через набор заранее описанных методов.

[4] Pymorphy2 — морфологический анализатор, разработанный на языке программирования Python. Выполняет лемматизацию и анализ слов, способен осуществлять склонение по заданным грамматическим характеристикам слов. Работает со словарем OpenCorpora, а для незнакомых слов строит гипотезы. Поддерживаются русский и украинский языки.