Программные комплексы выявления информации, построенные на технологиях искусственного интеллекта

Анализ борьбы с преступностью позволяет сделать вывод о том, что оперативный поиск, направленный на выявлении информации о лицах, фактах, событиях и явлениях для решения задач правоохранительной деятельности, на ряду с традиционными методами, может осуществляться с применением программного инструментария, построенного на технологиях искусственного интеллекта.

Современные разработки, основанные на машинном обучении и нейронных сетях, позволяют осуществлять:

– распознание и идентификацию лиц на фотоизображениях;

– распознание и идентификацию образов предметов и объектов на изображениях;

– определение тональности текста;

– расшифровку аудиозаписей и перевод в текстовый формат;

– выявление действий на видеозаписях.

Как правило, для эффективного решения задач машинного зрения при малом количестве данных для обучения модели используют предварительно обученные нейронные сети[1]. На сегодняшний день существует несколько предобученных моделей нейронных сетей, выполняющих задачи классификации, в том числе, для распознания лиц, образов, предметов и явлений, которые были обучены на крупномасштабном объеме данных. Рассмотрим наиболее популярные из них.


[1] Глубокое обучение на Python / Ф. Шолле — СПБ.: Питер, 2018. – 400 с.


Распознание и идентификация лиц на изображениях (распознание эмоций).

  1. VGG-Face – модификация сверточной нейронной сети VGG16 для распознания лиц, разработанной исследователями Оксфордского университета, достигающая точности распознания до 92,7%. Для обучения нейросети использовался датасет[1] состоящий из более чем 14 миллионов изображений, принадлежащих к 1000 классам.
  2. FaceNet – предобученная сверточная нейронная сеть, разработанная исследовательской группой Google, которая преобразовывает изображение лиц в компактное евклидово пространство[2], где расстояния напрямую соответствуют мере сходства лиц.
  3. OpenFace – система распознавания лиц, разработанная исследователями Кембриджского университета. Для обнаружения лица в OpenFace используется алгоритм детектирования лица на основе признаков Хаара[3]. Этот алгоритм является одним из самых популярных и эффективных среди алгоритмов детектирования лица. Он основан на обнаружении определенных прямоугольных областей на изображениях. После извлечения признаков система OpenFace использует алгоритм классификации SVM[4] для сравнения лиц. Этот алгоритм является одним из самых популярных алгоритмов классификации.
  4. DeepFace – система распознавания лиц, разработанная исследовательской группой Facebook, использующая сверточную нейронную сеть с более чем 120 миллионами параметров. В обучении сети использовалось 4 миллиона изображений и 4000 человек. DeepFace позволяет производить поиск и сравнение лица с другими лицами на изображении; поиск лица в базе данных лиц; анализ атрибутов лица для извлечения таких признаков как пол, возраст, раса, анализ эмоций. Система работает как со статичными изображениями, так и с видеопотоком, в том числе в режиме реального времени.

[1] Датасет — это механизм хранения информации, который предоставляет быстрый доступ к большим объемам данных.

[2] Евклидово пространство — это фундаментальное пространство геометрии, предназначенное для представления физического пространства.

[3] Признаки Хаара – признаки цифрового изображения, используемые в распознавании образов.

[4] Метод опорных векторов (англ. SVM, support vector machine) – набор схожих алгоритмов обучения с учителем, использующихся для задач классификации и регрессионного анализа.


Распознание и идентификация образов предметов и объектов на изображениях.

TensorFlow – открытая программная библиотека для машинного обучения, разработанная компанией Google для решения задач построения и тренировки нейронной сети с целью автоматического нахождения и классификации образов, достигая качества человеческого восприятия. TensorFlow в связке с датасетом Fashion, содержащим семьдесят тысяч образов элементов одежды в десяти категориях, успешно справляется с распознанием предметов одежды на статических и динамических изображениях. TensorFlow используется и для распознания рукописного текста, что также является полезным инструментарием для выявления информации, представляющей оперативный интерес, и, совместно с другими технологиями искусственного интеллекта, позволяет производить анализ документов, определять тональность текста, выявлять значимые для раскрытия преступлений элементы.


Определение тональности текста.

Анализ тональности текста – это подраздел обработки естественного языка, целью которого является классификация текста по тональности. Тональность – это мнение, отношение и эмоции автора по отношению к объекту, о котором говорится в тексте. В качестве объектов могут выступать объекты реального мира, люди, события или процессы. Обычно используется бинарная классификация, выявление в тексте положительных и отрицательных оттенков, но также может добавляться нейтральный класс.

Для определения эмоциональной окраски, как правило, используются следующие подходы:

– лингвистический подход – основан на правилах и словарях с заранее подготовленными вручную шаблонами эмоционально важных слов и словосочетаний с их эмоциональными оценками;

– подход, основанный на методах машинного обучения;

– гибридный подход, сочетающий в себе два предыдущих подхода.

Исследования в данной области показывают, что универсальным, масштабируемым и более эффективным является подход, основанный на методах машинного обучения[1]. В настоящее время для решения задачи анализа тональности текста чаще всего используются следующие предварительно обученные модели:

– Модель Word2Vec – разработанная группой исследователей Google модель, предназначенная для получения векторных представлений слов на естественном языке. Метод основывается на предположении, что слова, которые часто находятся в одинаковых контекстах, имеют схожие значения.

– Модель GloVe (global vectors) – разработанная исследователями Стэндфордского университета модель, сочетающая в себе особенности сингулярного разложения и методов Word2Vec. Модель улучшает работу Word2Vec, но также обучена на уровне слов и не дает общего представления о контексте всего блока. Как и модель Word2Vec, GloVe плохо анализирует редкие и неизвестные слова.

– Модель fastText – разработанная в Facebook модель естественного языка, представляющая каждое слово композицией нескольких последовательностей символов определенной длины. Модель успешно классифицирует неизвестные и редкие слова.


[1] Самигулин Т.Р., Джурабаев А.Э.У. Анализ тональности текста методами машинного обучения // Научный результат. Информационные технологии. – Т.6, №1, 2021.


Расшифровка аудиозаписей и перевод в текстовый формат.

Транскрибация – процесс расшифровки информации из аудио- и видеозаписей и преобразования ее в текст – благодаря использованию нейронных сетей может осуществляться в автоматическом режиме. В настоящее время существует несколько сервисов для автоматической транскрибации:

– Speechpad (https://speechpad.ru/) – голосовой блокнот, позволяющий вводить текст с помощью микрофона и преобразовывать речь из аудио- и видеозаписей в текст.

– RealSpeaker (https://www.realspeaker.net/) – Онлайн-сервис для транскрибации аудио- и видеофайлов в текст. Для перевода необходимо выбрать язык (сервис поддерживает более 40 языков), загрузить файл (максимальная длительность – 3 часа) и дождаться окончания транскрибации.

– Transcribe (https://transcribe.wreally.com/) – онлайн-сервис для ручной и автоматической транскрибации. Позволяет преобразовывать аудио- и видеозаписи на более чем восьмидесяти языках в текст.

– Whisper-jax (https://huggingface.co/spaces/sanchit-gandhi/whisper-jax) – бесплатная модель основанная на нейросети whisper от OpenAI[1]. Благодаря оптимизации модель работает в семьдесят раз быстрее чем оригинальная модель от OpenAI. Приложение может перевести аудио на другой язык и превратить в текст с микрофона, аудиофайла и Youtube.

— Библиотека распознания речи Vosk, которая поддерживает более 20 языков и диалектов, работает без доступа к сети, позволяет идентифицировать говорящего (https://alphacephei.com/vosk/index).


[1] OpenAI — американская компания, занимающаяся разработкой и лицензированием технологий на основе машинного обучения. Одним из основателей является предприниматель Илон Маск.


Выявление действий на видеозаписях.

Ввиду значительных объемов и продолжительности видеоизображений, просмотр и выявление в их содержании информации, представляющий оперативный интерес, является весьма трудоемкой задачей. Современные системы компьютерного зрения с нейронными сетями предобученными различать объекты реального мира в совокупности с системами распознавания аудиоинформации и системами оценки тональности текста позволяют производить выявление действий на видео и составление краткого содержания ролика. Наиболее популярными системами, в настоящий момент, являются следующие:

– Yowo – сверточная нейросетевая архитектура для распознания действий на видео в реальном времени. Модель обрабатывает 34 кадра в секунду и выявляет до восьмидесяти классов объектов.

– YOLO (You Only Look Once) – является нейросетевой моделью для детектирования объектов в изображениях и видео в реальном времени. Она работает на основе алгоритма обнаружения объектов с использованием нейронных сетей с прямым распространением. YOLO широко используется в различных областях, включая компьютерное зрение, автономные автомобили, видеонаблюдение, медицину и даже в обработке продуктов питания.

– Summify – нейронная сеть для «пересказа» видео с YouTube. Инструмент отличается возможностью генерации описания на основе содержания видео и поддержкой большого количества языков.


Все перечисленные модели предобученных нейронных сетей и сервисы находятся в общем доступе и/или являются программным обеспечением с открытым программным кодом, что позволяет дорабатывать программы под конкретные задачи и использовать код для создания новых программ, например, предназначенных для выявления информации, представляющей интерес, для решения задач правоохранительной деятельности.