Распознавание действий в видео - двухпотоковые сверточные сети для распознавания действий в видео

Video Action Recognition Two Stream Convolutional Networks



Двухпотоковые сверточные сети для распознавания действий в видео NIPS2014

Каждый поток реализуется с использованием глубокой ConvNet, оценки softmax которой объединяются поздним слиянием. Мы рассматриваем два метода слияния: усреднение и обучение мультиклассовой линейной SVM [6] на суммированных L 2 -нормализованных показателях softmax в качестве функций.

Пространственный поток ConvNet: это для классификации одного изображения, мы можем использовать новейшую сетевую структуру для предварительного обучения в базе данных классификации изображений.

3 ConvNets с оптическим потоком
вход в нашу модель формируется путем суммирования полей смещения оптического потока между несколькими последовательными кадрами. Такой ввод явно описывает движение между видеокадрами, что упрощает распознавание.
Для ConvNets с оптическим потоком мы вводим поля оптического потока, соответствующие ряду последовательных кадров изображений, в CNN. Эта отображаемая информация о движении может помочь в классификации действий.

Здесь мы рассматриваем вариант, основанный на вводе оптического потока:
3.1 Конфигурации входов ConvNet
Суммирование оптического потока. Здесь мы упаковываем горизонтальные и вертикальные компоненты оптического потока как карты характеристик и вводим CNN. Горизонтальные и вертикальные компоненты векторного поля можно рассматривать как каналы изображения.
изображение

Наложение траектории, как еще один способ выразить движение, мы можем вводить информацию о траектории движения в CNN.
изображение

Двунаправленный оптический поток
Расчет двунаправленного оптического потока

Вычитание среднего расхода: это своего рода нормализация входных данных, при этом среднее значение нормализуется до 0.
Как правило, полезно выполнять центрирование нуля сетевого входа, так как это позволяет модели лучше использовать нелинейности выпрямления.
В нашем случае мы рассматриваем более простой подход: из каждого поля смещения d мы вычитаем его средний вектор.

Точность индивидуальных ConvNets на UCF-101
изображение

Временная точность ConvNet на HMDB-51
изображение

Двухпотоковая точность ConvNet на UCF-101
изображение

Средняя точность (по трем разделам) на UCF-101 и HMDB-51
изображение