Простая и масштабируемая прогнозная оценка неопределенности с использованием глубоких ансамблей

Simple Scalable Predictive Uncertainty Estimation Using Deep Ensembles



Распространенные проблемы регрессии классификации машинного обучения представляют собой точечную оценку, то есть выход, предоставляемый моделью, является реальным значением или вероятностью каждой категории.

Однако оценка модели для разных точек должна быть разной. Для точек, которые очень похожи на образцы, которые появлялись в прошлом, прогнозам дается более высокая степень достоверности. Для оценок точек, которые находятся дальше, чем точки, которые произошли в прошлом, степень уверенности должна быть уменьшена.



Текущий метод измерения неопределенности результатов нейронной сети - это в основном байесовские нейронные сети. Каждый слой w и b подчиняется распределению, а не определенному значению, поэтому, естественно, окончательный результат оценки может быть определен по формуле Байеса. Дайте доверительный интервал, чтобы дать оценку неопределенности.



Но у байесовской сети есть проблема большого объема вычислений и сложности.



В этой статье представлена ​​общая структура обучения машинному обучению для лучшего обучения моделей, в частности, в три этапа.

1. Определите разумную целевую функцию обучения.

2. Используйте метод обучения состязательному обучению, чтобы сгладить функцию прогнозирования.



3. Используйте метод ансамбля для обучения нескольких предикторов.

Для нескольких предикторов применяется метод начальной загрузки, выборочное обучение, и, наконец, неопределенность модели определяется разницей в результатах прогнозирования, полученной от нескольких предикторов.

Цель добавления состязательного обучения кажется неясной в тексте, и говорят, что это делает предсказатель стабильным и плавным в поле е, но какова цель этого, это очень ясно без объяснения.

Но может быть и расплывчатое объяснение

Справа на рисунке приведена оценка метода. Можно видеть, что точки выборки аналогичны каждой модели, поэтому дисперсия мала, а ширина серого мала. Вне выборки каждая модель дает большую разницу в предсказаниях и большую ширину.

Таким образом, различные результаты иллюстрируют эффективность метода.

Я чувствую, что автор хочет продвигать свой собственный метод и сделать его обычным методом обучения в мире машинного обучения, но кажется, что ничего не движется.