Относительные атрибуты

 

Победитель премии Марра (лучшая статья), ICCV 2011 г.

 

Деви Парих  и  Кристен Грауман


  

«Кто в радуге может провести линию, где кончается фиолетовый оттенок и начинается оранжевый? Ясно мы видим различие цветов, но где именно один сначала, смешиваясь, переходит в другой? Так же и со здравомыслием и безумием».
 
-- Герман Мелвилл, Билли Бадд 

     

 

[ статья ] [ данные ]     [ код ] [ демонстрации ]     [ слайды ]     [ обсуждение (видео) ] [ постер ] [ переводы ]

   


Аннотация


Визуальные «атрибуты», которые можно назвать человеком, могут принести пользу в различных задачах распознавания. Однако существующие методы ограничивают эти свойства категориальными метками (например, человек «улыбается» или нет, сцена «сухая» или нет) и, таким образом, не могут уловить более общие семантические отношения. Мы предлагаем моделировать относительные атрибуты. Имея обучающие данные, показывающие, как категории объектов/сцен соотносятся в соответствии с различными атрибутами, мы изучаем функцию ранжирования для каждого атрибута. Обученные функции ранжирования предсказывают относительную силу каждого свойства в новых изображениях. Затем мы строим генеративную модель на объединенном пространстве выходных данных ранжирования атрибутов и предлагаем новую форму обучения с нулевым выстрелом, в которой супервайзер связываеткатегорию невидимых объектов к ранее увиденным объектам с помощью атрибутов (например, «медведи мохнатее, чем жирафы»). Далее мы показываем, как предлагаемые относительные атрибуты позволяют создавать более подробные текстовые описания для новых изображений, которые на практике более точны для интерпретации человеком. Мы демонстрируем подход на наборах данных лиц и природных сцен и показываем его явные преимущества перед традиционным прогнозированием бинарных атрибутов для этих новых задач. 
 

  


Мотивация


Двоичные атрибуты являются ограничительными и могут быть неестественными. В приведенных выше примерах, хотя изображение в верхнем левом и правом верхнем углу можно охарактеризовать как естественное и искусственное соответственно, как бы вы описали изображение в верхнем центре по центру? Единственный осмысленный способ охарактеризовать его — по отношению к другим изображениям: оно менее естественно, чем изображение слева, но более естественно, чем изображение справа. 

 

   


Предложение


В этой работе мы предлагаем моделировать относительные атрибуты. В отличие от предсказания наличия атрибута, относительный атрибут указывает силу атрибута в изображении по отношению к другим изображениям. Помимо того, что относительные атрибуты более естественны, они предлагают более богатый способ коммуникации, что позволяет получить доступ к более подробному человеческому наблюдению (и, следовательно, потенциально более высокую точность распознавания), а также возможность генерировать более информативные описания новых изображений. 

 

Мы разрабатываем подход, который изучает функцию ранжирования для каждого атрибута с учетом ограничений относительного сходства для пар примеров (или, в более общем случае, частичного упорядочения некоторых примеров). Обученная функция ранжирования может оценивать действительный ранг для изображений, указывающий относительную силу присутствия в них атрибута. 

 

Мы вводим новые формы обучения с нулевым выстрелом и описания изображений, которые используют предсказания относительных атрибутов.

 

  


Подход


 

Изучение относительных атрибутов: каждый относительный атрибут изучается с помощью формулировки обучения для ранжирования с учетом сравнительного наблюдения, как показано ниже:

 


  

 

Различие между изучением функции ранжирования с широким диапазоном значений (справа), которая обеспечивает желаемое упорядочение обучающих точек (1–6), и бинарного классификатора с широким диапазоном значений (слева), который разделяет только два класса (+ и -) и не не обязательно сохранять желаемый порядок точек, как показано ниже:

 

 


  

 

 

 

Новое обучение с нулевым выстрелом : Изучаем следующую установку 

  • Всего N категорий: S просмотренных категорий (доступны ассоциированные изображения) + U непросмотренных категорий (для этих категорий нет доступных изображений)
  • Видимые категории описываются относительно друг друга через атрибуты (не все пары категорий должны быть связаны для всех атрибутов)
  • Невидимые категории описываются относительно (подмножества) видимых категорий в терминах (подмножества) атрибутов.

Сначала мы обучаем набор относительных атрибутов, используя наблюдение за видимыми категориями. Эти атрибуты также могут быть предварительно обучены из внешних данных. Затем мы строим генеративную модель (гауссову) для каждой увиденной категории, используя ответы относительных атрибутов на изображения из увиденных категорий. Затем мы выводим параметры генеративных моделей невидимых категорий, используя их относительные описания по отношению к видимым категориям. Визуализация простого подхода, который мы используем для этого, показана ниже: 


 

 

 

 

Тестовое изображение относится к категории с максимальной вероятностью.

   

Автоматически генерировать относительные текстовые описания изображений:  Имея изображение I, которое нужно описать, мы оцениваем все изученные функции ранжирования на I. Для каждого атрибута мы идентифицируем два эталонных изображения, лежащих по обе стороны от I и не слишком далеких или слишком близких к I. Затем описывается изображение I. относительно этих двух эталонных изображений, как показано ниже:
 

 

  

Как видно выше, в дополнение к описанию изображения относительно других изображений наш подход также может описывать изображение относительно других категорий, что приводит к чисто текстовому описанию. Ясно, что относительные описания более точны и информативны, чем обычное бинарное описание.

 


Эксперименты и результаты


Мы проводим эксперименты на двух наборах данных: 

(1)Распознавание сцен на открытом воздухе (OSR), содержащее 2688 изображений из 8 категорий: побережье C, лес F, шоссе H, город I, гора M, открытая местность O, улица S и высотное здание T. Мы используем основные функции для представления картинки.

(2) Подмножество базы данных лиц публичных фигур (PubFig), содержащей 772 изображения из 8 категорий: Алекс Родригес А., Клайв Оуэн С., Хью Лори Х., Джаред Лето Дж., Майли Сайрус М., Скарлетт Йоханссон С., Вигго Мортенсен В. и Зак. Эфрон З. Мы используем конкатенированные основные и цветовые функции для представления изображений.

 

Список атрибутов, используемых для каждого набора данных, вместе с аннотациями двоичных и относительных атрибутов показан ниже:

   


 

 

Обучение с нулевым выстрелом:

 

Мы сравниваем предлагаемый нами подход с двумя базовыми уровнями. Первый — это относительные атрибуты на основе оценок (SRA). Этот базовый уровень аналогичен нашему подходу, за исключением того, что он использует оценки бинарного классификатора (бинарные атрибуты) вместо оценок функции ранжирования. Этот базовый уровень помогает оценить потребность в функции ранжирования для наилучшего моделирования относительных атрибутов. Нашей второй базовой линией является модель прямого предсказания атрибутов (DAP), представленная Lampert et al. в CVPR 2009. Этот базовый уровень помогает оценить преимущества относительной обработки атрибутов по сравнению с категориальной. Мы оцениваем эти подходы для разного количества невидимых категорий, разного количества данных, используемых для обучения атрибутов, разного количества атрибутов, используемых для описания невидимых категорий, и разного уровня «расплывчатости» в описании невидимых категорий. Детали экспериментальной установки можно найти в нашей статье. Результаты показаны ниже:

 

 


 

Автоматически сгенерированные описания изображений:

 

Чтобы оценить качество наших относительных описаний изображений по сравнению с бинарными аналогами, мы провели исследование на людях. Мы создали описание изображения, используя наш подход, а также базовые двоичные атрибуты. Мы представили испытуемым это описание вместе с тремя изображениями. Одно из трех изображений было описываемым изображением. Задача испытуемых состояла в том, чтобы ранжировать три изображения, исходя из того, какое из них, по их мнению, с наибольшей вероятностью было описываемым. Чем точнее описание, тем больше у испытуемых шансов идентифицировать правильное изображение. Иллюстрация задачи, представленной испытуемым, показана ниже:


 

 

Результаты исследования представлены ниже. Мы видим, что испытуемые могут более точно идентифицировать правильное изображение, используя предложенные нами относительные атрибуты, по сравнению с бинарными атрибутами.

 


 

 

 

Примеры бинарных описаний изображений, а также описания по категориям показаны ниже:

  

        

Изображение Бинарные описания Относительные описания
не естественно
не открытая
перспектива
более естественный, чем высотное здание, менее естественный, чем лес
более открытый, чем высокий дом, менее открытый, чем берег,
более перспективный, чем высокий дом
не естественно
не открытая
перспектива
более естественен, чем в черте города, менее естественен, чем шоссе,
более открыт, чем улица, менее открыт, чем побережье,
более перспективен, чем шоссе, менее перспективен, чем внутри города
естественная
открытая
перспектива
более естественный, чем высотное здание, менее естественный, чем гора,
более открытый, чем гора,
менее перспективный, чем открытая местность
Белый ,
не улыбающийся
, видимый лоб
больше Белого, чем АлексРодригес
, больше Улыбающегося, чем ДжаредЛето , меньше Улыбающегося, чем ЗакЭфрон
, больше ВидимогоЛба, чем 
ДжаредЛето , меньше ВидимогоЛба, чем Майли Сайрус
Белый
не улыбается
не виден лоб
более белый, чем Алекс Родригес , менее белый, чем  Майли Сайрус , менее улыбающийся, чем Хью Лори , более видимый лоб, чем  Зак Эфрон , менее видимый лоб, чем  Майли Сайрус.

не молодой
густые
брови круглолицый
более молодой, чем КлайвОуэн , менее молодой, чем Скарлетт
Йоханссон, более  густые брови, чем Зак
Эфрон , менее густые брови, чем Алекс Родригес , более круглолицый  , чем Клайв Оуэн , менее круглолицый, чем  Зак Эфрон.

   


Данные


Мы предоставляем изученные относительные атрибуты и их прогнозы для двух наборов данных, используемых в нашей статье:  распознавание наружных сцен (OSR) и подмножество базы данных лиц публичных лиц (PubFig). 

 

ПРОЧТИ МЕНЯ

Скачать (v2)

 

Набор данных относительных атрибутов лица . Он содержит аннотации для 29 относительных атрибутов по 60 категориям из  базы данных лиц публичных фигур (PubFig). 

  


Код


Мы модифицировали реализацию RankSVM Оливье Шаппеля для обучения относительных атрибутов с ограничениями сходства. Наш измененный код можно найти здесь .

 

Если вы используете наш код, пожалуйста, укажите следующую статью:

Д. Парих и К. Грауман

Относительные атрибуты

Международная конференция по компьютерному зрению (ICCV), 2011 г.

   


Демо


Демонстрации различных применений относительных атрибутов можно найти здесь . Описание этих приложений можно найти в статьях здесь .

 


Публикации


Д. Парих и К. Грауман

Относительные атрибуты

Международная конференция по компьютерному зрению (ICCV), 2011 г. (устно)

Победитель премии Марра (лучшая статья)

[ слайды ] [ разговор (видео) ] [ постер ] [ относительные описания демо ]

 

Ниже приведены другие наши статьи, в которых используются относительные атрибуты: 

 

А. Бисвас и Д. Парих

Одновременное активное изучение классификаторов и атрибутов с помощью относительной обратной связи

Конференция IEEE по компьютерному зрению и распознаванию образов (CVPR), 2013 г.

[ страница проекта и данные ]  [постер] [ демо ]


А. Паркаш и Д. Парих

Атрибуты обратной связи классификатора

Европейская конференция по компьютерному зрению (ECCV), 2012 г. (устно)

[ слайды ] [ обсуждение (видео)[ страница проекта и данные ] [ демо ]


А. Ковашка , Д . Парих и  К. Грауман
WhittleSearch: поиск изображений с обратной связью по относительным атрибутам
Конференция IEEE по компьютерному зрению и распознаванию образов (CVPR), 2012 г.
[
страница проекта[ постер ] [ демонстрация ]

 

Д . Парих А. _ Ковашка , А. Паркаш и К. Грауман
Относительные атрибуты для расширенного взаимодействия человека и машины  (приглашенный доклад)
Конференция AAAI по искусственному интеллекту (AAAI), 2012 г. (устно)


 


Переводы


 

 

[Спасибо Yong Jae Lee за шаблон веб-страницы]