Поиск картинок и распознавание изображений: где прорыв?

Поговорим о более отвлеченных вещах, а именно — о поиске, на этот раз — о поиске картинок. Недавно Яндекс анонсировал обновление функционала своего поиска картинок. В нем появились некоторые достаточно интересные вещи.

Приведу цитату:

Вторая новинка, которую представили разработчики Яндекса своим пользователям — появление расширенного поиска. Здесь можно задать некоторые дополнительные ограничения, позволяющие более точно сформировать поисковый запрос и получить более точную, более релевантную выдачу. Кроме традиционных ограничений по размеру и формату графического файла, тут можно задать цвет, который должен преобладать на найденном изображении. Такую функцию можно смело считать первым серьезным шагом на пути интеллектуального поиска картинок — благодаря этой возможности поиск Яндекс.Картинки даже превосходит аналогичный поиск Google, где пока можно задать только цветовую палитру изображений (черно-белую, полутоновую или полноцветную).

Собственно, первый шаг, он, конечно, но слишком уж мал. В отличие от традиционных поисковых механизмов, пока справляющихся с традиционными задачами, поиск по картинках пока еще оставляет желать лучшего. Ибо базируется он на тегах и текстовых описаниях. Поленился поставить автор (редактор) сайта нужные описания, и картинка слепа для Интернета. Более того, пользователь, который хочет провести интуитивный поиск, сделать этого не сможет по причине отсутствия подобных механизмов. Например, мне нужны фотографии, на которых изображены подростки (юноши и девушки) и собаки. Поисковая выдача запроса к гуглу оставляет желать лучшего.

В то же время, по запросу «Ющенко семья» мы имеем достаточно релевантную выдачу — ну понятно, что на сайте Президента, равно как и на других официальных ресурсах описания картинок используются такие, чтобы фото были видны поисковикам.

Еще один пример поиска — запрос «Большой красный шар». Поисковая выдача, как видите, вообще непонятно как получена. А все потому, что запрос такого типа использует, если можно так выразиться, описание контента картинки. Которое пока не обрабатывается современными поисковиками.

Эти примеры являются описанием одной из глобальнейших задач современной…хм, не знаю как сказать — математики, кибернетики, ИТ, алгоритмизации? Речь идет о задаче распознавания образов. В том числе — задаче распознавания картинок. Суть ее — заставить компьютер понимать, что изображено на картинке.

Одним из направлений решения этой задачи является разработка OCR-приложений, то есть программ распознавания текстов. Кстати, очень много диссертаций защищено именно в сфере распознавания объектов.

Хотя тут интересна связь распознавания с поиском. Если воспринимать это как единую задачу, тогда поисковая система, индексируя изображения, должна будет все их пропускать через механизм распознавания. Не могу оценить длительность этого процесса, однако наверняка будет не очень мало по времени.

С другой стороны, распознавание — не очень связанная с поиском задача. Хотя, когда она будет решена, то есть — поисковая система по картинкам сможет искать по контенту изображений, то такой поисковик мгновенно завоюет для себя практически весь рынок поиска изображений. Интересно, ведет ли Гугль работы в этом направлении?

В дополнение — замечательный текст от Антона Носика

  • Буквально недавно мне посоветовали такой ресурс: http://tineye.com/
    Но там направленность немножко другая: загружаешь фотку (либо, если добавил плагин в браузер, просто щелкаешь на ней) и система ищет, где размещено аналогичное изображение. База данных, конечно, у них не самая полная, но всё равно интересные результаты выдает. Причем один раз мне даже выдало результат, когда к изображению был применен ресайз.
    Вот интересно, ещё какие-нибудь подобные сайты существуют, чтобы искать свои ворованые фотки?
    —-
    Я вообще-то не злая, и ничего не имею против размещений-восхищений фотографий в личных дневниках, но мне кажется немножко неправильным то, что некоторые турфирмы берут для оформления своих сайтов (в т.ч. и логотипов) чужие фотографии, даже не уведомив автора и даже не поставив на него ссылку. Со мной такого не случалось (или я об этом не знаю) — мои творения не настолько популярны, но знакомые жалуются.
    А всё-таки хочется немножко щелчка по носу давать таким пользователям чужих трудов 🙂