Ученые из Стэнфордского университета создали программу, которая способна описывать содержание фотографий связными предложениями, сообщает N+1. Результаты работы исследователей были опубликованы на arXiv.org.
Для работы алгоритма необходимо загрузить в него изображение, проанализировав которое, программа выдаст его связное текстовое описание. Например, это может быть фраза "Мужчина в черной футболке играет на гитаре" или "Две девочки играют с конструктором Lego".
Работая над созданием алгоритма, ученые сперва учили подпрограмму находить на фотографиях участки, соответствующие словам из уже созданного текстового описания. Затем другую подпрограмму обучали подбирать описательные слова к разным участкам фотографии и объединять их в предложения. Для реализации обоих стадий алгоритма исследователи использовали искусственные нейронные сети, которые проходили обучение на подборках фотографий Flickr8K, Flickr30K и MSCOCO. В этих подборках почти 150000 снимков были подписаны при помощи краудсорсинговой платформы Amazon Mechanical Turk.
Когда процесс обучения подошел к концу, разработчики протестировали работу алгоритма на фотографиях, которых не было в тренировочных подборках. В результате выяснилось, что новый алгоритм работает точнее, чем существующие программные аналоги. С примерами работы алгоритма можно ознакомиться в статье исследователей из Стэнфорда.
Распознавание деталей на фотографии представляет собой пример задачи, которую легко может решить человек, в то время как у компьютера она вызывает серьезные затруднения. Сейчас для решения этой задачи чаще всего используются алгоритмы, ищущие максимально похожий снимок в базе подписанных фотографий и копирующие текст или теги оттуда, однако алгоритм стэнфордских ученых оказался более эффективным для решения этой задачи.