Седьмая модель компьютерного зрения (запуск 12 апреля 2022 г.)

Дорогие друзья!

Вчера @yurii_basov обратил моё внимание на то, что наконец-то запущена очередная (седьмая) модель распознавания видов методами компьютерного зрения. Напомню, что именно продвинутая система искусственного интеллекта делает iNaturalist столь особенным и популярным.

Оказалось, что в процессе подготовки седьмой модели не всё шло гладко, поэтому наш подробный октябрьский пост со статистикой по России (https://www.inaturalist.org/posts/59191 ), который был подготовлен в момент, когда её обсчёт был только заряжен, во многом устарел. В блоге Алекс Шепард (@alexshepard) подробно рассказал об итогах работы. Его оригинальный пост можно прочитать здесь: https://www.inaturalist.org/blog/63931 .

Обсчёт седьмой модели, начатый в начале октября, был приостановлен, алгоритм доработан, и после этого запущен заново. Как ни странно, в седьмой модели нас ждёт множество очень важных (а порой и революционных) изменений, о которых ранее не сообщалось, в связи с чем и подготовлен этот обзор.


Радикально поменялся охват модели

Итак, обсчёт седьмой модели изначально был заряжен 8 октября 2021 г. В тот момент набор для обучения нейронной сети насчитывал 25 млн фотографий по 47 000 видам. Однако, как пишет Алекс, "в октябре мы осознали, что можем улучшить выборку данных для обучения, что сделает модель компьютерного зрения лучше". После внесения изменений в алгоритм, был создан новый обучающий набор, в который вошли уже 27 млн фото по 55 000 таксонов.

С чем был связан столь серьезный рост? Прежде всего, в обучающую выборку включены виды не по принципу "минимум 100 наблюдений", а по принципу "минимум 100 фотографий". Выборочный просмотр некоторых видов из нашей копилки, у которых даже сейчас где-то 70-80 наблюдений показал, что почти все они теперь знакомы модели. Например, степной вид Jurinea multiflora, у которого сейчас 84 наблюдения (https://www.inaturalist.org/taxa/867784 ), имеет пометку "Модель компьютерного зрения: Включен".

Однако, для того, чтобы обучающий набор был максимально разнообразным, установлен лимит на отбор не более 5 фотографий из каждого наблюдения. Максимальная выборка для таксона - 1000 фото (если наблюдений много, все фотографии берутся из разных наблюдений).

Разработчики пишут: "Испытания показывают, что новый подход позволил сделать более качественный набор обучающих данных; итоговые цифры по точности предложений в этой модели выросли, хотя нагрузка на нее стала более серьёзной (выбор между 55 тыс. вариантов против 38 тыс. в прошлой модели)".


Полностью исключены гибриды

Это было одно из самых противоречивых решений при отборе данных для седьмой модели. Из-за этого охват знакомых системе таксонов по областям Средней России даже немного сократился (например, исключены Medicago x varia, Geum x intermedium, Salix x fragilis и др.).

Однако аргументация разработчиков вполне понятна. Модели компьютерного зрения iNaturalist обучены распознавать дискретные, взаимно не перекрывающиеся, т.е. чёткие таксоны. У загруженной фотографии должен быть один правильный ответ относительно того, к какому дискретному таксону она принадлежит. Гибриды, хотя и являются потенциально полезными таксономическими объектами, затрудняют для модели визуальное различение гибридов от их родителей (и уверенное предложение каждого из этих таксонов при любом раскладе, учитывая их визуальное перекрытие). Всё же таксономия живых организмов с трудом описывает всё то разнообразие жизни, с которым мы сталкиваемся.


На передовой научно-технической мысли

В этом релизе разработчики особенно написали, что стремятся не просто сделать покрытие модели ещё больше, а предложения ещё точнее, но и придумать что-нибудь новенькое, что заметно улучшит весь процесс в недалеком будущем.

В частности, продолжена работа над более тонким внедрением данных о географии таксонов с учетом имеющегося объема точек на карте. Подробностей пока нет, но работа ведётся.

В будущем обещан радикальный рост скорости внедрения новых моделей ("новая модель каждый месяц"). Для сравнения: с мая 2017 года, т.е. за пять лет, было всего семь моделей.

Ведётся работа по включению или исключению промежуточных таксономических категорий. Тестирование результатов даст в будущем, например, возможность вернуть гибриды.

И, наконец, пока новая модель работает только онлайн, но, возможно, ее удастся сжать и внедрить в приложение для офлайн-подсказок.


Почему это важно для нас?

Исключительно важно. Прежде всего, нам предстоит понять, насколько улучшилось покрытие модели для видов флоры России. Поскольку сейчас отбор идет по числу фото, то выцепить такую статистику по отдельным наблюдениям и видам проблематично. В любом случае, в автоматическом или в полуавтоматическом режиме мы обновим нашу копилку (https://www.inaturalist.org/projects/kopilka-flory-rossii-uchim-mashinu ), поскольку сейчас почти все виды в ней оказались уже включенными в модель.

По октябрьским данным мы думали, что в модель будет включено 3149 видов флоры России (42% от числа снятых на тот момент видов), однако сейчас, по осторожным прикидкам, их может оказаться уже 3560 (т.е. 46% от числа снятых).

В любом случае, теперь нам будет трудно делать региональные обзоры по охвату модели. Так что октябрьский обзор, возможно, стал последним: https://www.inaturalist.org/posts/59191 .

Anotado por apseregin apseregin, 23 de abril de 2022 a las 02:25 AM

Comentarios

Спасибо за подробный обзор!

Anotado por yurii_basov hace 9 meses (Advertencia)

Añade un comentario

Entra o Regístrate para añadir comentarios