7500 видов !!!

Дорогие друзья!

В проекте "Флора России" на iNaturalist в первых числах августа счётчик вплотную подошёл к отметке в 7500 видов (https://www.inaturalist.org/projects/flora-of-russia/journal/55139-1-325-000). Это был отличный повод и неслабый вызов засесть за общий список видов проекта и прочистить его от ошибок и нестыковок всех мастей. Регулярно счётчик подпрыгивал то до 7520, то до 7524. Пожалуй, сегодня последний раз, когда нам удалось с этим справиться: около 17:30 MSK 2 сентября 2021 г. после очередного цикла чистки данных счётчик застыл на отметке 7499 видов.

Видом № 7500 в нашем проекте стала Pilosella kebeshensis (Stepanov) N.N.Tupitzina, только что добавленная в базу. Это наблюдение https://www.inaturalist.org/observations/93347235 Петра Косачёва (@petr_kosachev), сделанное в Красноярском крае.


Подробнее о процедурах чистки данных.

Причины ошибок самые разные. Пожалуй, перечислю все подряд без оценки того, какая дает максимальный вклад:

  • не отмеченное галочкой (как наблюдателями, так и экспертами) растение, снятое в культуре;
  • созвучность русских названий двух видов;
  • тупое подтверждение всего подряд, в т.ч. ошибок искусственного интеллекта и неопытных пользователей;
  • изменения в номенклатуре (все наблюдения перенесены куда надо, а появляется свеженькое со старым названием);
  • честное, но неправильное определение.

Для чистки есть несколько инструментов. Главный - утилита выкачивания списка видов проекта (автор Константин Романов): https://kildor.name/inat/species . С ее помощью узнаем, в частности, какие виды имеют пока по 1-2 проверенным наблюдениям по флоре России. Именно среди них наиболее возможны разные несистемные ошибки. Таких видов сейчас около 1,5 тыс. Можно пролистать их перечень и проверить то, что цепляется взглядом. Очень эффективно при первичной чистке после долгого перерыва.

Вторая утилита - "Новые виды в проекте" (https://kildor.name/inat/new-species). Помогает регулярно просматривать новые загрузки за любой период, но не работает, если кто-то решил поопределять (ну, или "поопределять") давно зависшие наблюдения.

Для этого есть другой способ. Общий список видов проекта можно скачать и сравнивать эталонную однажды подчищенную версию (см. конец поста) с новой полной выгрузкой. Сразу видна вся свежая активность: по загрузкам из интересных мест (сейчас пошли наблюдения из Тувы от @pyakai ), по работе знатоков отдельных групп (@alchemillist смотрит сейчас манжетки) и проч. Все остальные новости подлежат проверке и устранению неизбежных ошибок.

Четвертая опция: сравниваем список видов проекта и список культурных видов из "серой зоны". Наиболее заметные (как правило в процентах) перевесы в сторону находок в культуре дают перечень того, что надо аккуратно проверить в основном проекте на предмет того снято ли растение на грядке или всё же на свалке. Особое внимание именно единичным находкам (например, регулярно всплывает тюльпанное дерево или магнолии, не помеченные как культурные). Если на фото обстановка неясна, то на спутниковом снимке дачные участки видны отлично.

Пятая опция: проверка таксонов с единственной находкой против списка видов из модели автоматического определения (есть у меня такой, сделал сам очень хитрым маневром - официально он не публикуется). Сейчас таких видов было 132 штуки. Проверяем каждый. Среди этих растений вероятность найти результаты шалостей кнопконажимателей всех мастей на порядок выше.

Ну, и все вышеописанные процедуры делаем регулярно, пропалывая флору России от ошибок и некомпетентности.

PS. Всё описанное выше можно делать и в рамках региональных проектов, к чему и призываю наших замечательных знатоков местных флор.

PPS. Ссылка на условно чистый csv-файл с 7499 видами: https://vk.com/doc10828577_608610444

Publicado el jueves, 02 de septiembre de 2021 a las 03:53 PM por apseregin apseregin

Comentarios

No hay comentarios aún.

Añade un comentario

Entra o Regístrate para añadir comentarios