Обновлен массив данных iNaturalist в GBIF: 18 мая 2021 г.

Дорогие друзья!

Постепенно к сообществу проекта "Флора России" присоединяются всё новые пользователи. Изредка мы рассказываем о том, как взаимодействуют iNaturalist и GBIF.

Итак, Global Biodiversity Information Facility (https://www.gbif.org/) - это глобальная платформа-агрегатор данных о биоразнообразии. Их здесь очень много: 1 698 705 317 фактов присутствия того или иного вида в той или иной точке. Это и наблюдения, и образцы, и окаменелости, и литературные данные. Чтобы все эти данные оказались доступны в одном месте, 1677 организаций по всему миру объединили здесь свои 59 568 баз данных - больших и малых.

Любой пользователь может освоить несложную поисковую систему GBIF и найти то, что ему интересно. Система поисковых фильтров GBIF отличается богатым выбором настроек и стремительным отображением результатов, несмотря на гигантские объемы данных. Мой опыт показывает, что искать здесь отдельные наблюдения гораздо быстрее, чем на iNaturalist.

Конечно, среди баз данных о биоразнообразии есть очень большие массивы! Вот, как выглядит десятка самых больших:

  1. EOD - eBird Observation Dataset 705 008 469
  2. Artportalen (Swedish Species Observation System) 82 017 115
  3. Observation.org, Nature data from around the World 39 969 765
  4. iNaturalist Research-grade Observations 28 312 617
  5. DOF - Observations from the Danish Ornithological Society 26 353 930
  6. Norwegian Species Observation Service 24 917 510
  7. INPN - Données flore des CBN agrégées par la FCBN 20 999 334
  8. Southern African Bird Atlas Project-2 15 904 937
  9. NSW BioNet Atlas 12 850 056
  10. Waarnemingen.be - Bird occurrences in Flanders and the Brussels Capital Region, Belgium 12 811 851

А вот как выглядит другая десятка - с данными по сосудистым растениям.

  1. INPN - Données flore des CBN agrégées par la FCBN 20 960 245
  2. Artportalen (Swedish Species Observation System) 14 230 807
  3. Dutch Vegetation Database 11 108 843
  4. The Danish Environmental Portal, species and habitats-database "Danmarks Miljøportals Naturdatabase" 10 741 963
  5. iNaturalist Research-grade Observations 10 647 822
  6. Pl@ntNet automatically identified occurrences 9 634 639
  7. BSBI data from several English counties, up to 2015 8 158 301
  8. Flore du Bassin parisien (CBNBP) 7 781 816
  9. Flora von Deutschland (Phanerogamen) 7 657 448
  10. Floristic records from survey studies of the Bayerisches Landesamt für Umwelt 7 112 618

Как видно из обоих списков, данные из iNaturalist являются одним из ведущих источников данных в GBIF - как по всем группам живых организмов, так и по сосудистым растениям.

На iNaturalist свыше 66 млн наблюдений, а в GBIF попадает лишь 28 млн. Почему? Дело в том, что одновременно:

  • наблюдение должно иметь исследовательский статус;
  • наблюдение должно иметь открытую лицензию (CC0, CC-BY, CC-BY-NC);
  • а сами данные при этом публикуются с задержкой (сейчас данные от 13.05.2021).

Давайте сравним две ссылки на одно и то же наблюдение:

https://www.gbif.org/occurrence/2882925758
https://www.inaturalist.org/observations/61666594

Автор не указал своего настоящего имени в профиле, поэтому в GBIF он числится как "ctahkih". Не нужно менять ник - достаточно указать настоящее имя в профиле в соответствующем разделе. В паспорте наблюдения на iNaturalist есть ссылка на GBIF ("Это наблюдение размещено на 1 сайте: GBIF"), обратная ссылка на сайте GBIF имеется с момента заливки. Интересно и то, что это наблюдение было создано с помощью приложения Seek.

У GBIF своя номенклатура, которая автоматически стыкуется с названиями iNat, а также имеется в расширенном поиске фильтр по автору находки, так что можете выбрать и посмотреть, какие ваши наблюдения попали в GBIF. Недавно там появился поиск по административным единицам (правда, карта заложена 10-летней давности, так что границы Москвы и Подмосковья, например, старые).

Если вы хотите, чтобы ваши наблюдения попали в GBIF, то необходимо удостовериться, что у вас выставлена открытая лицензия. О том, как это сделать написано с иллюстрацией в этом посте: https://www.inaturalist.org/projects/flora-of-russia/journal/39331-obnovlen-massiv-dannyh-inaturalist-v-gbif-11-avgusta . Если у вас не проставлена лицензия, то в карточке каждого наблюдения у вас в правом нижнем углу написано "Все права защищены", если проставлена, то, как правило, - "Некоторые права защищены".

Отдельно отметим, что все топ-100 наблюдателей проекта "Флора России" перешли на свободные лицензии. Доля наблюдений проекта, заблокированных жёсткими лицензиями, сократилась до 11%! Это наше большое общее достижение в деле открытого доступа к данным о биоразнообразии. Большое спасибо, что не оставили без внимания предыдущие посты о GBIF. Возможно, в этот раз отклик будет еще шире.

Зачем всё это нужно?

Самый простой ответ заключается в том, что именно из GBIF исследователи выгружают данные о растениях, грибах и животных в удобном виде (csv-выгрузки). Каждая такая выгрузка получает doi, с помощью которого отслеживаются цитирования в научных исследованиях. Так, массив данных iNaturalist (https://www.gbif.org/dataset/50c9509d-22c7-4a22-a47d-8c48425ef4a7) процитирован через GBIF уже 1236 раз! Это рекорд среди всех участников GBIF.


ДОГОНЯЛКИ

Традиционно летом мы устраиваем догонялки с разными странами мира, глядя на оперативно обновляемые данные GBIF . Этим летом по разным поводам мы будем догонять Канаду, Мексику и США.

= Цель 1: догнать Канаду по числу наблюдений сосудистых растений из iNaturalist в GBIF =

Текущая раскладка такова:

  1. United States of America 5 475 108
  2. Canada 925 599
  3. Russian Federation 865 001
  4. South Africa 372 350
  5. Mexico 355 632

Наше отставание 60,6 тыс. наблюдений. Посмотрим, что будет через недельку-другую.

= Цель 2: догнать Мексику по числу наблюдений сосудистых растений в GBIF (из всех баз) =

  1. Belgium 9,653,412
  2. Finland 7,215,209
  3. Switzerland 7,070,316
  4. Norway 6,141,725
  5. Mexico 4,465,679
  6. Russian Federation 3,044,677
  7. Japan 3,016,018
  8. Canada 2,791,492
  9. Portugal 2,781,397
  10. China 2,491,645

Здесь отрывы гигантские и, как кажется, за один полевой сезон не отыграются. Однако в этом зачёте участвуют все источники информации, поступающие в GBIF. Российские учреждения регулярно публикуют новые данные по флоре России (прежде всего, оцифрованные гербарные коллекции), поэтому разрыв будет быстро сокращаться. Пока наше отставание 1,4 млн записей.

= Цель 3: догнать США по числу наблюдений сосудистых растений из iNaturalist в GBIF на месячных отсечках =

Вот, что у нас за первые 13 дней мая:

  1. United States of America 145,596
  2. Russian Federation 37,969
  3. Canada 22,981
  4. South Africa 18,623
  5. United Kingdom 14,026

Пока отставание в 3,8 раз. В прошлом году мы сокращали его до отметки в 1,6 раз. Посмотрим, что будет в этом году, особенно в летние месяцы.


На данный момент в GBIF индексируется уже 6,32 млн записей о биоразнообразии России - 6,17 млн с основной территории и 0,15 млн из Крыма. При этом, iNaturalist является самым большим по объему источником данных о природе России (занимает долю 22,3% по основной территории и 50,4% по Крыму). Эта доля постоянно растёт благодаря нашим усилиям.

Вот, какие массивы данных по биоразнообразию России являются крупнейшими сегодня:

  1. iNaturalist Research-grade Observations 1 376 428
  2. Moscow University Herbarium (MW) 659 564
  3. RU-BIRDS.RU, Birds observations database from Russia and neighboring regions. 447 530
  4. EOD - eBird Observation Dataset 282 227
  5. Geographically tagged INSDC sequences 195 451
  6. Locations of plants on dot distribution maps in the Flora of Siberia (Flora Sibiraea, 1987–1997) 169 854
  7. Flora of Vladimir Oblast, Russia: an updated grid dataset (1867–2020) 130 054
  8. Finnish Floristic Database (Finnish Museum of Natural History Collections) 106 396
  9. Birds of Northern Eurasia 86 992
  10. Chronicle of Nature - Phenology of Plants of Zhiguli Nature Reserve 86 524
Publicado el 20 de mayo de 2021 a las 05:02 AM por apseregin apseregin

Comentarios

Интересно, спасибо.

Anotado por yu_postnikov hace casi 3 años

Añade un comentario

Entra o Regístrate para añadir comentarios