Зарегистрироваться

От разрозненных данных к общим знаниям: как WorldFAIR формирует будущее исследований

Ученые часто сталкиваются с трудностями при доступе к исследовательским данным и их использовании из-за непоследовательной терминологии, неструктурированных форматов и отсутствия деталей. Проект WorldFAIR решает эти проблемы, продвигая принципы FAIR (Findable, Accessible, Interoperable, Reusable) для улучшения доступности данных и содействия сотрудничеству между дисциплинами. В основе проекта лежат 11 тематических исследований, охватывающих широкий спектр научных областей и глобальных сообществ.

Цифровые инструменты открывают все новые возможности для совместной научной работы над глобальными вызовами, однако слишком часто ценные данные, необходимые для этой работы, остаются вне досягаемости исследователей.

Данные могут быть скрыты в недоступной для поиска коллекции, закодированы с использованием специфической терминологии или закодированы таким образом, что их невозможно легко заставить работать с другими данными, или их невозможно легко использовать, поскольку ученые не могут проверить подробности о самих данных, например, их происхождение или условия использования.

«Эта проблема на самом деле так же стара, как и сама наука», — объясняет Саймон Ходсон, исполнительный директор компании Комитет по данным (CODATA) Международного научного совета (ISC), который работает над повышением доступности и удобства использования данных.

Эти проблемы с данными могут ограничить возможности исследования и привести к потере времени и денег. Согласно исследованиям Согласно отчету Европейской комиссии, опубликованному в 2018 году, очистка некачественных данных с целью сделать их пригодными для использования является самой трудоемкой задачей для среднестатистического проекта по анализу данных и может составлять до 80% от всех усилий.

Команда Всемирная выставка Проект, совместный проект CODATA и Международного научного совета (ISC), взялся за решение этой проблемы. Целью проекта было «заставить данные работать», поощряя принятие СПРАВЕДЛИВО Принципы данных (находимые, доступные, совместимые, пригодные для повторного использования), способствующие лучшему управлению данными и исследованиям, поддерживаемым машинным анализом. 

После завершения проекта CODATA намерена продолжить и расширить инициативу МирFAIR+, в который войдут новые партнеры и международные практические примеры, воплощающие в жизнь уроки, извлеченные в ходе двухлетнего проекта WorldFAIR. 

Новая фаза будет структурирована как «федерация» проектов, предоставляя основу для сотрудничества, где ученые могут делиться техническим опытом и опираться на работу друг друга. CODATA приглашает потенциальных партнеров предлагать тематические исследования и принимать участие.

Практические примеры взаимодействия данных

Первоначальная работа CODATA, которая легла в основу WorldFAIR, началась в 2017 году при поддержке ISC и финансировании со стороны Китайская ассоциация науки и технологий. Эта формативная работа включала семинары, которые привели к разработке трех тематических исследований, каждое из которых было сосредоточено на использовании данных в определенной области: инфекционные заболевания, городское планирование и снижение риска стихийных бедствий. На начальных этапах проекта CODATA также разработала ключевое партнерство с Инициативой по документации данных (DDI).

Опираясь на эти усилия, CODATA обеспечила финансирование от Европейской комиссии для WorldFAIR. Проект поддержал 11 тематических исследований, изучающих использование данных в широком спектре областей, включая культурное наследие, наноматериалы и океанологию. Тематические исследования охватывали 13 стран, включая Бразилию, Кению, Новую Зеландию и США

Уроки, извлеченные из проекта, легли в основу 11 политических рекомендаций для улучшения использования и доступности данных для науки, и привело к разработке Структура междоменного взаимодействия (CDIF), цель которого — сделать данные из разных научных областей более совместимыми. 

В то же время CODATA опубликовала новые Терминология управления исследовательскими данными, в котором даны четкие определения терминов, используемых в данной области; эти термины теперь опубликованы в виде машиночитаемого «СПРАВЕДЛИВЫЙ словарный запас», и вскоре будет доступен в Интернете в более удобном для восприятия формате. 

Каждое из 11 тематических исследований также породило свои собственные отчеты и руководства для использования данных с целью разработки рекомендаций, актуальных для различных областей науки. 

Одно из рассмотренных исследований сельскохозяйственное биоразнообразие, сосредоточившись на опылении — области, где модель описания и категоризации данных все еще определяется. Опираясь на данные и вклад коллег со всего мира, исследователи из полудюжины стран — Бразилии, Кении, Аргентины, США, Великобритании и Нидерландов — разработали полное руководство и набор инструментов для данных, связанных с взаимодействием растений и опылителей. 

Это чрезвычайно специфическая тема, но она актуальна практически для всех, для ученых в самых разных областях, которые теперь могут воспользоваться унифицированным, стандартным способом работы с данными, что упрощает использование результатов работы коллег и ускоряет собственные исследования. 

«Переход от разнообразных подходов и разрозненных инициатив к широкодоступным данным FAIR о взаимодействии растений и опыления для ученых и лиц, принимающих решения, позволит разработать комплексные исследования, которые расширят наше понимание биологии, поведения, экологии, фенологии и эволюции видов», пишут исследователи, которые работали над исследованием случая

В другом исследовании исследователи рассмотрели снижение риска стихийных бедствий«Поскольку изменение климата и рост населения, вероятно, увеличат как серьезность, так и частоту бедствий, потребность в надежных данных для информирования о наших ответных мерах становится все более острой», — пишут они. 

Ученые и национальные и международные агентства, работающие над рисками катастроф, обращаются к прошлому, чтобы оценить влияние возможных будущих событий и понять, как смягчить последствия и восстановиться после них. Они также используют данные, которые постоянно выдаются датчиками на Земле и на спутниках, управляемыми государственными и частными источниками.

Но в исследовании случая исследователи обнаружили, что было сложно получить информацию, необходимую для точных оценок, поскольку большая часть соответствующих данных не соответствует принципам данных FAIR. Часто отсутствует важная информация — например, количество пострадавших в результате катастрофы или скорость развития событий. В других случаях национальные власти используют собственные методы для расчета ключевых точек данных, не показывая свою работу, что затрудняет сравнение для других.

На основе своего обширного исследования группа по изучению конкретного случая разработала ряд рекомендаций относительно практик, которые должны облегчить принятие обоснованных политических решений в этой все более актуальной области. Это «фундаментальный шаг на пути к построению более безопасных и устойчивых сообществ и стран», пишут они. 

Исследователи Международного союза теоретической и прикладной химии (IUPAC) провел исследование, посвященное тому, как сделать данные и терминологию, связанную с химическими веществами, более удобными для использования как людьми, так и машинами. 

ИЮПАК имеет более чем столетний опыт созыв химиков для определения и стандартизации того, как ученые в этой области работают с химикатами и говорят о них. Но поскольку цифровые инструменты — и все больше ИИ и связанные с ним технологии — предлагают новые способы работы, исследование IUPAC рассмотрело, как эти стандарты можно сделать более эффективными и облегчить другим ученым повторное использование химических данных. 

Одним из продуктов исследования был «поваренная книга», открытый ресурс руководств, призванный помочь ученым, включая студентов, преподавателей и работающих специалистов, понять, как работать с химическими данными и как сделать свои собственные данные более доступными для других. 

В проекте также описывается новый амбициозный открытый цифровой протокол, который мог бы объединить множество различных глобальных баз химических данных, позволяя ученым находить данные и получать к ним доступ с помощью одного запроса, а также проверять, пригодны ли их собственные данные для машинного считывания. 

Создание общего языка для научных данных

Ходсон объясняет, что объединение ученых для обсуждения полученных ими данных и попытки понять, как другие работают со своими данными, стало для них открытием. 

Устанавливая четкие стандарты и определения, ученые не только помогают текущим исследованиям, но и облегчают последующим поколениям возможность развивать их работу — возможно, способами, о которых первоначальные авторы, возможно, никогда не задумывались, добавляет он. 

«На WorldFAIR мы обнаружили, насколько увлекательно и полезно просто вести эти беседы, собирать всех участников тематических исследований в одной комнате и приглашать их рассказать о своих данных, о том, что они делают, как это работает и как они это описывают, а в некоторых случаях выявлять связи, которые мы не обязательно представляли себе заранее», — говорит он. 


Вы также можете быть заинтересованы в

Блог
24 июля 20245 min read

WorldFAIR: Продолжаем преобразовывать данные для решения сложных задач в рамках последующего проекта

Узнать больше Узнайте больше о WorldFAIR: продолжаем преобразовывать данные для решения сложных задач в последующем проекте
Научные исследования данных Блог
07 июня 202211 min read

Внедрение принципов данных FAIR — что стоит за аббревиатурой?

Узнать больше Узнайте больше о внедрении принципов FAIR data – что скрывается за этой аббревиатурой?

Изображение на Тейлор Вик on Unsplash.


Условия использования

Информация, мнения и рекомендации, представленные в наших гостевых блогах, принадлежат отдельным участникам и не обязательно отражают ценности и убеждения Международного научного совета.


Пожалуйста, включите JavaScript в вашем браузере, чтобы заполнить эту форму.

Будьте в курсе наших информационных бюллетеней

перейти к содержанию