久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

【特別欄目-數據智能觀 002】FAIR 科學數據指導原則管理和管理權(上)

 小飛俠cawdbof0 2023-05-30 發(fā)布于北京

來源:www.nature.com

作者:Mark D. Wilkinson

編譯:烈斌

Image

【特別欄目-數據智能觀 002】

Image

FAIR 科學數據指導原則管理和管理權(上)

迫切需要改進支持學術數據重用的基礎設施,。一組不同的利益相關者——代表學術界,、工業(yè)界,、資助機構和學術出版商——走到一起,共同設計并認可了一套簡潔而可衡量的原則,,我們參考了這些原則作為公平數據原則,。其目的是為那些希望這樣做的人提供指導,增強數據存儲的可重用性,。與關注人類學者的同行計劃不同,,FAIR原則特別強調增強機器自動查找和使用數據的能力,此外還支持個人重用數據,。本評論是FAIR原則的第一份正式出版物,,包括其背后的基本原理,以及社區(qū)中的一些示例實現,。

Image

通過良好的數據管理支持探索


  Image   



良好的數據管理本身并不是一個目標,,而是通向知識的關鍵渠道發(fā)現和創(chuàng)新,并對后續(xù)的數據和知識進行整合和重用社區(qū)數據發(fā)布后的流程,。不幸的是,,現有的數字生態(tài)系統(tǒng)周圍的學術數據發(fā)表阻止我們從我們的研究中獲取最大利益研究投資(例如,參考文獻1),。部分回應這一點,,科學資助者,出版商和政府機構開始要求數據管理和數據管理計劃由公共資助的實驗產生,。除了適當的收集,、注釋和存檔之外,數據管理還包括對有價值的數字資產進行“長期護理”的概念,,其目標是將這些資產單獨或與新生成的數據結合起來,,發(fā)現并重新用于下游調查。因此,,良好的數據管理和管理的結果是高質量的數字出版物,,促進和簡化了這一持續(xù)的發(fā)現,、評估、并在下游研究中重復使用,。然而,,什么是“好的數據管理”在很大程度上沒有定義,通常是由數據或存儲庫所有者決定的,。因此,,明確良好的數據管理和管理的目標和愿望,并定義簡單的指導方針,,以告知那些發(fā)表和/或保存學術數據的人,,將是非常有用的。本文描述了四個基本原則——可查找性,、可訪問性,、互操作性和可重用性—用于指導數據生產者和發(fā)布者在這些方面進行導航障礙,從而有助于最大限度地提高當代正式學術數字出版所獲得的附加價值,。重要的是,,我們的意圖是,這些原則不僅適用于傳統(tǒng)意義上的“數據”,,還適用于產生這些數據的算法,、工具和工作流。所有學術數字研究對象2從數據到分析管道,,從這些原則的應用中受益,,因為研究過程的所有組成部分都必須可用,以確保透明度,、可重復性和可重用性,。

有許多不同的利益相關者將從克服這些障礙中受益:研究人員想要分享、獲得榮譽,,并重復使用彼此的數據和解釋;提供服務的專業(yè)數據發(fā)布者;提供數據分析和處理服務(如可重用工作流)的軟件和工具構建者;資助機構(私人和公共)越來越多關注長期的數據管理;以及一個數據科學社區(qū),,挖掘、整合和分析新的和現有的數據,,以促進發(fā)現,。為了方便這些不同的利益相關者閱讀這篇手稿,我們在框1中提供了常見縮寫的定義,。然而,,人類并不是科學數據環(huán)境中唯一的關鍵利益相關者。我們委托應用程序和計算代理代為進行數據檢索和分析,,它們也遇到了類似的問題,。這些“計算利益相關者”的相關性越來越大,隨著其重要性的增長,,需要同樣多或更多的關注,。因此,,數據密集型科學的一個重大挑戰(zhàn)是,通過幫助人類及其計算代理發(fā)現,、訪問,、整合和分析適合任務的科學數據和其他學術數字對象,來改善知識發(fā)現,。

Image

對于某些類型的重要數字對象,,有精心策劃的、深度集成的,、特殊用途的存儲庫,,如Genbank3,,全球蛋白質數據庫(wwPDB4),,以及生命科學的UniProt5;空間物理數據設施;http://spdf.gsfc./)和一套天文數據的識別,測量和書目(SIMBAD6)在空間科學,。這些基礎和關鍵的核心資源不斷地策劃和捕獲高價值的參考數據集,,并對其進行微調,以增強學術輸出,,為人類和機械用戶提供支持,,并提供廣泛的工具以豐富的、動態(tài)的方式訪問其內容,。然而,,并不是所有的數據集甚至數據類型都可以被這些存儲庫捕獲或提交給它們。許多來自傳統(tǒng)的,、低吞吐量的實驗科學的重要數據集不適合這些專用存儲庫的數據模型,,然而這些數據集在綜合研究、可重復性和一般重用方面同樣重要,。顯然,,為了應對這種情況,我們看到了大量通用數據存儲庫的出現,,其規(guī)模從機構(例如,,一所大學)到開放的全球范圍的存儲庫(如Dataverse7),FigShare (http://),,Dryad8Mendeley Data (https://data./),、Zenodo (http:///)、DataHub (http://),、DANS (http://www.dans./),、EUDat9。這樣的存儲庫以各種各樣的格式接受各種各樣的數據類型,,通常不嘗試集成或協(xié)調存儲的數據,,并且對數據存儲的描述符設置很少的限制(或要求),。因此,由此產生的數據生態(tài)系統(tǒng)似乎正在遠離集中化,,變得更加多樣化,,集成程度更低,從而加劇了人類和計算利益相關者的發(fā)現和可重用性問題,。這些障礙的一個具體例子可以想象在基因調控和表達分析領域,。假設一個研究人員已經生成了一個數據集的不同選擇的多聚腺苷酸位點在刺激其致病狀態(tài)的各種環(huán)境條件下生長的非模式致病生物。研究人員感興趣的是將該局部數據集中的選擇性聚腺苷酸化基因與其他選擇性聚腺苷酸化基因進行比較,,以及這些基因在該生物和相關模型生物中在感染過程中的表達水平,。考慮到沒有用于差分多聚腺苷酸數據的專用檔案,,也沒有這種病原體的模式生物數據庫,,研究人員從哪里開始呢?

我們將從各種數據發(fā)現和集成的角度考慮當前解決這個問題的方法。如果需要的數據集存在,,它們可能在哪里發(fā)布,,人們將如何開始搜索它們,使用什么搜索工具?理想的搜索需要基于特定的物種,、特定的組織,、特定類型的數據(Poly-A、微陣列,、NGS),、特定的條件(感染)和特定的基因進行過濾——這些信息(“元數據”)是否被存儲庫捕獲,如果是的話,,是什么格式,,是否可搜索,以及如何搜索?一旦發(fā)現數據,,可以下載它嗎?什么格式?這種模式是否能夠輕松地與內部私人整合數據(可選多聚腺苷酸位點的本地數據集)以及來自第三方和社區(qū)核心基因/蛋白質數據庫的其他數據出版物?這個集成可以自動完成以節(jié)省時間和避免復制/粘貼錯誤嗎?研究人員得到許可了嗎,?使用這些第三方研究人員的數據,在什么許可條件下,,誰應該使用如果數據點被重用,,則引用?

諸如此類的問題突出了數據發(fā)現和重用的一些障礙,而不僅僅是用于人類,,但對機器更是如此;然而,,正是這些深入而廣泛的綜合分析構成了當代電子科學的主體。我們經常需要幾周(或幾個月)的專業(yè)技術努力來收集回答這些研究問題所需的數據的原因不是缺乏適當的技術;原因是,,當我們創(chuàng)建和保存這些珍貴的數字物品時,,我們沒有給予它們應有的仔細關注。因此,克服這些障礙需要包括研究人員在內的所有利益相關者,,專用儲存庫和通用儲存庫—不斷發(fā)展以應對上述緊急挑戰(zhàn),。我們的目標是讓各種學術數字對象成為科學出版生態(tài)系統(tǒng)中的“一等公民”,在這個生態(tài)系統(tǒng)中,,出版物的質量——更重要的是出版物的影響——是其被所有利益相關者(包括人類和機械)準確,、適當地發(fā)現、重新使用和引用的能力的函數,?;谶@一目標,2014年在荷蘭萊頓舉辦了一場名為“聯合設計一個數據博覽會”,。這次研討會匯集了學術界和私人利益相關者,,他們都對克服數據發(fā)現和重用障礙感興趣。從研討會的討論中,,出現了這樣一個概念,,即通過定義并廣泛支持一套最小限度的社區(qū)商定的指導原則和實踐,所有利益相關者能否更容易地發(fā)現,、訪問,、適當地整合和重用,并充分地引用廣闊的資源當代數據密集型科學正在產生大量的信息,。會議以一套基本原則的草案結束,隨后對這些原則進行了更詳細的闡述,,即所有的研究對象都應該是可發(fā)現的,、可訪問的、可互操作的和可重用的(FAIR),,無論是對機器還是對人,。這些原則現在被稱為公平指導原則。隨后,,由FORCE11社區(qū)的幾位成員建立的專門的FAIR工作組對這些原則進行了微調和改進,。這里報告了這些努力的結果。

Image

機器在數據豐富的研究環(huán)境中的重要性


  Image   



強調公平適用于人類驅動和機器驅動的活動,,這是FAIR指導原則的一個特別重點,,使其區(qū)別于許多同行倡議(將在后續(xù)章節(jié)中討論)。當試圖在Web上查找和處理數據時,,人類和機器經常面臨不同的障礙,。人類對“語義”(數字對象的意義或意圖)有一種直觀的感覺,因為我們能夠識別和解釋各種各樣的上下文線索,,無論這些線索是結構/視覺/圖標的形式一個網頁,,或者敘述筆記的內容。這樣,我們就不太可能在考試中出錯,,選擇適當的數據或其他數字對象,,盡管如果缺乏足夠的上下文元數據,人類也會面臨類似的困難,。然而,,人類最主要的限制是,我們無法以當代科學數據的規(guī)模和電子科學的復雜性所必需的范圍,、規(guī)模和速度進行操作,。正是由于這個原因,人類越來越依賴計算代理來代表他們承擔發(fā)現和集成任務,。這就需要機器能夠自主地適當地應對在對全球數據生態(tài)系統(tǒng)進行自我指導探索過程中可能遇到的各種類型,、格式和訪問機制/協(xié)議。它還需要機器保存一個詳細的來源記錄,,以便它們收集的數據能夠準確和充分地被引用,。因此,對于數據管理和管理過程中的所有參與者(從研究人員和數據生產者到數據存儲庫主機)來說,,協(xié)助這些代理是一個重要的考慮因素,。在本文中,我們使用短語“機器可操作”來表示連續(xù)的可能狀態(tài),,其中數字對象為自主行動的計算數據探索者提供越來越詳細的信息,。這些信息使智能體(在一定程度上依賴于所提供的細節(jié)量)在面對從未遇到過的數字對象時具有以下能力:A)確定對象的類型(關于結構和意圖),b)通過詢問元數據和/或數據元素確定它在代理當前任務的上下文中是否有用,,c)確定它是否可用,,關于許可、同意或其他可訪問性或使用約束,,d)采取適當的行動,,以與人類相同的方式。

例如,,一臺機器可能能夠確定已發(fā)現的數字對象的數據類型,,但由于其格式未知,因此無法解析它;或者它可能能夠處理所包含的數據,,但不能確定與檢索和/或使用該數據相關的許可要求,。最佳狀態(tài)——機器完全“理解”并能夠自主正確地操作數字對象可能很難實現。盡管如此,,FAIR原則提供了通往機器可操作性的“道路上的步驟”;采用(全部或部分)公平原則,,會引導資源沿著連續(xù)體走向這種最佳狀態(tài)。此外,,機器可操作的概念適用于兩種情況:第一,,當引用圍繞數字對象的上下文元數據時(“它是什么?”),,第二,當引用數字內容時對象本身(“我如何處理它/整合它?”),。其中一種或兩種都可能是機器可操作的,,每一種都形成了自己的連續(xù)可操作性。

最后,,我們希望區(qū)分由于對支持該數據類型的軟件進行特定投資而可由機器操作的數據,,例如,理解生命科學wwPDB文件或空間科學空間物理檔案搜索和提取(SPASE)文件的定制解析器,,以及僅通過使用通用的開放技術而可由機器操作的數據,。重申前面的觀點,當機器可以對以前沒有遇到過的數據做出有用的決定時,,就會出現終極機器可操作性,。考慮到(a)快速增長和不斷發(fā)展的數據環(huán)境,,新技術和新的,、更復雜的數據類型不斷被開發(fā),以及(b)通用存儲庫的增長,,代理可能遇到的數據類型是不可預測的,。創(chuàng)建定制的解析器,在所有計算機語言,,為所有數據類型和所有需要這些數據類型的分析工具不是一種可持續(xù)的活動,。因此,重點放在通過在數據/存儲庫級別應用更通用的互操作性技術和標準,,幫助機器發(fā)現和探索數據,,成為良好數據管理的首要任務。

Image




    本站是提供個人知識管理的網絡存儲空間,,所有內容均由用戶發(fā)布,不代表本站觀點,。請注意甄別內容中的聯系方式,、誘導購買等信息,謹防詐騙,。如發(fā)現有害或侵權內容,,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多