久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

搜索

分享

QQ空間 QQ好友新浪微博微信

Nature：如何用一公斤的DNA滿足全球的信息儲存需求,？

深度視訊 2016-09-06

展開全文

導(dǎo)讀：現(xiàn)代的歸檔技術(shù)已無法跟上日益增長的信息海嘯。但大自然可能早就有了該問題的答案,。

Nature：如何用一公斤的DNA滿足全球的信息儲存需求,？

DNA如何存儲下整個世界的數(shù)據(jù)

對于英國欣克斯頓歐洲生物信息研究所（EBI）組長Nick Goldman來說，在DNA中編碼數(shù)據(jù)的想法是從一個玩笑開始的,。

2011年2月16號星期三,，Goldman正在德國漢堡的一家酒店中，與他的一些生物信息學(xué)家同事談?wù)撊绾螌⒋罅楷F(xiàn)有的基因組序列和其他被世界遺棄的數(shù)據(jù)儲存到DNA中,。他記得,，當時科學(xué)家們對傳統(tǒng)計算技術(shù)的成本和局限性感到非常沮喪，他們開始用科幻的替代品開玩笑,?！拔覀兯伎迹鞘裁醋璧K了我們使用DNA來存儲信息,？”

隨后玩笑終止了,。Goldman回憶道：“這是醍醐灌頂?shù)臅r刻”。

的確,，在硅存儲器芯片中讀取或?qū)懭霐?shù)據(jù)方面,，DNA存儲與硅存儲的微秒級時間尺度相比慢的可憐。人工合成特定模式的DNA字符串需要幾個小時來編碼數(shù)據(jù),，還要更多的時間去使用測序機恢復(fù)信息,。但DNA將整個人類的基因組納入到了一個肉眼看不見的細胞中。對于信息存儲的純粹密度,，DNA可能超越了硅幾個數(shù)量級—對于長期歸檔來說趨于完美,。

Goldman回憶，當時他們拿著餐巾紙和圓珠筆坐在酒吧里,，開始梳理想法：“想要實現(xiàn)該想法,，你需要做些什么？”研究員最大的顧慮是往往每100個核苷酸就有一個1個DNA合成和測序錯誤,。這將使大規(guī)模的數(shù)據(jù)存儲變得完全不可靠——除非他們可以找到一個有效的錯誤糾正方案,。他們能否以允許它們檢測并糾正錯誤的方式，將信息編碼到一個堿基對？在整個夜晚的討論結(jié)束后,，Goldman覺得他們找到了方向,。

他和他的EBI同事Ewan Birney將該想法帶入了實驗室，且兩年后宣布到他們已經(jīng)成功的使用DNA編碼了五個文檔,，包括莎士比亞的十四行詩和馬丁·路德·金“我有一個夢想”演講中的一部分,。隨后，生物學(xué)家George Church和他在馬薩諸塞州,，劍橋,，哈佛大學(xué)的團隊，推出了一個獨立的DNA編碼演示,。但739千字節(jié)（KB）是EBI曾制造出的最大DNA檔案文件——直到2016年7月,，微軟和華盛頓大學(xué)的研究人員宣稱研究飛躍到了200兆字節(jié)（MB）。

傳統(tǒng)的存儲介質(zhì)并非長遠之計

最新的實驗表明,，使用DNA作為存儲介質(zhì)的興趣遠遠出了基因組：整個世界正面臨著一個數(shù)據(jù)壓縮挑戰(zhàn),。統(tǒng)計所有的天文圖片和YouTube視頻的期刊文章，到2020年,，全球數(shù)字檔案館將達到大約44兆千兆字節(jié)（GB），相比于2013增長超過了十倍,。2040,，如果一切的東西都以即時訪問的方式存儲，如,，用于記憶棒中的閃存芯片,，存檔將會比預(yù)期多消耗10–100倍的微芯片級硅。

這也是為什么很少被訪問數(shù)據(jù)的永久檔案,，目前依賴于老式磁帶的原因之一,。這個媒介打包的信息可以比硅更密集，但閱讀速度要慢得多,。然而,，在華盛頓DC的美國情報高級研究項目活動（IARPA）的計算神經(jīng)科學(xué)家David Markowitz指出：‘’這種方法并非長久之計‘’。他說：‘'可以想象出磁帶驅(qū)動器上有一個擁有艾字節(jié)（十億字節(jié)）的數(shù)據(jù)中心會是什么樣子,?！@樣的一個中心將需要10億美元資的金，以及10年以上的時間來建設(shè)和維護,，還需要數(shù)百兆瓦的電力,。Markowitz說道“分子數(shù)據(jù)存儲有潛力將這些所有的要求減少三個數(shù)量級”如果信息可以被密集包裝至存入到大腸桿菌的基因中，那么只要約一公斤的DNA就可以滿足世界的存儲需求,。

Nature：如何用一公斤的DNA滿足全球的信息儲存需求,？

要實現(xiàn)這種潛力并不簡單。在DNA可以成為傳統(tǒng)存儲技術(shù)的競爭對手之前，研究人員將不得不克服許多挑戰(zhàn),，從在DNA中可靠的編碼信息和只檢索用戶需要的信息,，到使核苷酸字符串足夠便宜且迅速。

但是,，迎接這些挑戰(zhàn)的努力正在加快,。半導(dǎo)體研究公司（SRC），在Durham,，北卡羅萊納的一個基金會——由芯片制造企業(yè)聯(lián)盟支持,，正重返DNA存儲研究工作。Goldman 和Birney有英國政府撥款研究下一代DNA存儲方法,，并計劃成立一個公司來進行他們的研究,。在4月份，IARPA和SRC舉辦了一場針對學(xué)術(shù)界和產(chǎn)業(yè)界研究人員的研討會,，包括來自如IBM公司,，和直接研究該領(lǐng)域的研究人員。

SRC主任和首席科學(xué)家Victor Zhirnov說道：

“十年來,，我們一直在尋找超越硅的數(shù)據(jù)歸檔,。”

“這是很難替代的,。但是,，DNA，是最強的候選人之一,，看起來可能會發(fā)生,。”

長期記憶

第一個詳細規(guī)劃數(shù)字數(shù)據(jù)1和0到四個DNA堿基對的人是藝術(shù)家Joe Davis,，在1988年與來自哈佛大學(xué)的研究人員合作,，它們插入到大腸桿菌中的DNA序列僅編碼35位。當組成一個5×7矩陣時,，1對應(yīng)于暗像素而0對應(yīng)亮像素,，他們形成了一幅古日耳曼符文代表著生命和女性地球的畫面。

如今,，Davis隸屬于 Church實驗室,，它在2011開始探索DNA數(shù)據(jù)存儲。哈佛大學(xué)的研究小組希望應(yīng)用程序可以有助于降低合成DNA的成本,，因為基因組學(xué)降低了測序的成本,。Church在2011年11月與Sri Kosuri（現(xiàn)在在加利福尼亞大學(xué)，洛杉磯）和基因組學(xué)專家Yuan Gao（現(xiàn)在在巴爾的摩馬里蘭州的約翰霍普金斯大學(xué)）進行了概念證明實驗,。研究小組使用許多短DNA序列編碼一個659 kb版本的書（由Church共同撰寫）,。每個字符串的一部分都是一個地址,，該地址指定了測序后碎片應(yīng)該如何安排，還有其余包含的數(shù)據(jù),。二進制0可以通過堿基腺嘌呤或胞嘧啶進行編碼,，而二進制編碼1可由鳥嘌呤胸腺嘧啶表示。這種靈活性有助于團隊進行序列設(shè)計時避免讀取問題,，它可在含有大量鳥嘌呤和胞嘧啶的區(qū)域發(fā)生,，部分地區(qū)重復(fù)發(fā)生，或連接到另一個使字符串折疊延伸,。他們沒有嚴格意義上的錯誤修正,，而是依賴于由每個個體字符串的多個復(fù)制品提供的冗余。因此,，測序后的字符串中,，Kosuri，Church和Gao發(fā)現(xiàn)了22個錯誤——離可靠的數(shù)據(jù)存儲還差很遠,。

在EBI,，與此同時，Goldman,，Birney和他們的同事也用了許多DNA字符串編碼他們的739 KB數(shù)據(jù)存儲,，其中包括一個圖像，ASCII文本,，音頻文件和Watson和Crick PDF版的標志性論文——DNA的雙螺旋結(jié)構(gòu),。為了避免重復(fù)堿基和其它的誤差源，EBI領(lǐng)導(dǎo)的團隊使用了一個更復(fù)雜的方案,。一方面涉及到不像二進制編碼數(shù)據(jù)1和0，而是三個堿基——相當于0,，1和2,。然后，他們不斷旋轉(zhuǎn),，其中的DNA堿基代表每一個數(shù)字,，以避免在讀取過程中可能導(dǎo)致問題的序列。通過重疊,。100－堿基－長度字符串由25個堿基逐步轉(zhuǎn)移,，EBI科學(xué)家也保證會有四個版本——每個有25-堿基的部分，用于錯誤檢查和彼此對照,。

Nature：如何用一公斤的DNA滿足全球的信息儲存需求,？

但最終的結(jié)果是，他們還是失去了25個堿基序列中的2個——湊巧的是,，這兩個文件正好是Watson和Crick的部分文件,。然而,，這些結(jié)果說服了Goldman，DNA有潛力作為一個便宜的,、長期的數(shù)據(jù)存儲庫——只需要很少的能量存儲,。為了衡量什么是長期，他指出了2013公布的馬基因組——從一個被困在凍土700000多年的骨頭中解碼出,。他說：

“在數(shù)據(jù)中心,，三年后沒有人會相信一個硬盤”。

“在最多十年后,，沒有人會相信磁帶,。你想要一個比這更安全的復(fù)雜品，一旦我們可以得到那些DNA上寫的東西,，你就可以把它放在一個洞穴,，而且在到你想讀它之前都可以不用管它?！?/p>

一個新興的領(lǐng)域

這種可能性已經(jīng)吸引了計算機科學(xué)家Luis Ceze（來自華盛頓大學(xué)）和Karin Strauss（在華盛頓,，雷德蒙德微軟研究院），自從他們在2013參觀英國時聽到Goldman討論EBI工作后,。Strauss說到：

“DNA的密度,，穩(wěn)定性和成熟度使我們很興奮”

在他們返回華盛頓后，Strauss和Ceze與華盛頓大學(xué)的合作者Georg Seelig開始了研究,。他們的主要關(guān)注點之一是另一個主要的缺點——遠遠超越了DNA對于錯誤的脆弱性,。使用標準的排序方法，在不檢索所有的數(shù)據(jù)情況下,，根本沒有辦法可以檢索其中任何一塊的數(shù)據(jù)：每一個DNA鏈都要被讀取,。這比傳統(tǒng)的計算機內(nèi)存更加麻煩，傳統(tǒng)的計算機內(nèi)存允許隨機存?。河心芰χ蛔x取一個用戶需要的數(shù)據(jù),。

四月初，團隊在佐治亞州亞特蘭大召開的會議上概述了其解決方案,。研究人員開始從他們的DNA檔案中提取微小樣本,。然后，他們使用聚合酶鏈反應(yīng)（PCR）,，以確定和作出更多的字符串復(fù)制品以編碼他們想提取的數(shù)據(jù),。復(fù)制品的擴散使得測序比以前的方法更快，更便宜,，更準確,。該小組還設(shè)計了一個替代的糾錯方案，組織表示允許數(shù)據(jù)編碼為EBI的兩倍重,，但但一樣可靠,。

微軟–華盛頓大學(xué)研究人員示范存儲了151 KB的圖像,，在一個單一的字符串池中，一些使用EBI的方法編碼而一些使用他們的新方法編碼,。他們采用類似EBI的方法提取了三個東西,，—只貓、悉尼歌劇院和卡通猴,，得到一個他們需要手動糾正的讀取錯誤,。他們也使用了他們的新方法讀取悉尼歌劇院的圖片，沒有發(fā)現(xiàn)任何錯誤,。

經(jīng)濟學(xué)與化學(xué)

在伊利諾伊大學(xué)香檳分校的計算機科學(xué)家Olgica Milenkovic和她的同事們已經(jīng)開發(fā)了一個隨機訪問方法,，同樣確保了他們可以重新寫入編碼數(shù)據(jù)。他們的方法將存儲數(shù)據(jù)為長的DNA字符串,，在其兩端都有地址序列,。研究人員用這些地址進行選擇、放大并使用PCR或基因編輯技術(shù)CRISPR–Cas9重寫字符串,。

地址必須避免妨礙閱讀的序列,，同時彼此也要有足夠的不同，以防止他們在出現(xiàn)錯誤的時候被混淆,，并避免如由于他們的序列包含延伸識別和綁定到對方（采取了加強計算）導(dǎo)致的分子折疊問題,。Milenkovic說道“開始時，我們使用計算機搜索,，因為真的很難想出擁有所有這些屬性的東西” 她的團隊現(xiàn)在已經(jīng)用數(shù)學(xué)公式取代了這個勞動—密集的過程,，使他們能夠更快速地設(shè)計一種編碼方案。

Kosuri說：“DNA數(shù)據(jù)存儲的其他挑戰(zhàn)是合成分子的規(guī)模和速度”他承認由于這個理由,，他對該想法并不樂觀,。在哈佛大學(xué)的早期實驗中，他回憶道“我們有700kb,。即使是增加1000倍也才700兆,，這是一個CD”真正在全球數(shù)據(jù)歸檔問題發(fā)揮作用意味著至少存儲PB級的信息?！斑@并不是不可能的，”Kosuri說,，“但人們必須意識到改進的規(guī)模是上百萬倍,。”

Markowitz同意這不是一件容易的事,?！罢贾鲗?dǎo)地位的生產(chǎn)方法是一個將近30歲的化學(xué)過程，添加到每個堿基它需要400秒以上的時間,?！比绻@是仍然使用的方法,，他補充說：“數(shù)十億的不同字符串必須以并行方式編寫，速度才足夠快,。同時生產(chǎn)的電流最大值是數(shù)以萬計的字符串,。”

另一個重要因素是合成DNA的成本,。它占了EBI實驗費用12660美元的98%,，測序只占了2%——由于人類基因組計劃在2003年完成，成本降低了二百萬倍,。盡管這是先例,，Kosuri不相信經(jīng)濟也可以同樣帶動合成DNA的進展。他說道“你可以很容易地想象出安排70億人的市場,，但不可能建立70億人的基因組”,。他承認，成本方面的一些改善可能是由于人類基因組計劃（HGP—write在六月由Church和其他人提出的一個項目）造成的,。如果有資助的話,，該計劃將旨于合成一個完整的人類基因組：23個含有32億個核苷酸的染色體對。但即使HGP—write成功了,，Kosuri說,，“人類基因組只包含0.75 GB的信息，在面臨合成實際數(shù)據(jù)存儲的挑戰(zhàn)方面就會顯得相形見絀,?！?/p>

Zhirnov說道：

“綜合成本可以低于如今的水平數(shù)量級是件好事”

“為什么成本高，這并沒有根本的原因,?！?/p>

今年四月，微軟的研究做出了一個早期的舉措,，它可能有助于創(chuàng)造必要的需求,，即從Twist Biosciences（加州，舊金山的一家DNA合成啟動公司）訂貨了1000萬字符串,。Strauss和她的同事們說,，他們一直在使用的字符串推動他們的隨機存取存儲方法到0.2GB。細節(jié)還未公布,，但據(jù)報道,，該檔案包括了100多種語言中的人權(quán)宣言，100大古滕貝格項目圖書和種子數(shù)據(jù)庫,。雖然該合成挑戰(zhàn)相比于HGP-write所面臨要小,，但Strauss 強調(diào)了在存儲容量跳躍250倍的意義。

她說：

“是時候鍛煉一下我們處理大量DNA的肌肉,，將DNA其推到更大的范圍,，并看看這個過程會在哪里被打斷,，”

“實際上它在很多個地方都中斷了——而我們正在學(xué)習一個偉大的想法解決它?！?/p>

Goldman很有信心,，這是一件令人享受的事情。

“我們的估計是,，我們需要100000倍的改進使這項技術(shù)成型,，我們認為這是非常可信的,，”

“雖然過去的表現(xiàn)并不能保證,，但每一年或每兩年就有新的讀取技術(shù)將投入生產(chǎn)。在基因組學(xué)中六個數(shù)量級不是什么大問題,。你只是需要稍等一下,。”

Via：Nature

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,，謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請點擊一鍵舉報,。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：深度視訊 > 《頭條收藏》

舉報/認領(lǐng)

0條評論

請遵守用戶評論公約

類似文章 更多

深度視訊

關(guān)注對話

TA的最新館藏

[轉(zhuǎn)] 百交不泄秘方一味中藥（民間30個壯陽秘方偏方治法）
[轉(zhuǎn)] 「八宅風水」進階篇·翻卦掌：一個人人必學(xué)的游星速記方法
[轉(zhuǎn)] 六壬神課金口訣六十四課鈐詳解：第13課神反吟課
[轉(zhuǎn)] 諸葛亮算日子法：掐指小六壬 “快,、準,、神”
[轉(zhuǎn)] 江氏小六壬教程28：斷事解卦步驟思路及怎么取用神
多年路亞實戰(zhàn)經(jīng)驗,，教你選擇溪流路亞馬口裝備,，不選貴的只選對的

喜歡該文的人也喜歡更多

熱門閱讀換一換

<ul id="iztyp"></ul>