科技日報北京2月24日電 (記者張夢然)英國牛津大學大數(shù)據(jù)研究所研究人員在繪制人類之間的全部遺傳關(guān)系圖方面邁出了重要的一步:一個單一的家譜,可追溯我們所有人的祖先。該研究24日發(fā)表在《科學》雜志上。
這個人類遺傳多樣性的新家譜網(wǎng)絡(luò),以前所未有的細節(jié)揭示了世界各地的個體如何相互關(guān)聯(lián)。該研究預測了人類共同的祖先,包括他們大致居住的時間和地點,并分析恢復了人類進化史上走出非洲等重大事件。研究的基本方法可能在醫(yī)學研究中得到廣泛應用,例如識別疾病風險的遺傳預測因子。
追蹤人類遺傳多樣性的起源,以生成世界各地個體如何相互關(guān)聯(lián)的完整圖譜,這一愿景的主要挑戰(zhàn)是找到一種方法來組合來自許多不同數(shù)據(jù)庫的基因組序列,并開發(fā)算法來處理這種規(guī)模的數(shù)據(jù)。牛津大學大數(shù)據(jù)研究所研究人員此次發(fā)布的新方法可輕松地組合來自多個來源的數(shù)據(jù)并進行擴展,以適應數(shù)百萬個基因組序列。
大數(shù)據(jù)研究所進化遺傳學家、論文主要作者之一黃燕博士解釋說:“我們基本上已建立了一個巨型家譜,這是一個全人類的家譜,它盡可能準確地模擬了產(chǎn)生所有人類的歷史。我們今天在人類身上發(fā)現(xiàn)的遺傳變異,這個家譜使我們能夠看到每個人的基因序列是如何沿著基因組的所有點相互關(guān)聯(lián)的。”
由于單個基因組區(qū)域僅從父母一方遺傳,無論是母親還是父親,基因組上每個點的祖先都可被認為是一棵樹。這組樹被稱為“樹序列”或“祖先重組圖”,將遺傳區(qū)域通過時間與首次出現(xiàn)遺傳變異的祖先聯(lián)系起來。
研究人員稱:“從本質(zhì)上講,我們正在重建我們祖先的基因組和使用它們來形成龐大的關(guān)系網(wǎng)絡(luò)。然后我們可估計這些祖先生活的時間和地點。這個方法的強大之處在于它對基礎(chǔ)數(shù)據(jù)的假設(shè)很少,并且還可包括現(xiàn)代和古代DNA樣本!
該研究整合了來自8個不同數(shù)據(jù)庫的現(xiàn)代和古代人類基因組數(shù)據(jù),包括來自215個人群的總共3609個個體基因組序列。古代基因組包括在世界各地發(fā)現(xiàn)的年齡從1000到100000歲不等的樣本。算法預測了進化樹中必須存在共同祖先的位置,以解釋遺傳變異的模式。由此產(chǎn)生的網(wǎng)絡(luò)包含近2700萬個祖先。
在這些樣本基因組上添加位置數(shù)據(jù)后,研究人員使用該網(wǎng)絡(luò)來估計預測的共同祖先居住的地方。結(jié)果成功地重現(xiàn)了人類進化史上的關(guān)鍵事件,包括走出非洲。
研究小組計劃通過繼續(xù)整合可用的遺傳數(shù)據(jù),使家譜圖更加全面。由于樹序列以高效的方式存儲數(shù)據(jù),因此數(shù)據(jù)集可輕松容納數(shù)百萬個額外的基因組。
總編輯圈點
這是下一代DNA測序的基礎(chǔ)。隨著現(xiàn)代和古代DNA樣本基因組序列質(zhì)量的提高,樹序列正變得更加準確,最終,科學家能夠生成一個單一、統(tǒng)一的圖譜,解釋我們今天看到的所有的人類遺傳變異。另一方面,雖然人類是這項研究的重點,但該方法對大多數(shù)生物都有效——從大猩猩到小細菌。其在醫(yī)學遺傳學方面也將發(fā)揮功用,將遺傳區(qū)域和疾病之間的真正關(guān)聯(lián),從人類共同的祖先歷史中“揪”出來。