當(dāng)科學(xué)家們?cè)?003年宣布人類基因組的完整序列時(shí),實(shí)際上當(dāng)時(shí)仍有大約8%尚未被完全破譯。這主要是因?yàn)樗筛叨戎貜?fù)的DNA片段組成,很難與其他部分嚙合。但是,一個(gè)為期三年的聯(lián)盟終于填補(bǔ)了剩余的DNA研究空白,為科學(xué)家和醫(yī)生提供了第一個(gè)完整的、無(wú)間隙的基因組序列供參考。
新完成的基因組被稱為T(mén)2T-CHM13,代表了目前參考基因組的一個(gè)重大升級(jí),該基因組被醫(yī)生用來(lái)尋找與疾病有關(guān)的突變,以及被研究人類遺傳變異進(jìn)化的科學(xué)家使用。
除其他事項(xiàng)外,新的DNA序列揭示了關(guān)于著絲粒(centromere)周圍區(qū)域的前所未有的細(xì)節(jié),著絲粒是細(xì)胞分裂時(shí)染色體被抓取和拉開(kāi)的地方,確保每個(gè)“子”細(xì)胞繼承正確的染色體數(shù)量。這個(gè)區(qū)域內(nèi)的變異性也可能為我們的人類祖先如何在非洲進(jìn)化提供新的證據(jù)。
加利福尼亞大學(xué)伯克利分校的博士后研究員Nicolas Altemose說(shuō):“揭示這些以前缺失的基因組區(qū)域的完整序列告訴我們很多關(guān)于它們是如何組織起來(lái)的,這對(duì)于許多染色體來(lái)說(shuō)是完全未知的。”他是四篇關(guān)于已完成基因組的新論文的共同作者。“以前,我們只是對(duì)那里的情況有最模糊的了解,而現(xiàn)在它已經(jīng)清晰到了單堿基對(duì)的分辨率?!?/p>
Altemose是一篇描述著絲粒周圍堿基對(duì)序列的論文的第一作者。一篇解釋如何進(jìn)行測(cè)序的論文出現(xiàn)在4月1日的《科學(xué)》雜志印刷版上,而Altemose的著絲粒論文和其他四篇描述新序列告訴我們什么的論文在該雜志上進(jìn)行了總結(jié),論文全文發(fā)布在網(wǎng)上。四篇配套論文,包括Altemose是共同第一作者的一篇,也于4月1日在《自然方法》雜志上在線發(fā)表。
測(cè)序和分析是由一個(gè)由100多人組成的團(tuán)隊(duì)完成的,即所謂的“端粒到端?!甭?lián)盟(T2T),以覆蓋所有染色體末端的端粒命名。該聯(lián)盟的所有22條常染色體和X性染色體的無(wú)間隙版本由30.55億個(gè)堿基對(duì)組成,這些堿基對(duì)是構(gòu)建染色體和我們的基因的單位,還有19969個(gè)蛋白質(zhì)編碼基因。在蛋白質(zhì)編碼基因中,T2T團(tuán)隊(duì)發(fā)現(xiàn)了大約2000個(gè)新的基因,其中大部分是禁用的,但其中115個(gè)可能仍在表達(dá)。他們還在人類基因組中發(fā)現(xiàn)了大約200萬(wàn)個(gè)額外的變體,其中622個(gè)發(fā)生在醫(yī)學(xué)相關(guān)的基因中。
“將來(lái),當(dāng)某人的基因組被測(cè)序時(shí),我們將能夠識(shí)別他們DNA中的所有變體,并利用這些信息更好地指導(dǎo)他們的醫(yī)療保健,”T2T的領(lǐng)導(dǎo)人之一、美國(guó)國(guó)立衛(wèi)生研究院國(guó)家人類基因組研究所(NHGRI)的高級(jí)調(diào)查員Adam Phillippy說(shuō)。“真正完成人類基因組序列就像戴上了一副新眼鏡?,F(xiàn)在我們可以清楚地看到一切,我們離理解這一切意味著什么又近了一步?!?/p>
不斷演變的著絲粒
著絲粒內(nèi)和周圍的新DNA序列共占整個(gè)基因組的6.2%,即近1.9億個(gè)堿基對(duì),或核苷酸。在剩下的新增加的序列中,大部分被發(fā)現(xiàn)在每條染色體末端的端粒周圍和核糖體基因周圍的區(qū)域。整個(gè)基因組僅由四種類型的核苷酸組成,這些核苷酸以三組為單位,對(duì)用于構(gòu)建蛋白質(zhì)的氨基酸進(jìn)行編碼。Altemose的主要研究涉及尋找和探索染色體上蛋白質(zhì)與DNA相互作用的區(qū)域。
Altemose說(shuō):“沒(méi)有蛋白質(zhì),DNA就什么都不是?!痹讷@得牛津大學(xué)統(tǒng)計(jì)學(xué)博士學(xué)位后,他于2021年在加州大學(xué)伯克利分校和舊金山分校聯(lián)合獲得了生物工程博士學(xué)位?!癉NA是一組指令,如果它周圍沒(méi)有蛋白質(zhì)來(lái)組織它,調(diào)節(jié)它,在它受損時(shí)修復(fù)它,并復(fù)制它,就沒(méi)有人可以讀懂它。蛋白質(zhì)與DNA的相互作用確實(shí)是基因組調(diào)控的所有行動(dòng)發(fā)生的地方,能夠繪制出某些蛋白質(zhì)與基因組結(jié)合的位置,對(duì)于理解它們的功能真的很重要?!?/p>
在T2T聯(lián)盟對(duì)缺失的DNA進(jìn)行測(cè)序后,Altemose和他的團(tuán)隊(duì)使用新技術(shù)找到了著絲粒內(nèi)的位置,在那里,一個(gè)被稱為"動(dòng)粒"的大蛋白復(fù)合物牢固地抓住了染色體,以便細(xì)胞核內(nèi)的其他機(jī)器能夠?qū)⑷旧w對(duì)拉開(kāi)。
他說(shuō):“當(dāng)這出錯(cuò)時(shí),你最終會(huì)出現(xiàn)染色體錯(cuò)誤分離的情況,而這將導(dǎo)致各種問(wèn)題。如果這發(fā)生在減數(shù)分裂中,這意味著你可能出現(xiàn)染色體異常,導(dǎo)致自發(fā)流產(chǎn)或先天性疾病。如果它發(fā)生在體細(xì)胞中,你可能最終患上癌癥--基本上,有大量錯(cuò)誤調(diào)節(jié)的細(xì)胞?!?/p>
他們?cè)谥z粒內(nèi)和周圍發(fā)現(xiàn)的是新的序列層疊在舊的序列層上,就像通過(guò)進(jìn)化,新的著絲粒區(qū)域被反復(fù)鋪設(shè)以結(jié)合到動(dòng)粒上。舊區(qū)域的特點(diǎn)是有更多的隨機(jī)突變和缺失,表明它們不再被細(xì)胞使用。較新的與動(dòng)粒結(jié)合的序列變化較少,而且甲基化程度也較低。甲基化的增加是一個(gè)表觀遺傳標(biāo)簽,傾向于使基因沉默。
著絲粒內(nèi)和周圍的所有層都是由重復(fù)長(zhǎng)度的DNA組成的,基于一個(gè)大約171個(gè)堿基對(duì)長(zhǎng)的單位,這大約是包裹著一組蛋白質(zhì)形成核糖體的DNA的長(zhǎng)度,保持DNA的包裝和緊湊。這些171個(gè)堿基對(duì)的單位形成了更大的重復(fù)結(jié)構(gòu),被串聯(lián)重復(fù)多次,在著絲粒周圍建立了一個(gè)大的重復(fù)序列區(qū)域。
T2T團(tuán)隊(duì)只關(guān)注一個(gè)人類基因組,該基因組是從一個(gè)被稱為葡萄胎的非癌癥腫瘤中獲得的,它本質(zhì)上是一個(gè)拒絕母體DNA而復(fù)制其父體DNA的人類胚胎。這樣的胚胎會(huì)死亡并轉(zhuǎn)化為腫瘤。但是這個(gè)痣有兩個(gè)相同的父系DNA副本--都帶有父親的X染色體,而不是來(lái)自母親和父親的不同DNA--這一事實(shí)使它更容易測(cè)序。
Altemose說(shuō),研究人員本周還發(fā)布了一個(gè)來(lái)自不同來(lái)源的Y染色體的完整序列,該序列花費(fèi)的時(shí)間幾乎與基因組的其他部分加起來(lái)一樣長(zhǎng)。對(duì)這個(gè)新的Y染色體序列的分析將出現(xiàn)在未來(lái)的出版物中。
Altemose和他的團(tuán)隊(duì),包括加州大學(xué)伯克利分校的項(xiàng)目科學(xué)家Sasha Langley,還用新的參考基因組作為支架,比較了來(lái)自世界各地的1600個(gè)個(gè)體的中心粒DNA,揭示了著絲粒周圍重復(fù)DNA的序列和拷貝數(shù)的重大差異。以前的研究表明,當(dāng)古人類群體從非洲遷移到世界其他地方時(shí),他們只帶走了一小部分基因變體的樣本。Altemose和他的團(tuán)隊(duì)證實(shí),這種模式延伸到了著絲粒。
Altemose說(shuō):“我們所發(fā)現(xiàn)的是,在非洲大陸以外的具有近期血統(tǒng)的個(gè)體中,他們的著絲粒,至少在X染色體上,往往分為兩個(gè)大的集群,而大多數(shù)有趣的變異是在具有近期非洲血統(tǒng)的個(gè)體中。鑒于我們對(duì)基因組其他部分的了解,這并不完全是一個(gè)驚喜。但它所表明的是,如果我們想看看這些著絲粒區(qū)域的有趣變異,我們確實(shí)需要集中精力對(duì)更多的非洲基因組進(jìn)行測(cè)序,并進(jìn)行完整的端粒到端粒的序列組裝?!?/p>
他指出,著絲粒周圍的DNA序列也可以用來(lái)追蹤人類的血統(tǒng),追溯到我們共同的猿人祖先。
Altemose說(shuō):“當(dāng)你遠(yuǎn)離活躍的著絲粒部位時(shí),你會(huì)得到越來(lái)越多的退化序列,以至于如果你走到這個(gè)重復(fù)序列‘海洋的最遠(yuǎn)海岸’,你開(kāi)始看到古老的著絲粒,也許,我們的靈長(zhǎng)類祖先的著絲粒曾經(jīng)與動(dòng)粒結(jié)合。這幾乎就像化石的層次。”
長(zhǎng)讀測(cè)序“改變了游戲規(guī)則”
T2T的成功歸功于一次對(duì)長(zhǎng)DNA片段進(jìn)行測(cè)序的改進(jìn)技術(shù),這有助于確定高度重復(fù)的DNA片段的順序。其中有PacBio的HiFi測(cè)序技術(shù),它可以高精度地讀取長(zhǎng)度超過(guò)20,000個(gè)堿基對(duì)的數(shù)據(jù)。另一方面, Oxford Nanopore技術(shù)有限公司開(kāi)發(fā)的技術(shù)可以讀取多達(dá)幾百萬(wàn)個(gè)堿基對(duì)的序列,盡管保真度較低。作為比較,Illumina公司的所謂下一代測(cè)序技術(shù)僅限于數(shù)百個(gè)堿基對(duì)。
Altemose說(shuō):“這些新的長(zhǎng)讀DNA測(cè)序技術(shù)真是令人難以置信;它們是這樣的游戲改變者,不僅對(duì)于這個(gè)重復(fù)的DNA世界,而且因?yàn)樗鼈冊(cè)试S你對(duì)單個(gè)長(zhǎng)的DNA分子進(jìn)行測(cè)序。你可以開(kāi)始在一個(gè)分辨率水平上提出問(wèn)題,這在以前是不可能的,即使是短讀測(cè)序方法也不可能?!?/p>
Altemose計(jì)劃進(jìn)一步探索著絲粒區(qū)域,使用他和斯坦福大學(xué)的同事開(kāi)發(fā)的一種改進(jìn)技術(shù)來(lái)確定染色體上被蛋白質(zhì)結(jié)合的位置,類似于動(dòng)粒與著絲粒結(jié)合的方式。這項(xiàng)技術(shù)也使用了長(zhǎng)讀測(cè)序技術(shù)。他和他的小組在本周發(fā)表在《自然方法》雜志上的一篇論文中描述了這種技術(shù),稱為定向甲基化與長(zhǎng)讀測(cè)序(DiMeLo-seq)。
同時(shí),T2T聯(lián)盟正在與人類泛基因組參考聯(lián)盟合作,致力于建立一個(gè)代表全人類的參考基因組。
Altemose說(shuō):“我們應(yīng)該有一個(gè)代表每個(gè)人的參考,而不是僅僅從一個(gè)人類個(gè)體或一個(gè)葡萄胎(甚至不是真正的人類個(gè)體)獲得一個(gè)參考。關(guān)于如何實(shí)現(xiàn)這一目標(biāo),有各種想法。但是我們首先需要的是掌握這種變異是什么樣子的,我們需要大量高質(zhì)量的個(gè)體基因組序列來(lái)完成這個(gè)任務(wù)?!?/p>
他在著絲粒區(qū)域的工作,他稱之為"一個(gè)激情項(xiàng)目",是由博士后獎(jiǎng)學(xué)金資助的。T2T項(xiàng)目的負(fù)責(zé)人是加州大學(xué)圣克魯茲分校的Karen Miga、華盛頓大學(xué)的Evan Eichler和NHGRI的Adam Phillippy,后者提供了大部分的資金。加州大學(xué)伯克利分校著絲粒論文的其他合著者是生物工程副教授Aaron Streets;分子和細(xì)胞生物學(xué)教授Abby Dernburg和Gary Karpen;項(xiàng)目科學(xué)家Sasha Langley;以及前博士后研究員Gina Caldas。
(舉報(bào))