小編的世界 優質文選 c20
字體大小:
2020年11月11日 -
:
17年前,科學家宣布,人類基因組圖譜繪製完成。但我很遺憾地告訴各位,這不是事實。
如果你曾被誤導,那是因為長期以來,很多科學家自身也忽視了人類DNA中最後幾個未組裝的區域,它們主要由看起來不像基因的短回文重複序列組成。
「這片巨大的空白仍然存在。」加州大學聖克魯茲分校的基因組研究員卡倫·米加(Karen Miga)說。之所以如此,是因為科學家無法對DNA的這些重複序列進行測序和組裝——但現在,情況發生了變化。
在一項里程碑式的研究中,米加和同事們發現了Y染色體著絲粒的完整序列,它包含30萬個字符。對於Y染色體著絲粒這種奇怪的結構,人們對它的了解曾經十分有限。
你也許想不到,既然著絲粒序列如此重要,可科學家竟然從未組裝過著絲粒序列。染色體是緊湊的DNA結構,而著絲粒是染色體上的一個特殊區域。細胞分裂時,絲狀蛋白附著於著絲粒,使染色體分離。如果著絲粒功能異常,細胞的染色體就會過少,或者過多,唐氏綜合徵就是如此。著絲粒功能異常也與癌症等疾病有關。
「每個染色體的這個區域都有著至關重要的作用。」杜克大學分子生物學家貝絲·沙利文(Beth Sullivan)說,「你肯定以為我們對著絲粒已經了如指掌了。」沙利文沒有參與上述研究。
然而,著絲粒很難破解。它們含有相似甚至完全相同的序列,這些序列可能達到170個字符長度,重複數百或者數千次。傳統的測序儀把一串DNA分成多個「可讀」的短片段,然後像拼圖一樣組裝起來。
「破解著絲粒的困難之處就在於,所有片段看起來都是一樣的。這就像在拼撒哈拉沙漠的拼圖。」沙利文說。研究基因的生物學家能夠受益於大量的基因序列信息,但研究著絲粒的生物學家,卻基本沒有序列信息可供研究。
現在,我們有了納米孔測序,這項新技術能讀取更長的DNA片段。米加和同事們決定用這項技術來破解著絲粒。儘管納米孔測序仍然無法一次性破解Y染色體著絲粒的數十萬個字符,但可以提供更少、更大的拼圖塊,大幅降低了序列組裝的難度。
米加團隊測序並組裝的Y染色體著絲粒來自於美國紐約州布法羅市的一位匿名男性,他的DNA曾被用於人類基因組計劃的大多數項目。這個著絲粒的序列並沒有太多令人意外的地方。這是好事,因為這意味著納米孔測序(一項仍然相對較新的技術)沒有產生錯誤,從而為今後更多的著絲粒測序打開了大門。「在我看來,這只是以後開展研究的基礎。」米加說。
對某一個著絲粒進行測序,這只是一次技術上的探索,對大量著絲粒進行測序,才會產生真正令人感興趣的東西。例如,一直以來,Y染色體都被用於研究人類遷徙歷史和遺傳變異。而著絲粒提供了更多的數據,因為它們千差萬別:不僅重複序列的字符不同,而且人與人之間同一染色體上的著絲粒序列長度,也能相差20倍之多。「如果你想觀察人類遺傳變異,我覺得這就是你應該研究的地方。」弗雷德·哈欽森癌症研究中心的著絲粒研究員史蒂夫·亨尼科夫(Steve
Henikoff)說。他把這項新研究稱為著絲粒研究領域的「里程碑」。
科學家也想研究其他染色體的著絲粒。米加之所以從Y染色體入手,只是因為這是最簡單的。Y染色體的著絲粒序列長度只有幾十萬個字符,而沙利文研究的17號染色體,其著絲粒序列長度多達400萬個字符。17號染色體異常與乳腺癌等多種疾病有關。如果科學家可以對很長的著絲粒進行完整測序,也許就能弄明白細微變化(比如序列中的小錯誤或者重複的順序)會如何影響著絲粒功能。
而破解這些更長的著絲粒將更加困難。諾丁漢大學生物學家馬修·盧斯(Matthew Loose)最近領導了一個項目,利用納米孔技術對人類基因組(不包括著絲粒)進行測序。他說,在「不久的將來」,獲得更完整的基因組序列,將不再是一件難事。
染色體不只是有著絲粒。例如,異染色質占到了Y染色體的很大一部分,這是另一個DNA高度重複的區域。「Y染色體就是這麼難對付。」米加說。
依靠納米孔測序技術,科學家開始填補空白——距離真正完整的人類基因組序列,我們越來越近了。