棉花基因組重測序案例分享
標題:
Resequencing of 243 diploid cotton accessions based on an updated A genome identifies the genetic basis of key agronomic traits
期刊:
Nature Geneticse (IF = 25.45)
研究背景:
棉花是世界上最重要的經濟作物之一,同時也是研究植物多倍化的重要資源。Gossypium arboreum和Gossypium herbaceum的祖先為現代栽培異源四倍體棉花提供了A亞基因組。G. arboreum可能是在馬達加斯加或者印度河流域被馴化,隨后擴散到非洲和亞洲其他區域。其最初傳入中國在大約1000年前,作為一種觀賞植物。雖然棉花育種工作者已經構建了各種基于RFLP5和SSR的遺傳圖譜,但尚未鑒定G. arboreum和G. herbaceum優良農藝經濟性狀相關的關鍵基因。
研究材料:
基因組測序材料:二倍體G. arboreum栽培品種cultivar Shixiya1(SXY1)
自然群體材料選擇:243份棉花,包含230份G. arboreum和13份G. herbaceum,測序深度6×;
遺傳群體材料選擇:親本(GA0146和GA0149),測序深度20×;2個混池(F2群體,有絨型和無絨型各20個子代),測序深度30×;
群體材料表型調查:在230份G. arboreum中選擇了215份表型穩定的材料,大部分性狀選自多年多點的表型數據進行調查。
主要研究結果:
G. arboreum基因組組裝更新:三代+Hi-C:PacBio reads(77.6×);有效Hi-C reads(>20×);三代組裝結果:共計獲得了142.54 Gb 原始三代測序數據,組裝1.71 Gb基因組,Contig N50=1.1 Mb,最長的Contig為12.37 Mb。利用Hi-C技術將組裝的1573 Mb的數據定位到13條染色體上,與已經發表的基因組相比,當Hi-C數據比對到更新的基因組后,對角線外的不一致性明顯減少。與異源四倍體陸地棉的AADD型的共線性分析,發現更新后的基因組的共線性更高。

表1
G. arboreum原基因組與更新后基因組的組裝指標比較
基于243份棉花重測序數據進行群體進化分析。以G. raimondii基因組作為外類群,使用72419個SNP位點構建NJ樹(圖1a),G. herbaceum和G. arboreum被分到兩個不同的分枝。G. arboreum分枝繼續被分成中國南部SC,長江流域YZR和黃河流域YER三個組分,其表現出一定的地理分化模式,同時PCA研究也表現出同樣的結果(圖1c),表明這兩個物種是由不同的野生祖先獨立馴化的。表型計算統計發現,與YZR和YER的材料相比,SC材料的表型相對匱乏。核酸多態性檢測發現,SC(π=0.211×10-3)比YZR(π=0.197×10-3)和YER(π=0.199×10-3)的核苷酸多態性高,這表明了G. arboreum最早在中國南部種植,并進一步擴展到長江和黃河流域。連鎖不平衡分析顯示,G. arboreum的LD衰減距離約為105.5 kb(r2=0.40),G. herbaceum的衰減距離約為145.5 kb(r2=0.39)(圖1d)。同時,大約有23.9%的G. arboreum 和22.9%的G. herbaceum的等位基因與G. raimondii的基因組相一致(圖1e),暗示了G. arboreum 和G. herbaceum同時開始分化。

圖1
G. arboreum群體進化分析及LD分析
人工選擇在作物馴化和遷移中扮演著重要的角色。基于FST選擇性清除分析鑒定出了分別覆蓋到3,162,2,879和3,308個基因上的59,53和51個顯著遺傳分化的區域(SC vs. YZR, SC vs. YER, YZR vs. YER)(圖2 f)。
基于11個重要性狀進行全基因組關聯分析,在98個顯著關聯的信號中,其中25信號個來自基因區,73個信號來自非編碼區。大部分農藝性狀的GWAS關聯信號中顯示地理差異(圖2 g),如交配分支數,開花期,鈴重和抗病性這些性狀定位在保守的基因區。因此推斷成熟度,產量和抗病性等性狀長期受到人為/或自然地理選擇。

圖2 選擇性清除分析及GWAS
通過GWAS關聯分析,在11號染色體上的GaKASIII locus(Ga11G3851)的第8個外顯子區獲得了1個顯著的SNP位點,該基因編碼3-Oxoacyl-[acyl-carrier-protein ACP] synthase III。KASIII基因編碼的這一關鍵酶確定種子中棕櫚酸(C16:0)和棕櫚油酸(C16:1)的組成(圖3ab)。GaKASIII基因單倍型B(TGT,Cys)主要出現在低含油量種質中,而單倍型A(CGT,Arg)主要出現在在高含油量種質中(圖3cdef)。GaKASIII基因在開花后(DPA)的30天表達量最高,這是種子油量積累的關鍵時期,在單倍型種質A中,C16:0和C16:1含量以顯著的速率累積(圖3h);蛋白質結構模型預測顯示,半胱氨酸/精氨酸殘基位于α螺旋處,該位點靠近酶活性位點,同時是輔酶A(CoA)結合位點(圖3g)。

圖3
GaKASIII調節棉籽油含量機理
通過GWAS,進行G. arboreum枯萎病FOV抗性分析,發現在11號染色體上獲得了強的關聯信號(圖4a)。關聯到的SNP簇與擬南芥GSTF9基因為直系同源基因,其編碼與植物對生物和非生物脅迫響應的谷胱甘肽S轉移酶(glutathione-S-transferases)。攜帶疾病易感等位基因‘T’的種質主要在SC群體中發現,所有YER群體材料攜帶耐病等位基因‘C’(圖4 c)。qRT–PCR 分析,GSTF9基因僅在FOV接種的棉花幼苗的耐受系中上調表達(圖4d)。與空載體棉花系(TRV::00)相比,GSTF9基因沉默棉花品系(TRV::GSTF9)對于FOV的接種更加敏感(圖4ef)。此外,TRV::GSTF9植株系與TRV::00植株系相比,TRV :: GSTF9植株系中的真菌DNA的量顯著高于TRV::00植株系,且GST催化活性顯著低于TRV::00植株系(圖4gh),表明GaGSTF9基因可能是G. arboreum枯萎病FOV抗性的靶標。

圖4 經過地理隔離的遺傳位點對枯萎病具有抗性
基于G. arboreum種質中的158份有絨毛和57份無絨毛材料進行GWAS關聯分析,在8號染色體上獲得了較強的關聯信號(圖5 a-b)。QTL分析也同樣定位到8號染色體上(圖5c)。通過有絨毛品系(GA0146)和無絨毛品系(GA0149)雜交獲得的F2代顯示了有絨毛和無絨毛的表型分離比為1:3(圖5d),說明了棉絨的生長是由單基因座控制。研究中放大了QTL和GWAS的重疊區,鑒定了凱氏帶膜蛋白基因在棉絨細胞的發育過程中可能發揮功能性的作用。

圖5 棉絨GWAS和QTL分析
研究意義:
本研究表明地理隔離已經影響了SC,YZR和YER群體的遺傳基礎,同時影響了中國G. arboreum棉的抗病性和產量性狀的形成與分布。
參考文獻:
1. Adhikari K, Mendoza-Revilla J, Sohail A, et al. A GWAS in Latin Americans highlights the convergent evolution of lighter skin pigmentation in Eurasia. Nature communications, 2019, 10(1): 1-16.
2. Du X, Huang G, He S, et al. Resequencing of 243 diploid cotton accessions based on an updated A genome identifies the genetic basis of key agronomic traits. Nature genetics, 2018, 50(6): 796-802.
3. Kaya H B, Akdemir D, Lozano R, et al. Genome wide association study of 5 agronomic traits in olive (Olea europaea L.). Scientific Reports, 2019, 9(1): 1-14.
4. Styrkarsdottir U, Stefansson O A, Gunnarsdottir K, et al. GWAS of bone size yields twelve loci that also affect height, BMD, osteoarthritis or fractures. Nature communications, 2019, 10(1): 1-13.
5. Tamisier L, Szadkowski M, Nemouchi G, et al. Genome‐wide association mapping of QTLs implied in potato virus Y population sizes in pepper: evidence for widespread resistance QTL pyramiding. Molecular plant pathology, 2020, 21(1): 3-16.
6. Wu D, Liang Z, Yan T, et al. Whole-genome resequencing of a worldwide collection of rapeseed accessions reveals the genetic basis of ecotype divergence. Molecular plant, 2019, 12(1): 30-43.