一、茶樹(shù)基因型數(shù)字化
基因型又稱遺傳型,是某一生物個(gè)體全部基因組合的總稱?;蛐蛿?shù)字化鑒定能夠高通量準(zhǔn)確鑒定基因型,是解析重要農(nóng)藝性狀相關(guān)遺傳信息的基礎(chǔ),是茶樹(shù)種質(zhì)資源研究的必然發(fā)展趨勢(shì)。
1.基因組組裝
2017—2018年,利用二代測(cè)序技術(shù)進(jìn)行基因組序列組裝的云抗10號(hào)和舒茶早基因組草圖陸續(xù)公布。其中,云抗10號(hào)組裝得到的基因組大小為3.02Gb,包括了36951個(gè)注釋編碼蛋白;舒茶早基因組大小為3.14Gb,包含33932個(gè)注釋編碼蛋白。
隨著三代測(cè)序和Hi-C技術(shù)的成熟,近些年公布了多個(gè)染色體水平的茶樹(shù)基因組。利用Hi-C技術(shù)將舒茶早基因組草圖提升到了染色體水平,scaffoldN50從原來(lái)的1.4Mb提升到218.1Mb,基因組中94.7%的序列被定位到了15條染色體中。利用PacBio和Hi-C技術(shù),構(gòu)建了染色體級(jí)別的舒茶早基因組,其大小為2.94Gb,具有50525個(gè)注釋編碼蛋白。利用PacBio和Hi-C技術(shù)獲得了茶樹(shù)碧云染色體級(jí)別的基因組圖譜,其大小為2.92Gb,scaffoldN50為195.68Mb。公布了龍井43的染色體級(jí)別基因組序列,其基因組大小為3.26Gb,編碼33556個(gè)注釋蛋白。華中農(nóng)業(yè)大學(xué)的研究團(tuán)隊(duì)公布了云南省古茶樹(shù)DASZ基因組序列,該基因組為3.11Gb,編碼33021個(gè)注釋蛋白。福建農(nóng)林大學(xué)和中國(guó)農(nóng)業(yè)科學(xué)院基因所發(fā)布了黃棪和鐵觀音2個(gè)品種染色體級(jí)別的基因組序列。黃棪茶樹(shù)基因組為2.94Gb,包含43779個(gè)蛋白質(zhì)編碼基因。鐵觀音茶樹(shù)基因組大小為3.06Gb,包含了42825個(gè)蛋白質(zhì)編碼基因。
茶樹(shù)基因組和基因家族的進(jìn)化
‘龍井43’基因組特征和質(zhì)量評(píng)估結(jié)果
2.單核苷酸多態(tài)SNP分型
全基因組重測(cè)序能夠基于SNP實(shí)現(xiàn)全基因組水平上的基因型分型,近年來(lái)逐步開(kāi)始應(yīng)用于茶樹(shù)種質(zhì)資源的鑒定。對(duì)來(lái)自中國(guó)、老撾、俄羅斯、阿塞拜疆和伊朗的81個(gè)栽培型和野生型茶樹(shù)進(jìn)行重測(cè)序,共檢測(cè)到6252201個(gè)SNP位點(diǎn),基于基因型進(jìn)行了系統(tǒng)發(fā)育分析,將這些資源分為3個(gè)類(lèi)群。利用重測(cè)序技術(shù)對(duì)來(lái)自世界各地的139份茶樹(shù)種質(zhì)資源進(jìn)行分析,得到了21887萬(wàn)個(gè)SNP位點(diǎn)的基因型分型結(jié)果,平均1kb就有67個(gè)SNP位點(diǎn)。對(duì)190份茶樹(shù)資源進(jìn)行重測(cè)序分析,共鑒定到9407149個(gè)SNP位點(diǎn),得到相關(guān)基因型分型結(jié)果,并進(jìn)行了茶樹(shù)種質(zhì)資源的系統(tǒng)發(fā)育分析。對(duì)金萱和云茶1號(hào)及其96個(gè)F1代進(jìn)行了全基因組重測(cè)序,利用8956個(gè)SNP位點(diǎn)的基因型數(shù)字化結(jié)果構(gòu)建了遺傳圖譜。
簡(jiǎn)化基因組測(cè)序是利用限制性內(nèi)切酶對(duì)DNA進(jìn)行酶切,并對(duì)酶切片段兩端序列進(jìn)行高通量測(cè)序,通過(guò)鑒定獲得的SNP信息進(jìn)行基因分型,是一種快速、簡(jiǎn)單、低成本的基因型數(shù)字化方法?;谟?、北躍單株及其148個(gè)F1子代利用SLAF-seq技術(shù)開(kāi)發(fā)出了6042個(gè)SNP標(biāo)記,并以此建立了首張茶樹(shù)SNP遺傳圖譜?;邶埦?3、白毫早及其327個(gè)F1代使用2bRAD測(cè)序技術(shù)獲得了13446個(gè)SNP標(biāo)記,構(gòu)建了高密度遺傳圖譜,并得到了27個(gè)與兒茶素相關(guān)的QTL位點(diǎn)。利用簡(jiǎn)化基因組技術(shù)對(duì)59份茶組植物進(jìn)行測(cè)序,得到了248772個(gè)高質(zhì)量SNP位點(diǎn)的分型結(jié)果,隨后對(duì)這些SNP位點(diǎn)進(jìn)行了主成分分析、遺傳結(jié)構(gòu)分析和基因流分析,結(jié)果發(fā)現(xiàn)大廠茶與疏齒茶有遺傳結(jié)構(gòu)上的差異,且證明茶組植物種內(nèi)親緣關(guān)系受其地理來(lái)源的直接影響。對(duì)龍井43、白雞冠及其雜交產(chǎn)生的198個(gè)F1個(gè)體進(jìn)行了簡(jiǎn)化基因組測(cè)序,構(gòu)建了包含2688個(gè)SNP標(biāo)記的遺傳圖譜,并根據(jù)2年的氨基酸數(shù)據(jù)進(jìn)行了QTL分析,最終得到了4個(gè)與氨基酸含量相關(guān)的QTL位點(diǎn)。
轉(zhuǎn)錄組測(cè)序能夠鑒定基因表達(dá)區(qū)的SNP位點(diǎn),進(jìn)行SNP分型。完成了古茶樹(shù)DASZ染色體級(jí)別的基因組組裝,并在此基礎(chǔ)上與217份不同茶樹(shù)種質(zhì)資源的轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行比較。結(jié)果表明,81.1%的DASZ注釋基因被覆蓋SNPs,其中4個(gè)SNP與ECG的含量顯著關(guān)聯(lián)。利用139份中國(guó)茶樹(shù)品種的轉(zhuǎn)錄組數(shù)據(jù)鑒定到了925854個(gè)高質(zhì)量的SNP,并將139份茶樹(shù)品種分為5個(gè)類(lèi)群,發(fā)現(xiàn)每個(gè)類(lèi)群各有特異代謝物積累和基因表達(dá)差異,其中阿薩姆茶具有豐富的黃酮類(lèi)化合物積累。
二、茶樹(shù)表型數(shù)字化
表型組學(xué)旨在集成自動(dòng)化平臺(tái)裝備和信息化技術(shù)手段,可以系統(tǒng)、高效地獲取表型信息,以實(shí)現(xiàn)植物表型的數(shù)字化精準(zhǔn)鑒定。表型組學(xué)常常構(gòu)建一些表型檢測(cè)平臺(tái),搭載圖像、點(diǎn)云、光譜、紅外、X射線等技術(shù)來(lái)快速高效地?cái)?shù)字化采集植物多尺度的大量表型數(shù)據(jù),目前已在玉米、小麥、大豆等較多作物上應(yīng)用。
表型組學(xué)在茶樹(shù)種質(zhì)資源鑒定評(píng)價(jià)中的應(yīng)用還處于起步階段,一些簡(jiǎn)單的技術(shù)在茶樹(shù)葉片形態(tài)特征和農(nóng)藝性狀相關(guān)的表型上開(kāi)展了應(yīng)用。利用Photoshop對(duì)茶樹(shù)的葉面積進(jìn)行了測(cè)量,并與葉面積的經(jīng)驗(yàn)公式進(jìn)行對(duì)比,發(fā)現(xiàn)計(jì)算機(jī)測(cè)定的結(jié)果更加準(zhǔn)確。利用Photoshop對(duì)茶樹(shù)新梢的顏色和成熟葉的葉面積進(jìn)行了測(cè)定,并對(duì)其中的相關(guān)參數(shù)進(jìn)行了分析。但是這兩項(xiàng)工作都是基于Photoshop軟件進(jìn)行研究,導(dǎo)致關(guān)于圖像處理的操作有限,自由度小,同時(shí)工作效率也受到限制,難以處理大批量的茶樹(shù)葉片圖像。隨著數(shù)字化研究的不斷深入,像Python、R、MATLAB等編程語(yǔ)言因具有批量處理、速度快、應(yīng)用面廣等優(yōu)點(diǎn),漸漸成為了進(jìn)行茶樹(shù)表型數(shù)字化處理的主流工具。隨著無(wú)人機(jī)技術(shù)的發(fā)展,利用無(wú)人機(jī)對(duì)茶樹(shù)進(jìn)行表型分析成為了新的發(fā)展趨勢(shì)。利用3種模型分別通過(guò)無(wú)人機(jī)拍攝的茶園多光譜圖片對(duì)茶樹(shù)的氮、茶多酚和氨基酸的含量進(jìn)行評(píng)估。結(jié)果表明,SVM模型對(duì)于預(yù)測(cè)氮和茶多酚的含量最佳;PLSR模型預(yù)測(cè)氨基酸的含量是最佳的,同時(shí)證明空中預(yù)測(cè)結(jié)果與地面測(cè)量結(jié)果一樣可靠,這為茶樹(shù)種質(zhì)資源的精準(zhǔn)評(píng)價(jià)提供了技術(shù)支持。
SVM、PLS和BP模型被用于驗(yàn)證,并測(cè)量和預(yù)測(cè)的值進(jìn)行比較和分析:(a)使用支持向量機(jī)來(lái)預(yù)測(cè)氮(N);(b)利用SVM預(yù)測(cè)茶多酚(TP);(c)利用SVM預(yù)測(cè)氨基酸(AA);(d)PLS回歸預(yù)測(cè)N;(e)PLS回歸預(yù)測(cè)TP;(f)PLS回歸預(yù)測(cè)AA;(g)BP預(yù)測(cè)N;(h)利用BP預(yù)測(cè)TP;(i)利用BP預(yù)測(cè)AA。
目前,茶樹(shù)種質(zhì)資源表型數(shù)字化的應(yīng)用主要體現(xiàn)在基于分類(lèi)器結(jié)合圖像特征對(duì)茶樹(shù)種質(zhì)資源識(shí)別的方面。提取了17份茶樹(shù)種質(zhì)資源的14個(gè)圖像特征,并基于圖像特征進(jìn)行了遺傳多樣性分析,并利用人工神經(jīng)網(wǎng)絡(luò)對(duì)茶樹(shù)品種進(jìn)行了預(yù)測(cè)。通過(guò)茶樹(shù)鮮葉圖像對(duì)10個(gè)茶樹(shù)品種進(jìn)行了識(shí)別。除了利用形態(tài)特征、紋理特征及顏色特征外,還使用多重分形特征來(lái)對(duì)葉片進(jìn)行描述,并用6種分類(lèi)器同時(shí)建模比較分類(lèi)精度。結(jié)果表明,SVM和隨機(jī)森林法的建模對(duì)茶樹(shù)種質(zhì)資源的分類(lèi)精度較高,能達(dá)到90%左右。在利用圖像特征識(shí)別武夷巖茶的方面研究較多,2018年對(duì)SVM分類(lèi)器的內(nèi)核進(jìn)行了優(yōu)化后,以提取的14個(gè)形狀和紋理圖像特征為基礎(chǔ),對(duì)水仙和肉桂這2份茶樹(shù)資源進(jìn)行識(shí)別,準(zhǔn)確率高達(dá)91%;2019年利用3種分類(lèi)器通過(guò)灰度共生矩陣下的紋理特征對(duì)黃觀音、瑞香、丹桂和奇蘭4個(gè)品種的茶鮮葉進(jìn)行識(shí)別,其識(shí)別準(zhǔn)確率在80%左右,且結(jié)果證明KNN分類(lèi)器的識(shí)別率最高;2020年利用整體與局部信息融合的CNN模型結(jié)合茶樹(shù)葉片的整體特征和局部特征對(duì)9個(gè)武夷巖茶茶樹(shù)品種進(jìn)行識(shí)別,識(shí)別率達(dá)到96.69%。
三、茶樹(shù)數(shù)字化管理與利用
隨著表型組和基因組的快速發(fā)展,大量種質(zhì)資源的數(shù)字化表型和基因型被鑒定,這使得很多重要的農(nóng)藝性狀被揭示。但是由于數(shù)據(jù)量大,導(dǎo)致共享利用不便,阻礙了茶樹(shù)重要農(nóng)藝性狀的分子解析。隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,種質(zhì)資源信息數(shù)據(jù)庫(kù)的搭建可以快速實(shí)現(xiàn)數(shù)字化管理與利用。中國(guó)農(nóng)業(yè)科學(xué)院茶葉研究所利用生物信息技術(shù)和互聯(lián)網(wǎng)技術(shù)建設(shè)了茶樹(shù)種質(zhì)資源基因組變異大數(shù)據(jù)分析平臺(tái)。目前平臺(tái)已經(jīng)整合超過(guò)7000多萬(wàn)個(gè)基因組變異位點(diǎn)、808份茶樹(shù)資源的基因型數(shù)據(jù)、464種代謝物的表型數(shù)據(jù)和430682個(gè)基因型-表型關(guān)聯(lián)位點(diǎn)。平臺(tái)主要用于茶樹(shù)種質(zhì)資源基因組變異的大數(shù)據(jù)在線分析,能夠根據(jù)基因組位置、基因信息、材料比較、基因或變異編號(hào)等不同的策略檢索基因組SNP和InDel。通過(guò)該平臺(tái)還能夠?qū)崿F(xiàn)茶樹(shù)種質(zhì)資源的代謝表型查詢及GWAS分析,快速挖掘性狀相關(guān)的SNP和InDel位點(diǎn)。此外,平臺(tái)還整合了在線Blast、序列提取、引物設(shè)計(jì)、群體遺傳分析等工具,為茶樹(shù)種質(zhì)資源的數(shù)字化利用與共享提供了一個(gè)用戶友好型平臺(tái)。安徽農(nóng)業(yè)大學(xué)構(gòu)建了茶樹(shù)信息檔案數(shù)據(jù)庫(kù)(TPIA),以舒茶早基因組圖譜為框架,整合了基因組信息、轉(zhuǎn)錄組、代謝組等數(shù)據(jù)。平臺(tái)還集成了功能富集分析、相關(guān)性分析、引物設(shè)計(jì)、序列比對(duì)等工具,有助于組學(xué)數(shù)據(jù)的數(shù)字化利用。南京農(nóng)業(yè)大學(xué)構(gòu)建了茶樹(shù)基因組數(shù)據(jù)庫(kù)(TeaPGDB),整合了已完成組裝的各個(gè)基因組數(shù)據(jù),方便科研人員進(jìn)行利用分析。此外,一些轉(zhuǎn)錄組相關(guān)的數(shù)據(jù)庫(kù)網(wǎng)站也陸續(xù)被開(kāi)發(fā),如TeaCoN、TeaAS等。茶樹(shù)種質(zhì)資源數(shù)字化管理與利用能有效促進(jìn)茶樹(shù)種質(zhì)資源的保護(hù)、利用與共享,為茶樹(shù)系統(tǒng)演化研究、關(guān)鍵性狀解析、品種改良等提供了堅(jiān)實(shí)的基礎(chǔ)。
茶樹(shù)信息檔案數(shù)據(jù)庫(kù)(TPIA)
四、展望
1.組學(xué)技術(shù)
未來(lái),組學(xué)技術(shù)將在茶樹(shù)種質(zhì)資源的數(shù)字化精準(zhǔn)鑒定方面不斷深入,利用基因組學(xué)、轉(zhuǎn)錄組學(xué)、表觀組學(xué)、蛋白組學(xué)、代謝組學(xué)、表型組學(xué)等技術(shù)手段,對(duì)茶樹(shù)種質(zhì)資源進(jìn)行高通量、多維度、精準(zhǔn)化的鑒定評(píng)估。與基因組學(xué)技術(shù)相比,表型組學(xué)技術(shù)在茶樹(shù)種質(zhì)資源中的應(yīng)用還比較落后,這阻礙了茶樹(shù)種質(zhì)資源的精準(zhǔn)評(píng)價(jià)和深入挖掘進(jìn)程。針對(duì)茶樹(shù)種質(zhì)資源的特性,加強(qiáng)茶樹(shù)表型鑒定設(shè)施平臺(tái)的建設(shè),開(kāi)發(fā)對(duì)應(yīng)的數(shù)字化鑒定方法,從而提升茶樹(shù)種質(zhì)資源規(guī)?;?、批量化、精準(zhǔn)化鑒定評(píng)價(jià)的基礎(chǔ)和條件。
2.多組學(xué)聯(lián)合分析
伴隨著大量茶樹(shù)種質(zhì)資源被數(shù)字化精準(zhǔn)鑒定,多組學(xué)聯(lián)合分析將成為實(shí)現(xiàn)茶樹(shù)種質(zhì)資源創(chuàng)新利用的必然途徑。通過(guò)基因組學(xué)和生物信息學(xué)等技術(shù)手段,利用多組學(xué)聯(lián)合分析系統(tǒng)深入挖掘基因型、表型和環(huán)境型之間的內(nèi)在關(guān)聯(lián),研究茶樹(shù)表型對(duì)遺傳信息和環(huán)境變化的響應(yīng)機(jī)制。同時(shí),結(jié)合分子生物學(xué)、遺傳育種學(xué)、生物化學(xué)、合成生物學(xué)等技術(shù),深入解析茶樹(shù)重要農(nóng)藝性狀的分子機(jī)理和遺傳基礎(chǔ),為茶樹(shù)種質(zhì)資源的創(chuàng)新利用提供堅(jiān)實(shí)基礎(chǔ),并加速茶樹(shù)品種改良進(jìn)程。
3.數(shù)字化利用與共享
茶樹(shù)種質(zhì)資源數(shù)字化鑒定評(píng)估產(chǎn)生的數(shù)據(jù)量龐大、標(biāo)準(zhǔn)不一,導(dǎo)致共享利用不便,阻礙了其生物數(shù)據(jù)的有效利用。為了增加不同數(shù)據(jù)集之間的可比性,必須通過(guò)科學(xué)的分類(lèi)、統(tǒng)一的描述規(guī)范和對(duì)茶樹(shù)種質(zhì)資源的基因組、轉(zhuǎn)錄組、代謝組、表型組等組學(xué)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理和評(píng)價(jià)。利用大數(shù)據(jù)和互聯(lián)網(wǎng)技術(shù),整合茶樹(shù)種質(zhì)資源多組學(xué)數(shù)據(jù),開(kāi)發(fā)友好型在線分析工具,創(chuàng)建資源共享利用平臺(tái),加快數(shù)字化種質(zhì)資源的利用效率,推動(dòng)整個(gè)茶科學(xué)的進(jìn)步與發(fā)展。
本文節(jié)選自《中國(guó)茶葉》2022年第4期,P1-7,《茶樹(shù)種質(zhì)資源數(shù)字化研究及展望》,作者:陳琪予,陳亮,陳杰丹。
信息貴在分享,如涉及版權(quán)問(wèn)題請(qǐng)聯(lián)系刪除