甲基化芯片數(shù)據(jù)的擴(kuò)展方法與流程
甲基化芯片是表觀遺傳學(xué)中研究較多的修飾形式,也是人類認(rèn)識早的表觀遺傳學(xué)現(xiàn)象之一。 甲基化芯片的變化影響著細(xì)胞正常發(fā)育過程中基因組轉(zhuǎn)錄模式的變化,在疾病的發(fā)生和發(fā)展中起著重要作用,目前我們獲取dna甲基化數(shù)據(jù)主要是通過實(shí)驗(yàn)方法檢測dna甲基化狀態(tài),這種方法測量數(shù)據(jù)比較準(zhǔn)確,但人力財(cái)力費(fèi)用較大。 因此,用計(jì)算方法預(yù)測dna甲基化數(shù)據(jù)顯得尤為重要和重要,那么,下面一起了解下甲基化芯片數(shù)據(jù)的擴(kuò)展方法與流程吧!
甲基化芯片檢測方法常用的方法是亞硫酸鹽序列和亞硫酸鹽微陣列法,全基因組亞硫酸氫鈉序列(wgbs )具有全面的基因組覆蓋,但高序列深度使其非常昂貴。 亞硫酸鹽微陣列方法成本較低,但受制于先驗(yàn)?zāi)繕?biāo)區(qū)域,覆蓋的基因組范圍較小。
甲基化芯片技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足,提供使用在不同組織中具有類似的局部甲基化芯片模式的cpg部位甲基化值和相鄰的cpg部位甲基化加權(quán)值進(jìn)行建模和擴(kuò)展的dna甲基化芯片數(shù)據(jù)的擴(kuò)展方法,從而實(shí)現(xiàn)上述發(fā)明的目的
1、提取數(shù)據(jù)
從甲基化芯片通用數(shù)據(jù)庫geo中獲取31種不同組織的t1.t2.t31全基因組亞硫酸鹽測序數(shù)據(jù)和31種組織相應(yīng)的dna甲基化芯片數(shù)據(jù); 另外,從該數(shù)據(jù)庫中取得與上述31種組織不同其他任意組織t32的全部基因組亞硫酸鹽測序的數(shù)據(jù)和dna甲基化芯片的數(shù)據(jù);
2、數(shù)據(jù)預(yù)處理
分別判斷全基因組亞硫酸氫鹽測序數(shù)據(jù)和dna甲基化芯片數(shù)據(jù)各行是否有空值,如有空值則刪除相應(yīng)行,得到標(biāo)準(zhǔn)全基因組亞硫酸氫鹽測序數(shù)據(jù)和dna甲基化芯片數(shù)據(jù);
3、特征提取
假設(shè)各組織中有n個(gè)相同數(shù)量的cpg位點(diǎn),其中n個(gè)位點(diǎn)的甲基化值通過全基因組亞硫酸鹽序列檢測到,n個(gè)位點(diǎn)中m個(gè)位點(diǎn)同時(shí)通過dna甲基化芯片檢測到,則剩下的k個(gè)位點(diǎn)通過dna甲基化芯片檢測到將組織t32中的第k (k=1.2.…,k )個(gè)芯片未檢測到的部位設(shè)為cpgk;在31個(gè)組織中找到局部甲基化模式與cpgk位點(diǎn)相似的組織,根據(jù)該組織對應(yīng)cpgk位點(diǎn)的全部基因組亞硫酸順序檢測到的甲基化值以及接近c(diǎn)pgk的2個(gè)位點(diǎn)的甲基化加權(quán)值和cpgk位點(diǎn)的全部基因組亞硫酸鹽順序。
4、訓(xùn)練邏輯回歸模型
作為logistic回歸模型的輸入,以yk為logistic回歸模型的輸出訓(xùn)練logistic回歸模型,得到標(biāo)準(zhǔn)的logistic回歸模型
5、獨(dú)立樣本預(yù)測
甲基化芯片獲取任意組織的dna甲基化芯片數(shù)據(jù),t1、t2、t31的全部基因組移位測序數(shù)據(jù)和對應(yīng)的dna甲基化芯片數(shù)據(jù),并通過步驟(2、3 )中描述的方法獲取甲基化值。
相關(guān)新聞
復(fù)制成功
×