如何使用TCGAbiolinks進(jìn)行數(shù)據(jù)預(yù)處理?
這里將生成一個(gè)array-array intensity correlation(AAIC)相關(guān)性熱圖,如下:
TCGAanalyze_Preprocessing()中的參數(shù):
參數(shù)用法object來(lái)自TCGAprepare的結(jié)果cor.cut設(shè)置閾值,根據(jù)樣本中各個(gè)樣本之間的spearman相關(guān)系數(shù)進(jìn)行過(guò)濾。默認(rèn)為0filename設(shè)置生成圖片文件的名稱(chēng),默認(rèn)為PreprocessingOutput.pngwidth生成圖片的寬度?? height生成圖片的高度datatype描述RangedSummarizedExperiment 數(shù)據(jù)類(lèi)型的字符串
第五步:TCGAtumor_purity()篩選腫瘤純度大于60%的腫瘤barcodes
# TCGAtumor_purity(barcodes, estimate, absolute, lump, ihc, cpe),使用來(lái)自5種方法的5個(gè)估計(jì)值作為閾值對(duì)TCGA樣本進(jìn)行過(guò)濾,這5個(gè)值是estimate, absolute, lump, ihc, cpe,這里設(shè)置cpe=0.6(cpe是派生的共識(shí)度量,是將所有方法的標(biāo)準(zhǔn)含量歸一化后的均值純度水平,以使它們具有相等的均值和標(biāo)準(zhǔn)差)
#篩選腫瘤純度大于等于60%的樣本數(shù)據(jù)
purityDATA <- TCGAtumor_purity(colnames(dataPrep1), 0, 0, 0, 0, 0.6)
# filtered 為被過(guò)濾的數(shù)據(jù), pure_barcodes是我們要的腫瘤數(shù)據(jù)
Purity.LIHC<-purityDATA$pure_barcodes
normal.LIHC<-purityDATA$filtered
filtered 為被過(guò)濾的數(shù)據(jù)(為正常組織的數(shù)據(jù)barcodes), pure_barcodes是我們要的腫瘤樣本barcodes。
第六步:將腫瘤表達(dá)矩陣與正常組織表達(dá)矩陣合并,進(jìn)行基因注釋
#獲取腫瘤純度大于60%的340個(gè)腫瘤組織樣本+50個(gè)正常組織樣本,共計(jì)390個(gè)樣本
puried_data <-dataPrep2[,c(Purity.LIHC,normal.LIHC)]
第七步:進(jìn)行表達(dá)矩陣基因注釋
;蜃⑨?zhuān)枰虞d“SummarizedExperiment”包,“SummarizedExperiment container”每個(gè)由數(shù)字或其他模式的類(lèi)似矩陣的對(duì)象表示。行通常表示感興趣的基因組范圍和列代表樣品。
#if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
#BiocManager::install("SummarizedExperiment") #沒(méi)有的需要執(zhí)行下載代碼
library("SummarizedExperiment")
rowData(dataPrep1) #傳入數(shù)據(jù)dataPrep1必須為SummarizedExperiment對(duì)象
# DataFrame with 56512 rows and 3 columns
# ensembl_gene_id external_gene_name original_ensembl_gene_id
# <character> <character> <character>
# ENSG00000000003 ENSG00000000003 TSPAN6 ENSG00000000003.13
# ENSG00000000005 ENSG00000000005 TNMD ENSG00000000005.5
# ENSG00000000419 ENSG00000000419 DPM1 ENSG00000000419.11
# ENSG00000000457 ENSG00000000457 SCYL3 ENSG00000000457.12
#將結(jié)果寫(xiě)入文件“puried.LIHC.cancer.csv”
rownames(puried_data)<-rowData(dataPrep1)$external_gene_name
write.csv(puried_data,file = "puried.LIHC.csv",quote = FALSE)
第八步:進(jìn)行表達(dá)矩陣標(biāo)準(zhǔn)化和過(guò)濾,得到用于差異分析的表達(dá)矩陣
`TCGAanalyze_Normalization()`使用EDASeq軟件包標(biāo)準(zhǔn)化mRNA轉(zhuǎn)錄本和miRNA。
#TCGAanalyze_Normalization()執(zhí)行EDASeq包中的如下功能:
1. EDASeq::newSeqExpressionSet
2. EDASeq::withinLaneNormalization
3. EDASeq::betweenLaneNormalization
4. EDASeq::counts
dataNorm <- TCGAanalyze_Normalization(tabDF = puried_data,
geneInfo = geneInfo,
method = "gcContent")
TCGAanalyze_Normalization中的參數(shù):
參數(shù)用法tabDFRNAseq表達(dá)矩陣,行代表基因,列代表樣本geneInfo關(guān)于geneLength和gcContent的20531個(gè)基因的矩陣,“geneInfoHT”和“geneInfo”可選。method選擇標(biāo)準(zhǔn)化的方法,基于’gcContent’ 或 ’geneLength’的標(biāo)準(zhǔn)化方法可選
#將標(biāo)準(zhǔn)化后的數(shù)據(jù)再過(guò)濾,去除掉表達(dá)量較低(count較低)的基因,得到最終的數(shù)據(jù)
dataFilt <- TCGAanalyze_Filtering(tabDF = dataNorm,
method = "quantile",
qnt.cut = 0.25)
str(dataFilt)
#num [1:13083, 1:340] 274 2432 60347 1012 1947 ...
#- attr(*, "dimnames")=List of 2
# ..$ : chr [1:13083] "A1BG" "A1CF" "A2M" "A4GALT" ...
# ..$ : chr [1:390] "TCGA-DD-AAD5-01A-11R-A41C-07" "TCGA-DD-A4NO-01A-11R-A28V-07" "TCGA-EP-A2KA-01A-11R-A180-07" "TCGA-DD-AACP-01A-11R-A41C-07" ...
TCGAanalyze_Filtering()中的參數(shù):
參數(shù)用法tabDF數(shù)據(jù)框或者矩陣,行代表基因,列代表來(lái)自TCGA的樣本method用于過(guò)濾較低count數(shù)的基因的方法,有’quantile’, ’varFilter’, ’filter1’, ’filter2’qnt.cut選擇均值作為過(guò)濾的閾值
最后將過(guò)濾后的數(shù)據(jù)寫(xiě)入文件“TCGA_LIHC_final.csv”,就得到我們用于后續(xù)差異分析的表達(dá)文件:
write.csv(dataFilt,file = "TCGA_LIHC_final.csv",quote = FALSE)
#保留的是390個(gè)樣本(前340腫瘤,后50正常組織)
今天的數(shù)據(jù)預(yù)處理就講到這里,接下來(lái)我們將分享:數(shù)據(jù)分析(差異表達(dá)分析、富集分析和聚類(lèi)分析等)。如果你喜歡的話(huà),就加入我們一起挖數(shù)據(jù)吧~~

發(fā)表評(píng)論
登錄
手機(jī)
驗(yàn)證碼
立即登錄即可訪(fǎng)問(wèn)所有OFweek服務(wù)
還不是會(huì)員?免費(fèi)注冊(cè)
忘記密碼請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車(chē)母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
-
小米汽車(chē)研發(fā)中心重磅落地,寶馬家門(mén)口“搶人”
最新活動(dòng)更多
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會(huì)
-
10月23日立即報(bào)名>> Works With 開(kāi)發(fā)者大會(huì)深圳站
-
10月24日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
11月27日立即報(bào)名>> 【工程師系列】汽車(chē)電子技術(shù)在線(xiàn)大會(huì)
-
12月18日立即報(bào)名>> 【線(xiàn)下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 【限時(shí)福利】TE 2025國(guó)際物聯(lián)網(wǎng)展·深圳站
推薦專(zhuān)題
- 1 人形機(jī)器人,正狂奔在批量交付的曠野
- 2 宇樹(shù)機(jī)器人撞人事件的深度剖析:六維力傳感器如何成為人機(jī)安全的關(guān)鍵屏障
- 3 解碼特斯拉新AI芯片戰(zhàn)略 :從Dojo到AI5和AI6推理引擎
- 4 AI版“四萬(wàn)億刺激”計(jì)劃來(lái)了
- 5 2025年8月人工智能投融資觀(guān)察
- 6 7 a16z最新AI百?gòu)?qiáng)榜:硅谷頂級(jí)VC帶你讀懂全球生成式AI賽道最新趨勢(shì)
- 8 Manus跑路,大廠(chǎng)掉線(xiàn),只能靠DeepSeek了
- 9 一家被嚴(yán)重低估的國(guó)產(chǎn)AI巨頭
- 10 地平線(xiàn)的野心:1000萬(wàn)套HSD上車(chē)