1行代码提取6种TCGA表达矩阵和临床信息

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6

本文首发于公众号医学和生信笔记

医学和生信笔记专注R语言在临床医学中的使用R语言数据分析和可视化。主要分享R语言做医学统计学、meta分析、网络药理学、临床预测模型、机器学习、生物信息学等。

之前的2行代码提取表达矩阵由于大家的R语言水平参差不齐导致很多新手会报错于是我把前面的代码打包为一个脚本1行代码就可以了

脚本已上传到QQ群需要的小伙伴加群下载即可~

只需要1行代码就可以获取分别获取mRNA和lncRNA的counts/fpkm/tpm总计6种类型类型的表达矩阵以及临床信息表达矩阵是标准形式行是基因列是样本行名是gene symbol。

使用这种方法有4个前提条件

  • TCGAbiolinks包的版本必须要在2.25.1以上
  • 需要使用TCGAbiolinks下载的数据或者按照这个教程下载的数据可能是最适合初学者的TCGA下载教程
  • 必须按照这篇教程构建正确的路径手动下载的TCGA数据也可以用TCGAbiolinks包整理
  • 脚本必须和GDCdata放在一个路径下

使用方法

加载需要的R包

library(TCGAbiolinks)
library(SummarizedExperiment)
library(tidyverse)

加载脚本"getTCGAexpr.r"这个脚本必须和GDCdata位于同一个位置。

脚本位置必须对

加载这个脚本

source("getTCGAexpr.r")

使用函数需要提供TCGA的癌症简称比如TCGA-LUSC。

getTCGAexpr(project = "TCGA-LUSC")

##--------------------------------------
##o GDCquery: Searching in GDC database
##--------------------------------------
##Genome of reference: hg38
##--------------------------------------------
##oo Accessing GDC. This might take a while...
##--------------------------------------------
##ooo Project: TCGA-LUSC
##--------------------
##oo Filtering results
##--------------------
##ooo By data.type
##ooo By workflow.type
##----------------
##oo Checking data
##----------------
##ooo Checking if there are duplicated cases
##ooo Checking if there are results for the query
##-------------------
##o Preparing output
##-------------------
##|=====================================================|100%                      ##Completed after 16 s 
##Starting to add information to samples
## => Add clinical information to samples
## => Adding TCGA molecular information from marker papers
## => Information will have prefix 'paper_' 
##lusc subtype information from:doi:10.1038/nature11404
##Available assays in SummarizedExperiment : 
##  => unstranded
##  => stranded_first
##  => stranded_second
##  => tpm_unstrand
##  => fpkm_unstrand
##  => fpkm_uq_unstrand
##=> Saving file: output_expr/TCGA-LUSC_expr.rdata
##=> File saved

全程不到一分钟即可

完成后会在当前目录多出一个output_expr文件夹里面就是6个表达矩阵和临床信息

完成后会多出一个文件夹

output_expr文件夹里面就是提取好的信息

提取好的表达矩阵和临床信息

  • TCGA-LUSC_expr.rdata原始的se对象所有信息都是从这里面提取的
  • TCGA-LUSC_clinical.rdataTCGA-LUSC的临床信息
  • TCGA-LUSC_lncRNA_expr_counts.rdatalncRNA的counts矩阵
  • TCGA-LUSC_lncRNA_expr_fpkm.rdatalncRNA的fpkm矩阵
  • TCGA-LUSC_lncRNA_expr_tpm.rdatalncRNA的tpm矩阵
  • TCGA-LUSC_mRNA_expr_counts.rdatamRNA的counts矩阵
  • TCGA-LUSC_mRNA_expr_fpkm.rdatamRNA的fpkm矩阵
  • TCGA-LUSC_mRNA_expr_tpm.rdatamRNA的tpm矩阵

表达矩阵示例

lncRNA的counts矩阵

mRNA的counts矩阵

mRNA的tpm矩阵

临床信息

本文首发于公众号医学和生信笔记

医学和生信笔记专注R语言在临床医学中的使用R语言数据分析和可视化。主要分享R语言做医学统计学、meta分析、网络药理学、临床预测模型、机器学习、生物信息学等。

本文由mdnice多平台发布

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6

“1行代码提取6种TCGA表达矩阵和临床信息” 的相关文章