[分析流程]几种常见的生信分析文章套路

看过许多生信分析的文章,也做了一些工作,今天正好将这些已经有的套路做一下总结和梳理,所列的套路主要集中于转录组公开数据挖掘。

1.单基因分析法:

单基因筛选是算是最常见,年代最久的套路了。

单基因单癌种筛选基因的纯生信的文章目前(2022年)已不易发表,不过作为对应研究分子的引出,以求接下来开展对应实验,仍是个不错的选择。

单基因泛癌种的文章目前仍然较多,甚至可以做到无代码纯在线工具分析,仅最后在标本中验证表达即可,这对初学者而言很友好。但是需要注意所选基因应当是少有人研究(实验,生信)的,甚至是目前功能不明的,这样才能凸显做分析的意义。

主要思路:

单基因筛选法:Bioinformatics analysis reveals TSPAN1 as a candidate biomarker of progression and prognosis in pancreatic cancer ( Bosn J Basic Med Sci 2021 )

文章在两个数据集(TCGA,GSE16515)中分别做差异基因分析以及WGCNA分析,得到的四个结果取交集后,对所剩基因做生存分析,最后筛选出了TSPAN1。

单基因泛癌分析: Systematic Pan-Cancer Analysis Identifies TREM2 as an Immunological and Prognostic Biomarker(Front Immunol 2021 )

文章对TREM2在TCGA 33种肿瘤中的差异表达,预后,临床表型相关性,肿瘤突变负荷,微卫星不稳定,错配修复,肿瘤微环境,免疫浸润,通路富集(GSVA和GSEA)进行了全面的分析。这篇文章是泛癌分析里应做尽做的典型了,如果再加入一点药敏相关分析,应用价值就更大了

2.多基因建模法:

根据某一癌种中多基因的表达值,搭建诊断或者预后模型,并进一步评估模型的效能,以及模型中计算的分数(Score)的延申应用,这也是主要的一类文章的套路。

基因的选择可以根据目前已有的基因集( 焦亡,铁死亡(Zhounan的FerrDB),自噬(卢森堡构建的HADb),m6A,代谢blablalba),亦可通过前述的筛选方法(差异基因,WGCNA)生成基因集。

搭建模型的方法主要是通过机器学习方法(最普遍的lasso法,以及SVM(支持向量机),随机森林等特征选择方法)去选择适合的基因搭建模型。

评估模型效能主要是依据ROC曲线,预后模型还可以进一步构建Nomogram,同其他预后指标联合,更精准地量化评估病人的生存。(我对诊断模型不是很了解)。

Score既可以直接作为数值变量,和一些数值变量(临床表型中的一些化验指标的水平,肿瘤微环境中计算的各类分数,免疫浸润中各类细胞的占比,药物的IC50值)做相关性分析。也可以划出截断值后作为分类变量,和其他变量做相关性分析。

举个例子: 肝癌中基于铁死亡相关基因的总生存预后模型的构建。A Novel Ferroptosis-related Gene Signature for Overall Survival Prediction in Patients with Hepatocellular Carcinoma.( Int J Biol Sci. 2020)

看的出来,多基因建模中的素材是灵活的。除了基因表达值,基因甲基化水平,基因突变的样本数也可以用来建模。基因的选择也不限于mRNA(编码基因),lncRNA,miRNA甚至circRNA都可以用来建模。这些不常见的建模方式会让你的文章创新性增加。

值得注意的是,使用GSVA以及ssGSEA也可以产生score,这些score可以直接用来做预后分析,以及一些临床,免疫指标的相关性的分析。

3.识别分子亚型法:

通过聚类的方式生成多个分子亚型,系统地分析这多个亚型中样本的差异,如预后,临床表型,免疫浸润,免疫微环境,通路富集情况。识别到的分子亚型可以作为分类依据,从而产生差异基因,或者直接通过PCA,t-SNE等降维方法产生对应的分数(score),以此进入建模法的分析流程。

用于富集分子亚型的方法通常为无监督聚类,采用的方法主要有:

k-means方法:制定样本划分为 K 个簇,用一个聚类的中心来代表一个簇,这个中心就是各个簇中所有数据样本的均值。算法简单高效,但由于是求均值,故样本中的异常数据,可能会使聚类结果产生严重偏离。

如何确定k-means的k值:不像监督学习的分类问题和回归问题,无监督聚类没有样本输出,也就没有比较直接的聚类评估方法。但是可以从簇内的稠密程度和簇间的离散程度来评估聚类的效果。例如SSE+手肘图、轮廓系数、Calinski-Harabaz Index、信息准则等。在R包NbClust中可以采用几十种方法去选取合适的K值。

k-medoids方法:制定样本划分为 K 个簇,用一个聚类的中心来代表一个簇,这个中心就是当前簇中所有其他点到该中心点的距离之和最小的点。注意R包ConsensusClusteringPlus中应用的是其衍生算法PAM(Partitioning Around Medoids),Nb

NMF方法:非负矩阵分解,介绍待补充

暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇