分类: 生信,统计,以及分析

9 篇文章

无监督聚类算法(2) K-medoids介绍
转载自coder_Gray的CSDN博客,感谢! 上一篇文章我们了解了k-means算法,在文章末尾指出k-means算法对于异常值十分敏感,因为具有极大值的对象可能会产生严重扭曲的数据分布。因此我们可以使用k-medoids算法,它是集群中位于最中心的对象,而不是将集群中的平均值作为参考点。因此,分区的方法仍然可以基于最小化每个对象与其参考点之间…
无监督聚类算法(1) K-means介绍
转载自刘建平Pinard 的博客,感谢原作者。     K-Means算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广泛。K-Means算法有大量的变体,本文就从最传统的K-Means算法讲起,在其基础上讲述K-Means的优化变体方法。包括初始化优化K-Means++, 距离计算优化elkan K-Means算法和大数据情…
[分析流程]几种常见的生信分析文章套路
看过许多生信分析的文章,也做了一些工作,今天正好将这些已经有的套路做一下总结和梳理,所列的套路主要集中于转录组公开数据挖掘。 1.单基因分析法: 单基因筛选是算是最常见,年代最久的套路了。 单基因单癌种筛选基因的纯生信的文章目前(2022年)已不易发表,不过作为对应研究分子的引出,以求接下来开展对应实验,仍是个不错的选择。 单基因泛癌种的文章目前仍…
[环境部署]安装测试Rstudio Server
R语言的IDE一般用户常用RStudio,但是Rstudio作为单机软件,对计算机的硬件有一定的要求,换机重新安装各类依赖包也很繁琐。Rstudio Server作为服务器端的应用,可以快速统一部署项目且迁移方便。最近用手中的VPS安装并初步测试了一下Rstudio Server的运行情况。 使用的是ruvds的小鸡,[email protected],51…
[代码笔记]预后效能评估-Time-dependent ROC 曲线
概念 通常我们对于biomarker的预测模型会用ROC曲线来评价其性能,但是对于一些生存资料数据的预测模型或者需要加入时间因素,则会使用时间依赖(time dependent)的ROC曲线 传统的ROC曲线分析方法认为个体的事件(疾病)状态和markers是随着时间的推移而固定的,但在临床流行病学研究中,疾病状态和 markers都是随着时间的推…
[应用技巧]R教程:Cox回归中,不满足PH假定时该怎么处理?
作为一个临床研究工作者,在日常分析数据过程中,我们大量地使用Cox比例风险模型,却往往忽略Cox比例风险模型的一个重要假设-PH假设。这就导致我们在投文章的时候,审稿人经常会要求文章中补充如何判断PH假设的部分。 笔者就曾经遇到过这样的问题,被审稿人要求增加PH假设的判断。审稿人的comments如下: The assumption for the…