-
但是如果你去 查看这个基因,在TCGA数据库的BRCA队列里面,会发现:
- 原位肿瘤和转移,复发也可以是不同队列
- 肿瘤患者结局事件也不仅仅是OS
- 基因也不仅仅是看mRNA表达量,还可以看蛋白水平
- 癌症患者也可以是药物处理的队列
压根就没有统计学显著性,所以问题来了,tcga等公共数据库查询你的基因没有统计学显著的预后作用你就放弃了吗?
继我前几天的文章 之后,我认为有必要去搞清楚,为啥我真的学不会生信,以及到底需要怎么样才能学会生信。于是乎,我认真观看了卖萌哥给我的推荐,信息如下:
up主:鲮鱼不会飞(孟浩巍老师)
题目:-生信入门的经验分享
缺乏对生信整个框架的认知
我对生信的理解就是,整理数据,然后画图。因此,一直是从数据整理下手,然后学别人的画图代码。当然也会跟着别人的项目pipeline走,但是出了既定的框架外,我就会非常的迷茫。一直以来,我在生信上所做的努力就是:
(1)学习基本的linux操作,掌握一套数据分析流程,比如RNA-seq;
(2)学习基本的测序知识,比如illumia的测序原理;
(3)重头戏:学习R语言基础,以及转录组数据分析流程。
我在完成上面学习之后,我发现一些很重要的问题:
(1)内心没有标准,对数据的质量没有把控,例如:我可能知道RNA-seq的QC结果最重要的是几个quality的项目,但是却不知道为什么。每次我拿到QC报告,总要问一下别人,我这个adapter的检测没有通过,影不影响后续的数据分析?一般得到的回复就是,咱们主要看看Q30等等,其他不是很重要。这背后真正的原因,其实是不清晰的,这就让我感觉很模糊,没有掌控感;
(2)我可能知道TPM比RPKM和FPKM好像现在用得更多,大约知道一些原因,但是我并不知道RPKM是FPKM的2倍,以及它的原因;
(3)我可能会重复R语言的代码,但是我还是不知道为什么要做某些数据转换,做与不做到底有啥区别?做到怎么样才是对自己的数据负责,得到合理的结果。
出现以上原因是因为,我对测序原理没有掌握好,对每一个步骤的测序数据的由来和作用并不清晰;其次是对于不同工具的理解仍然不够,统计学知识也严重不足。
首先需要认识到,生物信息学是要用计算机技术去解决大数据,并且结合生物学背景来筛选出有意义的数据。因此,生信要结合计算机+生物背景知识,同时还需要有统计学知识,在这里孟老师讲解得非常清晰:
半自助的意思是,只是分析数据--而后画图。全自助是还要在算法等等方法做一系列的努力。
(1)linux学习:罗老师3个文件,1-2天;
(2)统计学学习:《医学统计学》漫长3个月,当然他在视频中还有其他的推荐以及对统计学必备知识框架;
(3)测序基础:illumia的视频(我看过不少),但仅仅是视频是不够的,这其中还有很多细节需要去夯实,大约1周时间;
(4)选择1篇文章,重复结果。
这里提出:上游几乎一样,下游则是对BAM文件的处理,并且他在知乎上有很多对于细节问题的解答,所以我打算过去看一波
这本是三年多之前我发在公众号上的一篇旧文,一些偶然的机会,发现不少朋友也在讨论这个问题,因此我重新做了梳理并发出来...
作者:二十八画生审稿:童蒙编辑:amethyst 引言 经常看到类似的提问:转录组测序分析中FPKM和TPM哪个归...
上周末调整书桌时,顺手拿起发财猪,拿在手里,轻巧了许多。因为里面不再是满满罐罐的了,一年比一年少了。仔细看,发现看...
军训就这样慢而又紧张的过了几天,这几天,教官给我们训练了队列等等的项目,其实相对于其他班的同学来说,我们真的...