经过一段时间的转录组学习,初步了解了转录组的基本分析流程。现在理解到的生物信息学的用处:
1、利用生信工具解决生物学问;
2、发展生信工具本身。
第一个用处,包括很多方面:基因组、转录组(包括当下热门的与流式分选相关的单细胞转录组,新兴的空间转录组、RNA甲基化测序)、SNP等分子标记,还有蛋白质组、代谢组。一方面,尽可能读取生物大分子的序列;另一方面,分析生物体在不同环境下的大分子差异。
第二个用处,包括:算法的创新和优化、拼接和分析工具包的优化和使用流程的优化。
两个用处,涉及的知识十分广泛。生物学、数学(算法)、统计学都涉及到。数学(算法),对我来说难度太大,大概只能了解个大概。统计学知识肯定得补。
生物信息学的用途广,涉及的软件也多。现在比较熟悉的用途是表达差异分析、分子标记开发。先熟悉起来,再考虑进一步在哪方面深入学习。
通过生信技能树的培训,学习了一些linux操作、R语言,还有一部分没学完,需要学习完,把转录组的基本流程走完一遍。从编程语言的发展趋势来看,python现在应用和发展前景都不错,所以我计划从python入手学,利用这门“胶水语言”把linux和R语言一起串起来使用。
python的数据分析重点要掌握几个包:Biopython、numpy、pandas、matplotlib。看起来Biopython是主体,可用于fasta等生信大文件操作,完成一些linux的功能,或者利用linux的bash语言。numpy,顾名思义,是个数据统计的大包,应该不仅应用于生信,而是广泛应用于数据统计。pandas是统计分析的包。matplotlib,是一个绘图包。
学习用python做生信分析,要熟悉python,不在话下。近期目标是尽快走一遍基本流程,把这4个包熟悉一下。
同时,要多看纯生信的文献。至于怎么省劲地找到纯生信的文献,先依赖生信相关的公众号推荐吧。