生物信息分析的三大数据科学工具

Bioinformatics

生物信息学（Bioinformatics）是利用应用数学、信息学、统计学和计算机科学的方法研究生物学问题的学科。生物信息学的研究材料和结果就是各种各样的生物学数据，其研究工具是计算机，研究方法包括对生物学数据的搜索、处理及利用。当前主要的研究方向有：序列比对、序列组装、基因识别、基因重组、蛋白质结构预测、基因表达、蛋白质反应的预测，以及创建进化模型。

操作系统

Linux是生物信息分析中必不可少的操作系统，因为大部分生物信息学软件都是linux版本的（实际上，在Windows系统也可以实现，只是需要更多的安装，至少，还可以使用虚拟机）。而使用Bio-Linux（http://environmentalomics.org/bio-linux/）系统的优点是已经安装好了生物信息分析常用的软件和包，可以跳过繁琐的软件安装过程从而专注于软件的使用和数据分析本身。

编程语言

生物信息分析通常使用Perl、Python或者R语言，前两个语言主要是做数据预处理、文本处理和格式转换、对算法效率要求不高的分析软件开发，系统管理和Pipeline搭建等工作，而R语言主要的优势是大量的统计包的支持。

也许可以使用其他数据科学常用语言如Java、MatLab、SAS或者Julia，但最基础的Shell是肯定可用的，Shell是Linux下传统（或者叫原始）的脚本编程语言。没有一种语言是加州大学戴维斯分校遗传学副教授Titus Brown所期待的那么完美——Python的语法，R语言的图形灵敏性和C++的速度结合在一起——因此，在生信分析领域，Python 和 R 仍旧是“科学研究的二重奏”。

和操作系统一样，这些语言也有生信分析对应的集合版本，如。

BioPerl（https://bioperl.org/）是一组Perl模块的集合，这些模块促进了用于生物信息学应用程序的Perl脚本的开发。它在人类基因组计划中发挥了不可或缺的作用。

Biopython（https://biopython.org/）项目是由国际开发人员协会创建的用于计算生物学和生物信息学的非商业Python工具的开源集合。它包含表示生物序列和序列注释的类，并且能够读取和写入各种文件格式。它还允许以编程方式访问生物信息的在线数据库，例如NCBI的数据库。

数据库

目前世界主要有三大生物信息学数据库来源，NCBI（National Center for Biotechnology Information，美国国家生物技术信息中心，https://www.ncbi.nlm.nih.gov/）、DDBJ（日本DNA数据库，https://www.ddbj.nig.ac.jp/）和EMBL（European Molecular Biology Laboratory，欧洲分子生物学实验室，https://www.embl.de/）。以下TCGA就是NCBI的一个项目。

癌症基因组图谱（Cancer Genome Atlas，TCGA，www.cancer.gov/tcga）是一项具有里程碑意义的癌症基因组计划，具有20,000多种原发癌的分子特征，并匹配了涵盖33种癌症类型的正常样本。国家癌症研究所（National Cancer Institute，NCI，https://www.cancer.gov/）和国家人类基因组研究所（National Human Genome Research Institute，NHGRI）共同资助的这个公共项目始于2006年，汇集了来自不同学科和多个机构的研究人员。NCI是组成卫生与公共服务部（HHS）的11个机构之一美国国立卫生研究院（NIH）的一部分。

访问TCGA数据（https://portal.gdc.cancer.gov/），通过Genomic Data Commons数据门户以及基于Web的分析和可视化工具访问TCGA数据。

如果研究的目标不是癌症，那么GEO（Gene Expression Omnibus，https://www.ncbi.nlm.nih.gov/geo）、 SRA（Sequence Read Archive，https://www.ncbi.nlm.nih.gov/sra）、ENA（European Nucleotide Archive，https://www.ebi.ac.uk/ena）、 ArrayEpress（Archive of Functional Genomics Data，https://www.ebi.ac.uk/arrayexpress）等数据库也是最好的选择。

👍

酷玛DS

酷玛DS