学习资料

书籍

  1. 生物信息学_山东大学_中国大学MOOC(慕课)
  2. 生物信息学与功能基因组学 (豆瓣)
  3. 生物信息学(第四版) (豆瓣)
  4. Bioinformatics for Dummies (豆瓣)
  5. Bioinformatics: An Introduction (豆瓣)

SCI期刊

  1. Bioinformatics | Oxford Academic
  2. Home page | BMC Bioinformatics

生物学和计算机科学

生物信息学是一个交叉学科,是生物学+计算机科学的交叉。

最早的时候两门学科是分开来发展的,随着计算机科学的发展和生物信息数据量的剧增,慢慢的两门学科走到了一起。

生物学自拉马克“用进废退”学说起始,提出了进化理论。计算机科学则伊始于法国的帕斯卡,他发明了第一台机械计算机。之后达尔文《物种起源》提出了进化论的观点:优胜劣汰、适者生存、自然选择、不可抗拒,被马克思主义创始人之一的恩格斯列为十九世纪自然科学的三大发现之一。同时,德国的莱布尼兹牛顿创建了微积分,莱布尼兹认为:数理逻辑、数学和计算机三者均出于一个统一的目的,即人的思维过程的演算化、计算机化、以至于在计算机上实现。所以说莱布尼茨是首次提出“计算机”这个概念的人。

而后孟德尔遗传定律使得生物学先前迈出了一大步,与此同时,美国国会议事厅里发出了世界上的第一封电报。有线电报的出现是人类历史上信息传递的一次飞跃。

之后的生物学凭借着这股势头突飞猛进,从瑞士米歇尔分离出核酸,到丹麦的约翰森首次提出基因一词,再到美国的摩尔根在果蝇中发现染色体,只经历了短短半个世纪。在这些词汇面世不久之后,美国的三位科学家通过实验证明基因和染色体是由DNA构成的,DNA是生物的遗传物质

同一时期,计算机科学出现了一位天才,图灵。他是英国著名的数学家和逻辑学家,被称为计算机科学之父、人工智能之父,是计算机逻辑的奠基者。在图灵之前没有任何人清楚地说明过莱布尼兹所说的“计算机”到底是怎么一回事。直到1936年,图灵向伦敦权威的数学杂志投了一篇题为“论数字计算在决断难题中的应用”的论文,提出著名的“图灵机”的设想。

之后1944年,美国人Chargaff提出了A=TG=CChargaff规则。同一时期,世界上第一台现代电子计算机“埃尼阿克”,诞生于美国宾夕法尼亚大学。

到了1953年。DNA之父沃森和克里克于1953年在《自然》上发表了DNA双螺旋结构模型。而这个模型是根据弗兰克林和弗兰克林的助手威尔金斯,于1952年用X射线衍射法获得的一张晶体照片构建的。因此DNA双螺旋结构的发现这四个人都功不可没。然而1962年的诺贝尔奖只授予了三位男士。弗兰克林并未获得诺贝尔奖,因为她在获奖前因癌症去世,而诺贝尔奖只能颁发给活着的人。

尽管如此,我们还是应该记住这位伟大的女性。

在DNA的结构破解不久,第一个蛋白质的晶体结构也与世人见面。桑格告诉我们氨基酸是按照一定顺序排列的,而这个晶体结构告诉我们,他们们并不是一条线,而是折叠成一个具有特定形状的空间结构。这个晶体结构同样是通过X射线衍射法获得的。这门技术的应用,使得研究大分子的结构成为可能。

与沃森一起破解DNA双螺旋结构的克里克在1958年就提出了中心法则,并于1970年在《自然》上的一篇文章中重申。克里克提出的中心法则主要是说DNA复制形成DNA, DNA转录形成RNA,RNA再翻译形成蛋白质。今天我们知道,除了这些,病毒中的RNA也可以自我复制,RNA还能逆转录成为DNA,甚至理论上可实现遗传物质从DNA到蛋白质的直接转移。

随着测序技术的出现以及计算机科学的快速发展,美国洛斯阿拉莫斯实验室建立了GenBank数据库,以储存测序产生的数据。欧洲分子生物学实验室EMBL也建立了核酸序列数据库,之后亚洲也有了自己的核酸序列数据库DDBJ

三大核酸序列数据库于90年代初实现资源共享,联合成立国际核苷酸序列数据库。随着三大核酸数据库中数据的迅猛增长,生物信息学日渐成熟,并展露出不可或缺的重要地位。

1987年美籍华人林华安博士首创了bioinformatics一词,并发起首届国际生物信息学系列会议,使得生物信息学一词在世界各地广为沿用。

非常有趣的是,bioinformatics这个词也有着自己的进化史,这个词最早以compbio出现,是compute和biology的缩写,后来发展成bioinformatique, informatique这个词源于法语,英语化后变成了bio连线informatics。这个词用了一段时间,直到电子邮件的出现。早期的电子邮件,标题不支持连线,于是去掉连线,有了今天的 bioinformatics。

生物信息学

生物信息学在不同的教科书中有不同的定义。

  1. 生物信息学是一门交叉学科,它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它运用数学、计算机科学和生物学的各种工具来闸明和理解大量数据所包含的生物学意义。
  2. 生物信息学是计算机与信息科学技术运用到生命科学,尤其是分子生物学研究中的交叉学科。

总之,生物信息学的严谨定义不是重点。生物信息学研究的对象才是重点,生物信息学的研究对象非常多,只要有生物学意义的他都研究。

  1. 核酸:测序及应用,基因序列注释,基因预测,核酸序列比对,核酸数据库,比较基因组学,宏基因组学,基因进化,NA结构预测。
  2. 蛋白质:蛋白质数据库,蛋白质序列比对,蛋白质二级三级结构预测,蛋白质相互作用分析,分子动力学模拟,分子对接,蛋白质组学.
  3. 其他:凡是不能简单归入核酸或蛋白质的都包括在其他里面,比如代谢网路模建,数据挖掘分析,序列算法开发,计算进化生物学,生物多样性研究。