《中國科技大學課件系列:《生物信息學》01》由會員分享,可在線閱讀,更多相關(guān)《中國科技大學課件系列:《生物信息學》01(41頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、第一章:概論 r人類基因組計劃(Human Genome Project, HGP):1990年正式啟動,旨在完成人類基因組約30億個堿基的全序列測定。r 海量生物數(shù)據(jù)的迅速膨脹:DNA、RNA和蛋白質(zhì)序列,蛋白質(zhì)二級結(jié)構(gòu)和三維結(jié)構(gòu)數(shù)據(jù),蛋白質(zhì)相互作用數(shù)據(jù)等。r 對大量生物數(shù)據(jù)的管理、分析和信息化需求促進了生物信息學的迅速發(fā)展。 r 由美國NIH和能源部提出和帶頭,美、英、德、法、日、中共同參與的國際合作項目。r 重大國際研究項目:測定人類基因組全部DNA序列,構(gòu)建人類基因組遺傳圖譜和物理圖譜。r 1990年: 正式啟動,30億美元。r 2001年:人類基因組草圖公開發(fā)表。r 2003年:美國
2、宣布該項目完成。 r定義一:生物信息學是一門收集、分析遺傳數(shù)據(jù)以及分發(fā)給研究機構(gòu)的新學科(Bioinformatics is a new subject of genetic data collection, analysis and dissemination to the research community)。(Dr. Hwa A. Lim,1987)r定義二:生物信息學特指數(shù)據(jù)庫類的工作,包括持久穩(wěn)固的在一個穩(wěn)定的地方提供對數(shù)據(jù)的支持(Bioinformatics refers to database-like activities, involving persistent sets
3、 of data that are maintained in a consistent state over essentially indefinite periods of time)。(Dr. Hwa A. Lim,1994)r定義三:生物信息學是在大分子方面的概念型的生物學,并且使用了信息學的技術(shù),這包括了從應用數(shù)學、計算機科學以及統(tǒng)計學等學科衍生而來各種方法,并以此在大尺度上來理解和組織與生物大分子相關(guān)的信息。 (Luscombe,2001) rBioinformatics is the field of science in which biology, computer sci
4、ence, and information technology merge into a single discipline. The ultimate goal of the field is to enable the discovery of new biological insights as well as to create a global perspective from which unifying principles in biology can be discerned.Biology in the 21st century is being transformed
5、from a purely lab-based science to an information science as well. from NCBIs science primer www.ncbi.nlm.nih.gov/About/primer/bioinformatics.html r 生物信息學是一門交叉學科,它包含了生物信息的獲取、處理、存儲、分發(fā)、分析和解釋等在內(nèi)的所有方面,它綜合運用數(shù)學、計算機科學和生物學的各種工具,來闡明和理解大量數(shù)據(jù)所包含的生物學意義。 (美國人類基因組計劃第一個五年總結(jié)報告,1995) rBiology may be viewed as the stu
6、dy of transmission of information: from mother cell to daughter cell, from one cell or tissue type to another, from one generation to the next, and from one species to another. This informational viewpoint is termed bioinformatics. r生物學研究可以被看成是研究信息的傳遞:從DNA經(jīng)轉(zhuǎn)錄翻譯到蛋白質(zhì),從細胞質(zhì)中到細胞核內(nèi),從母細胞到子細胞,從一個細胞或一個組織到另一個
7、細胞或另一個組織,從一代到下一代,從一個物種到另一個物種的進化演變。這種信息論的觀點即可稱為生物信息學。 (Bioinformatic challenges for the next decade(s), David Eisenberg et al., 2006) r生物信息的存儲與查詢;r序列比對;r基因預測及基因組分析;r分子進化與系統(tǒng)發(fā)育分析;rRNA結(jié)構(gòu)預測;r蛋白質(zhì)結(jié)構(gòu)預測;r分子設(shè)計與藥物設(shè)計;r生物網(wǎng)絡(luò);r生物芯片; r1952年,Sanger根據(jù)胰島素蛋白質(zhì)的測序結(jié)果,推斷蛋白質(zhì)是排列完美的分子。-最早的信息論觀點。r1955年,Sanger與合作者分別對牛、豬和羊的胰島素蛋白
8、質(zhì)進行了測序并做了序列上的比較。-最早的序列比對。r1962年,鮑林提出分子進化的理論,推測在人中可能存在50,000100,000個不同的基因/蛋白質(zhì)。-分子進化理論的奠定。r1965年,Margaret Dayhoff構(gòu)建蛋白質(zhì)序列圖譜r1970年,Needleman-Wunsch算法:全局優(yōu)化比對。r1981年,Smith-Waterman算法開發(fā):局部優(yōu)化比對。r1990年,快速序列相似性搜索工具BLAST的開發(fā) Insulin Chain A: 8-10位存在著不同(牛,ASV;豬,TSI;羊,AGV)(Brown et al., 1955)。Made by GeneDoc r1.
9、1974年,George I.Bell等人收集DNA序列,構(gòu)建GenBank數(shù)據(jù)庫。19821992開發(fā)第一個版本。r2. 1980年,EMBL數(shù)據(jù)庫成立。r3. 1984年,日本DDBJ數(shù)據(jù)庫成立。r4. 核酸序列數(shù)據(jù)的去冗余:Refseq數(shù)據(jù)庫,對于相同的序列只列一條目錄。 r1. NCBI:Entrez的開發(fā),D.Lipman等人。r2. 提供關(guān)鍵字的搜索的方法。r3. “硬搜索”:包含關(guān)鍵字的,完全匹配的結(jié)果。r4. “軟搜索”:與查詢內(nèi)容相關(guān)的信息。r5. 查詢內(nèi)容:基因/蛋白質(zhì)的名稱、標識符,文獻、蛋白質(zhì)結(jié)構(gòu),等等。 http:/www.ncbi.nlm.nih.gov/sites
10、/gquery r1. 1970年,Gibbs AJ 和 McIntyre GA,點陣法進行氨基酸和核酸的序列比較:當相同的字母在兩條序列中同時出現(xiàn)時,在交叉處置點。r2. 1970年,Needleman-Wunsch,全局優(yōu)化的序列比對算法:允許匹配、錯配和缺失。動態(tài)規(guī)劃的算法:任務可分割,分成更小的子問題進行解決。r3. 1981年,Smith-Waterman,局部優(yōu)化的序列比對算法。r4. FASTA r NCBI:美國國立衛(wèi)生研究院NIH下屬國立生物技術(shù)信息中心NCBI。http:/www.ncbi.nlm.nih.govr EMBnet:歐洲分子生物學網(wǎng)絡(luò)http:/www.emb
11、net.org/r EMBL-EBI:歐洲分子生物學實驗室下屬歐洲生物信息學研究所。 http:/www.ebi.ac.uk/r ExPASy: (Expert Protein Analysis System)瑞士生物信息研究所SIB下屬的蛋白質(zhì)分析專家系統(tǒng); http:/www.expasy.org/ rBioinformatics Links Directory:http:/bioinformatics.ca/links_directory/r 各種數(shù)據(jù)庫等 如 PDB (Protein Data Bank) UniProt 數(shù)據(jù)庫r 軟件資源:http:/www.expasy.org/t
12、ools/http:/www.ebi.ac.uk/Tools/http:/www.ncbi.nlm.nih.gov/Tools/ rCBIPKU:北京大學生物信息中心 http:/www.biosino.org/ 中國科學院上海生命科學院生物信息中心r上海生物信息技術(shù)研究中心 http:/www.scbit.org/ r1. 確立研究的生物學體系。例如:生物芯片數(shù)據(jù)分析;蛋白質(zhì)三級結(jié)構(gòu)與功能;r2. 確定研究的問題。已有哪些計算方面的工作?是否需要實驗的支持?r3. 構(gòu)建生物學/數(shù)學模型,例如:ligand結(jié)合位點的預測,構(gòu)建特異性識別位點的結(jié)構(gòu)模式模型。r4. 計算方法的選擇或開發(fā):HMM
13、, SVM, ANN或新方法。r5. 計算結(jié)果分析,與同類工具做比較。構(gòu)建相應的數(shù)據(jù)庫/軟件/在線網(wǎng)站等。r6. 擴展及應用:有哪些用處? r 計算生物學(Computational Biology):根據(jù)美國國家衛(wèi)生研究所(NIH)的定義,它是指開發(fā)和應用數(shù)據(jù)分析及理論的方法、數(shù)學建模和計算機仿真技術(shù),用于生物學、行為學和社會群體系統(tǒng)的研究的一門學科。r生物信息學主要側(cè)重于對生物學信息的存貯、分析處理、有效信息和知識的提取方面。r計算生物學側(cè)重于使用計算技術(shù)研究生物學問題。 r NIH于2003年形成了一個通向生命科學未來的“中長期發(fā)展規(guī)劃”-國立衛(wèi)生研究院路線圖(NIH Roadmap)。NIH路線圖中啟動了一個“生物信息學和計算生物學”計劃,希望通過這個項目的實施而鋪設(shè)一條通向生命科學未來的“信息高速公路”。該項目計劃從2004年開始,建立數(shù)個“國立生物醫(yī)學計算中心” ,以便開發(fā)相關(guān)軟件和數(shù)據(jù)管理工具。 r生物信息學:序列與基因組分析,(第二版),David W.Mount,科學出版社 r生物信息學,DRWesthead,JHParish,RMTwyman,科學出版社r生物信息學,許忠能 主編 趙偉 熊鵬 注:本課程部分幻燈片整理自公共資源或Prof. Yu Xue & Jian Ren PPT,特致謝!