生物信息學教學資料:生物信息學常用數(shù)據(jù)庫
《生物信息學教學資料:生物信息學常用數(shù)據(jù)庫》由會員分享,可在線閱讀,更多相關《生物信息學教學資料:生物信息學常用數(shù)據(jù)庫(90頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、生 物 信 息 學 方 法 與 實 踐Bioinformatics Method and Practice 1 一 級 數(shù) 據(jù) 庫 數(shù) 據(jù) 庫 中 的 數(shù) 據(jù) 直 接 來 源 于 實 驗 獲 得 的 原 始 數(shù)據(jù) , 只 經(jīng) 過 簡 單 的 歸 類 整 理 和 注 釋 。 二 級 數(shù) 據(jù) 庫 對 原 始 生 物 分 子 數(shù) 據(jù) 進 行 整 理 、 分 類 的 結(jié) 果 ,是 在 一 級 數(shù) 據(jù) 庫 、 實 驗 數(shù) 據(jù) 和 理 論 分 析 的 基 礎上 針 對 特 定 的 應 用 目 標 而 建 立 的 。生 物 信 息 學 常 用 數(shù) 據(jù) 庫 2 ( 1) 美 國 生 物 技 術 信 息 中 心
2、 的 GenBank http:/www.ncbi.nlm.nih.gov/Web/Genbank/index.html ( 2) 歐 洲 分 子 生 物 學 實 驗 室 的 EMBL http:/www.embl-heidelberg.de ( 3) 日 本 遺 傳 研 究 所 的 DDBJ http:/www.ddbj.nig.ac.jp/ GenBank DDBJEMBL 三 個 數(shù) 據(jù) 庫 中 的 數(shù) 據(jù) 基 本 一 致 , 僅 在 數(shù) 據(jù) 格 式 上 有 所 差 別 ,對 于 特 定 的 查 詢 , 三 個 數(shù) 據(jù) 庫 的 響 應 結(jié) 果 一 樣 。1.Nucleotide Sequ
3、ence Databases 3 GenBank 1979年 建 設 , 1982年 運 行 4 5 Submissions to GenBank Many journals require submission of sequence information to a database prior to publication so that an accession number may appear in the paper. NCBI has a WWW form, called BankIt, for convenient and quick submission of sequen
4、ce data. Sequin, NCBIs stand-alone submission software for MAC, PC, and UNIX platforms, is also available by FTP. When using Sequin, the output files for direct submission should be sent to GenBank by electronic mail. There are specialized, streamlined procedures for batch submissions of sequences,
5、such as EST, STS, and HTG sequences. Updating or Revising a Sequence Revisions or updates to GenBank entries can be made at any time and can be accepted as BankIt or Sequin files or as the text of an e-mail message. Click on the link for more information about updating information on GenBank records
6、. 6 Access to GenBank GenBank is available for searching at NCBI via several methods. The GenBank database is designed to provide and encourage access within the scientific community to the most up to date and comprehensive DNA sequence information. Therefore, NCBI places no restrictions on the use
7、or distribution of the GenBank data. However, some submitters may claim patent, copyright, or other intellectual property rights in all or a portion of the data they have submitted. NCBI is not in a position to assess the validity of such claims, and therefore cannot provide comment or unrestricted
8、permission concerning the use, copying, or distribution of the information contained in GenBank. New Developments NCBI is continuously developing new tools and enhancing existing ones to improve both submission and access to GenBank. The easiest way to keep abreast of these and other developments is
9、 to check the Whats New section of the NCBI Web page and to read the NCBI News, which is also available by free subscription. 7 EMBL1982年 運 行 8 http:/www.ebi.ac.uk/embl/index.html 9 DDBJ 1984年 建 立 ,1987年 啟 用 10 小 鼠 (Mouse) http:/www.informatics.jax.org/mgd.html 大 鼠 (Rat) http:/ratmap.gen.gu.se 狗 (Do
10、g) http:/mendel.berkeley.edu/dog.html 牛 (Cow) http:/locus.jouy.inra.fr/cgi-bin/bovmap/intro2.pl 豬 (Pig) http:/www.ri.bbsrc.ac.uk/pigmap/pigbase/pigbase.html 羊 (Sheep) http:/dirk.invermay.cri.nz 雞 (Chicken) http:/www.ri.bbsrc.ac.uk/chickmap/chickbase/manager.html 斑 馬 魚 (Zebra fish) http:/zfish.uorego
11、n.edu 線 蟲 (C. elegans) http:/www.ddbj.nig.ac.jp/htmls/celegans/html/CE_INDEX.html 果 蠅 (Drosophila) http:/morgan.harvard.edu 蚊 子 (Mosquito) http:/klab.agsci.colostate.edu 擬 南 芥 (Arabidopsis) http:/genome-www.stanford.edu/Arabidopsis 棉 花 (Cotton) http:/algodon.tamu.edu 玉 米 (Maize) http:/www.agron.miss
12、ouri.edu 水 稻 (Rice) http:/www.staff.or.jp 大 豆 (Soya) http:/mendel.agron.iastate.edu:8000/main.html 楊 樹 (Trees) http:/s27w007.pswfs.gov 2. Genome Databases 11 human Arabidopsis Thermotoga maritimaEscherichia coliBuchnerasp. APS Rickettsia prowazekiiUreaplasma urealyticum Bacillus subtilis Drosophila
13、melanogasterThermoplasma acidophilumPlasmodium falciparum Helicobacter pylori mouse Caenorhabitis elegans rat Borrelia burgorferiBorrelia burgorferi Aquifex aeolicus Neisseria meningitidis Z2491 Mycobacterium tuberculosis Model organism 12 Model organism databases Escherichia coli E. coli Genome Cen
14、ter (Wisconsin University, USA) The E. coli index (University of Birmingham, UK) S. cerevisiae (Bakers yeast) SGD (Yeast genome database at Stanford, USA) CYGD (MIPS Comprehensive Yeast Genome Database, Neuherberg, Germany) Arabidopsis thaliana MATDB (MIPS A. thaliana database, Munich, Germ.) TAIR (
15、The Arabidopsis Information Resource, previously AtDB, at Stanford, USA) KAOS (Kazusa Arabidopsis data Opening Site at Kazusa DNA Research Institute, Jp) Arabidopsis Genome Analysis (at Cold Spring Harbor laboratories, USA) TIGR Arabidopsis thaliana Database (TIGR, Rockeville MD, USA) Oryza sativa (
16、Rice) RGP (Rice Genome Research Programme, Jp) Gramene (Comparative mapping resource for graines) INE (Integrated rice genome explorer: common database of the International Rice Genome Sequencing Project, IRGSP, Jp) 13 Model organism databases Caenorhabditis elegans WormBase (C. elegans database at
17、Cold Spring Harbor Laboratories, USA) Drosophila melanogaster (Fruit fly) FlyBase (Drosophila genome database) BDGP (Berkeley Drosphila genome project) Danio rerio (Zebrafish) ZFIN (Zebrafish Information Network at University of Oregon, USA) WashU-Zebrafish Genome Resources (Zebrafish EST database a
18、t Washington University, USA) Mus musculus (Mouse) MGI (Mouse genome informatics) Homo sapiens GDB (The human Genome Database, Toronto, Canada) HIB (HumanInfoBase of annotated UniGene clusters - putative human gene transcripts - at MIPS, Germany) Human genome resources (at NCBI, USA) Human genome br
19、owser (at the University of California Santa Cruz, USA) HGP (Human Genome Project at the Sanger Institute, Cambridge, UK) GeneLinks (Portal to hyperlinks for each human gene at the Center for Genomics and Bioinformatics, Karolinska Institutet, Stockholm, Sweden) 14 Prokaryotes include:Escherichia co
20、li (E. coli) - This common, Gram-negative gut bacterium is the most widely-used organism in molecular genetics. Bacillus subtilis - an endospore forming Gram-positive bacterium 15 Table of model genetic organisms Organism Genome Sequenced Homologous Recombination BiochemistryProkaryoteEscherichia co
21、li Yes Yes ExcellentEukaryote, unicellularDictyostelium discoideum Yes Yes ExcellentSaccharomyces cerevisiae Yes Yes GoodSchizosaccharomyces pombe Yes Yes GoodChlamydomonas reinhardtii Yes No GoodTetrahymena thermophila Yes Yes Good Eukaryote, multicellularCaenorhabditis elegans Yes Difficult Not so
22、 goodDrosophila melanogaster Yes Difficult GoodArabidopsis thaliana Yes No PoorVertebrateDanio rerio Yes Difficult? GoodMus musculus Yes Yes GoodHomo sapiens Yes Yes Good 16 The Genome database provides views for a variety of genomes, complete chromosomes, sequence maps with contigs, and integrated
23、genetic and physical maps. The database is organized in six major organism groups: Archaea, Bacteria, Eukaryotae, Viruses, Viroids, and Plasmids and includes complete chromosomes, organelles and plasmids as well as draft genome assemblies. 17 virusesplasmids bacteriafungiplantsalgaeinsectsmollusksre
24、ptilesbirdsmammalsGenome sizes in nucleotide pairs (base-pairs) 104 108105 106 107 10111010109The size of the humangenome is 3 X 109 bp;almost all of its complexityis in single-copy DNA.The human genome is thoughtto contain 20,000 to 30,000 genes. bony fishamphibians 18 19 20 Escherichia coli大 腸 桿 菌
25、大 腸 桿 菌 是 研 究 得 最 為 詳 盡 的 一 個 模 式 生 物 。 這 種只 有 1.6微 米 長 的 、 可 以 迅 速 繁 殖 的 單 細 胞 原 核 生 物 ,已 經(jīng) 成 為 實 驗 室 和 基 因 工 程 的 重 要 工 具 。Escherichia coli O157:H7Escherichia coli K12模 式 生 物 (Model Organism) 21 釀 酒 酵 母 : 16個 染 色 體 , 全 基 因 組 1996年 測 定 。 22 秀 麗 線 蟲 : 雌 雄 同 體 成 蟲 細 胞 數(shù) 目 只 有 959個 , 其 中 包 括 302個 神 經(jīng) 元
26、 ; 6條 染 色 體 , 全 基 因 組 于 1998年 測 定 , 長 9.7Mb 23 果 蠅 :繁 殖 很 快 , 基 因 組 : 180Mb。 24 擬 南 芥 :個 體 生 活 周 期 只 有 6周 的 十 字 花 科 小 草 ,是 一 種 理 想 的 模 式 植 物 。 25 非 洲 瓜 蟾 ( Xenopus lavias) 1個 受 精 卵 在 24小 時 內(nèi) 分 裂 到 各 種 器 官 初具 雛 形 的 程 度 ; 26 斑 馬 魚 ( Danio rerio)身 體 透 明 的 小 魚 , 生 活 周 期 約 3個 月 , 是 研究 脊 椎 動 物 發(fā) 育 過 程 的 良
27、 好 對 象 。 27 小 鼠 ( Mus musculus)基 因 組 大 小 與 人 類 相 近 , 有 19條 常 染 色 體 ; 28 29 BLAST 基 本 局 部 比 對 搜 索 工 具 (Basic Local Alignment Search Tool) NCBI上 BLAST服 務 的 網(wǎng) 址 : http:/blast.ncbi.nlm.nih.gov/ NCBI上 BLAST程 序 的 下 載 :ftp:/ftp.ncbi.nlm.nih.gov/blast/executables/release/ NCBI的 BLAST數(shù) 據(jù) 庫 下 載 網(wǎng) 址 : ftp:/ftp
28、.ncbi.nlm.nih.gov/blast/db/ 30 選 擇 物 種選 擇 blast程 序 31 QuerySequenceAminoacidSequence DNASequence tBLASTxBLASTxBLASTntBLASTnBLASTp NucleotideDatabaseProteinDatabaseNucleotideDatabaseNucleotideDatabaseProteinDatabase Translated TranslatedTranslated 32 程 序 名 搜 索 序 列 數(shù) 據(jù) 庫 內(nèi) 容 備 注blastp Protein Protein
29、比 較 氨 基 酸 序 列 與 蛋 白質(zhì) 數(shù) 據(jù) 庫 使 用 取 代 矩 陣 尋 找 較遠 的 關 系 , 進 行 SEG過 濾blastn Nucleotide Nucleotide 比 較 核 酸 序 列 與 核 酸 數(shù)據(jù) 庫 尋 找 較 高 分 值 的 匹 配 ,對 較 遠 的 關 系 不 太 適用blastx Nucleotide Protein 比 較 核 酸 序 列 理 論 上 的六 個 讀 碼 框 的 所 有 轉(zhuǎn) 換結(jié) 果 和 蛋 白 質(zhì) 數(shù) 據(jù) 庫 用 于 新 的 DNA序 列 和ESTs的 分 析 , 可 轉(zhuǎn)譯 搜 索 序 列 tblastn Protein Nucleoti
30、de 比 較 蛋 白 質(zhì) 序 列 和 核 酸序 列 數(shù) 據(jù) 庫 , 動 態(tài) 轉(zhuǎn) 換為 六 個 讀 碼 框 的 結(jié) 果 用 于 尋 找 數(shù) 據(jù) 庫 中 沒有 標 注 的 編 碼 區(qū) , 可轉(zhuǎn) 譯 數(shù) 據(jù) 庫 序 列tblastx Nucleotide Nucleotide 比 較 核 酸 序 列 和 核 酸 序列 數(shù) 據(jù) 庫 , 經(jīng) 過 兩 次 動態(tài) 轉(zhuǎn) 換 為 六 個 讀 碼 框 的結(jié) 果 轉(zhuǎn) 譯 搜 索 序 列 與 數(shù) 據(jù)庫 序 列 33 以 Blastx為 例 :目 標 序 列 為 ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AAT CT
31、G CTT TAT ACC CGC6個 讀 碼 框 翻 譯5端 到 3端第 一 位 起 始 :ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AAT CTG CTT TAT ACC CGC第 二 位 起 始 : TGA GTA CCG CTA AAT TAG TTA AAT CAA AAG CGA CCA ATC TGC TTT ATA CCC GC第 三 位 起 始 : GAG TAC CGC TAA ATT AGT TAA ATC AAA AGC GAC CAA TCT GCT TTA TAC CCG C3端 到 5端第 一 位 起 始 :G
32、CG GGT ATA AAG CAG ATT GGT CGC TTT TGA TTT AAC TAA TTT AGC GGT ACT CAT第 二 位 起 始 : CGG GTA TAA AGC AGA TTG GTC GCT TTT GAT TTA ACT AAT TTA GCG GTA CTC AT第 三 位 起 始 : GGG TAT AAA GCA GAT TGG TCG CTT TTG ATT TAA CTA ATT TAG CGG TAC TCA T 34 35 選 擇 數(shù) 據(jù) 庫 序 列 或 目 標 序 列 的 GI號以 文 件 格 式 上 傳blastnBlastn算 法 選
33、擇1. 選 擇 相 應 的 序 列 。2. 選 擇 一 個 用 于 搜 索 的 數(shù) 據(jù) 庫 。3. 選 擇 一 個 BLAST程 序 。4. 為 搜 索 和 輸 出 進 行 參 數(shù) 調(diào) 整 。選 擇 物 種 36 配 對 與 錯 配 空 位 罰 分 37 blastp Blastp算 法 選 擇 38 打 分 矩 陣 :PAM30PAM70BLOSUM80BLOSUM62BLOSUM45 39 選 擇 打 分 矩 陣 ( scoring matrix)The PAM family Based on global alignments The PAM1 is the matrix calcula
34、ted from comparisons of sequences with no more than 1% divergence. Other PAM matrices are extrapolated from PAM1.The BLOSUM family Based on local alignments. BLOSUM62 is a matrix calculated from comparisons of sequences with no less than 62% divergence. All BLOSUM matrices are based on observed alig
35、nments ;they are not extrapolated from comparisons of closely related proteins. 40 比 對 的 數(shù) 據(jù) 庫 信 息圖 形 化 結(jié) 果檢 索 序 列 信 息blastn結(jié) 果 41 E值 ( E-value) 表 示 僅 僅 因 為 隨 機 性 造 成 獲 得 這 一 比 對 結(jié)果 的 可 能 性 。 這 一 數(shù) 值 越 接 近 零 , 隨 機 發(fā) 生 這 一 事 件 的 可 能性 越 小 , 結(jié) 果 可 靠 性 越 高 。blastn結(jié) 果 42 blastn結(jié) 果 43 練 習 1: 網(wǎng) 上 運 行 blast
36、x和 blastn(NCBIblast網(wǎng) 址 : http:/blast.ncbi.nlm.nih.gov/)lesson.seq.screen.Contig34TTTTTTTTTTTTTTTTTAGTGCCAGTTTTTTTTTTTATTTGTAAAGCTCTGCCATAAACTTCTAGCGTGTGCCAATGGTCACCTGCCACACTCGCACCAGGTTGTCCGTGTAGCCAGCAAACAGAGTCTGGCCATCAGCAGACCAGGCCAGGGAGGTGCACTGGGGTGGTTCTGCCTTGCTGCTGGTACTGATAACTTCTTGCTTCAGTTCATCTACAA
37、TGATCTTTCCCTCTAAATCCCAGATCTTGATGCTGGGGCCTGTGGAGCACACAGCCAGTAGCGGTTAGGGCTGAAGCACAGGGCGTTGATGATGTCCCCACCATCTAGCGTGTAAAGGTGTTTGCCTTCGTTGAGATCCCATAACATGGCCTGGCCATCCTTGCCTCCAGAAGCACAGAGGGATCCATCTGGAGAGACAGTCACCGTGTTCAGATAGCCTGTGTGGCCAATGTGGTTGGTCTTCAGCTTGCAGTTAGCCAGGTTCCATACCTTGACCAGCTTGTCCCAGCCACAGGAGAC
38、GATGATAGGGTTGCTGCTGTTGGGCGAGAAGCGGACACAAGACACCCACTCTGAGTGGCTCTCATCCTGGACAGTGTATTTGCACACACCCAGGGTATTCCATAGCTTGATGGTTTTATCTCGAGATCCAGAGACAATCTGCCGGTTGTCAGAGGAGAAGGCCACACTCAGCACATCCTTGGTATGGCCCACAAATCGCCTCGTGGTGGTGCCCGTTGTGAGATCCCAGAAGGCGCAGGGTTCCATCCCAGGAGCCTGAGAGGGCAAACTGGCCATCTGAGGAGATAACCA CATCACTA
39、ACAAAGTGGGAGTGACCCCGCAGAGCACGCTGTGGAATTCCATAGTTGGTCTCATCCCTGGTCAGTTTCCACATGATGATGGTCTTATCTCGAGAGGCGGAGAGGATCATGTCCGGGAACTGCGGGGTAGTAGCGATCTGGGTTACCCAGCCGTTGTGGCCCTTGAGGGTGCCACGAAGGGTCATCTGCTCAGTCATGGCGGCGGCGAGAGCGTGTTCGCTGCAGCGACGAGGATGGCACTGGATGGCTTAGAGAAACTAGCACCACAGTCGACC1. 對 contig34進 行 網(wǎng) 上 blas
40、tn( 演 示 ) ,2. blastx( 自 行 操 作 ) 比 對 44 網(wǎng) 頁 版 BLAST的 優(yōu) 缺 點 : 優(yōu) 點 : 直 觀 方 便 , 容 易 操 作 , 數(shù) 據(jù) 庫 同 步更 新 缺 點 : 不 利 于 操 作 大 批 量 的 數(shù) 據(jù) , 同 時 也不 能 自 己 定 義 搜 索 的 數(shù) 據(jù) 庫 , 對 網(wǎng) 絡 依 賴性 太 大 。 45 本 地 運 行 BLAST 下 載 NCBI上 blast程 序 : ftp:/ftp.ncbi.nlm.nih.gov/blast/executables/release/ 安 裝 ( 安 裝 到 C:blast) 數(shù) 據(jù) 庫 的 格 式
41、 化 ( formatdb) 程 序 運 行 ( blastall) 46 登 陸 NCBI的 FTP下 載 blast程 序 47 雙 擊 安 裝 到 C盤產(chǎn) 生 三 個 文 件 夾bindatadoc將 數(shù) 據(jù) 庫 文 件 (db)及 目 標 序列 文 件 (in)保 存 在 Blast/bin文 件 夾 下bin含 可 執(zhí) 行 程 序 (將 數(shù) 據(jù) 庫 及 需 要 比對 操 作 的 數(shù) 據(jù) 放 入 該 文 件 );data文 件 夾 含 打 分 矩 陣 及 演 示 例 子 的序 列 數(shù) 據(jù) 信 息 ;doc文 件 夾 含 關 于 各 子 程 序 的 說 明 文檔 。 48 本 地 數(shù) 據(jù)
42、 庫 的 構(gòu) 建 查 看 db文 件 由 fasta格 式 的 序 列 組 成 , 以 “ ” 開 頭 , 緊接 著 是 序 列 描 述 信 息 , 換 行 后 即 是 核 苷 酸或 蛋 白 質(zhì) 序 列 , 直 至 下 一 個 “ ” 前 為 止 。 49 數(shù) 據(jù) 庫 的 格 式 化formatdb命 令 用 于 數(shù) 據(jù) 庫 的 格 式 化 :formatdb option1 option2 option3formatdb常 用 參 數(shù)-i database_name 需 要 格 式 化 的 數(shù) 據(jù) 庫 名 稱-p TF 待 格 式 化 數(shù) 據(jù) 庫 的 序 列 類 型( 核 苷 酸 選 F;
43、蛋 白 質(zhì) 選 T; 默 認 值 為 T)例 : formatdb -i db -p T對 蛋 白 質(zhì) 數(shù) 據(jù) 庫 “ db”進 行 格 式 化 50 程 序 運 行blastall命 令 用 于 運 行 五 個 blast子 程 序 :blastall option1 option2 option3*可 在 dos下 輸 入 blastall查 看 各 個 參 數(shù) 的 意 義 及 使 用 blastall常 用 參 數(shù) 四 個 必 需 參 數(shù)-p program_name,程 序 名 , 根 據(jù) 數(shù) 據(jù) 庫 及 搜 索 文 件 序 列 性 質(zhì) 進 行 選 擇 ;-d database_nam
44、e,數(shù) 據(jù) 庫 名 稱 ,比 對 完 成 格 式 化 的 數(shù) 據(jù) 庫 ;-i input_file,搜 索 文 件 名 稱 ;-o output_file,BLAST結(jié) 果 文 件 名 稱 ; 兩 個 常 用 參 數(shù)-e expectation, 期 待 值 ,默 認 值 為 10.0, 可 采 用 科 學 計 數(shù) 法 來 表 示 , 如 2e-5; -m alignment view options:比 對 顯 示 選 項 , 其 具 體 的 說 明 可 以 用 以 下 的 比 對 實例 說 明例 : blastall -p blastx -d db -i in -o out -e 2e-5
45、 -m 9 (表 格 顯 示 比 對 結(jié) 果 )采 用 blastx程 序 , 將 in中 的 序 列 到 數(shù) 據(jù) 庫 db中 進 行 比對 , 結(jié) 果 以 表 格 形 式 輸 入 到 out文 件 51 練 習 2:本 地 運 行 blastx 進 入 DOS命 令 行 提 示 符 狀 態(tài) ( “ 運 行 ” 輸 入 cmd) 進 入 C盤 , 輸 入 : cd 進 入 包 含 序 列 數(shù) 據(jù) 的 bin目 錄 下 , 輸 入 : cd blastbin 查 看 目 錄 下 內(nèi) 容 , 輸 入 : dir 格 式 化 數(shù) 據(jù) 庫 db: formatdb -i db -p T 運 行 bla
46、stx blastall -p blastx -i in -d db -o out -e 2e-5 -m 9 查 看 結(jié) 果 : 用 寫 字 板 或 者 記 事 本 打 開 out文 件輸 入 數(shù) 據(jù) 庫 類 型 : F/TBlast程 序 序 列 輸 入 數(shù) 據(jù) 庫 結(jié) 果 輸 出 52 53 3.蛋 白 質(zhì) 序 列 數(shù) 據(jù) 庫 SWISS PROT(歐 洲 ) PIR(美 國 ) 54 Protein Sequence Databases UniProt: United Protein DatabasesA single database that combines the informa
47、tion of the major international databases, European Bioinformatics Institute (EBI), Cambridge, UK; Protein Information Resource (PIR) - Georgetown University Medical Center (GUMC) and Swiss Institute of Bioinformatics (SIB) - Geneva, Switzerland. “The Universal Protein Resource (UniProt) provides th
48、e scientific community with a single, centralized, authoritative resource for protein sequences and functional information.” PIR Protein Sequence DatabaseThe database is described by its sponsor as “functionally annotated protein sequences, which grew out of the Atlas of Protein Sequence and Structu
49、re (1965-1978) edited by Margaret Dayhoff and has been incorporated into an integrated knowledge base system of value-added databases and analytical tools.” From the Protein Information Resource, the major U.S. source of protein informatics. Swiss-ProtThe major European protein sequence database, wi
50、th accompanying annotations, from the Swiss Institute of Bioinformatics. “Swiss-Prot is a curated protein sequence database which strives to provide a high level of annotations (such as the description of the function of a protein, its domains structure, post-translational modifications, variants, e
51、tc.), a minimal level of redundancy and high level of integration with other databases.” Also at this site is TrEMBL, which contains all translated nucleic acid protein coding sequences in EMBL that have not yet been annotated and incorporated into Swiss-Prot. 55 SWISS-PROT 只 收 錄 實 際 存 在 的 蛋 白 質(zhì) , 有
52、 詳 細 的 注 釋 ( 包 括 功 能 、 結(jié) 構(gòu) 域 、 翻譯 后 的 修 飾 等 ) 及 齊 全 的 引 文 和 到 其 它 數(shù) 據(jù) 庫 的 鏈 接 。 http:/www.expasy.org/sprot/ ftp:/ftp.expasy.ch/databases/swiss-prot/ TrEMBL 從 EMBL庫 中 的 核 酸 序 列 翻 譯 出 來 的 氨 基 酸 序 列 , 已 經(jīng) 完 成 自 動 注釋 。 其 中 SP-TrEMBL條 目 已 由 專 家 人 工 分 類 并 賦 予 SWISS-PROT索 引 號 , 但 未 通 過 人 工 審 讀 被 最 終 收 入 SW
53、ISS-PROT。 SWISS-PROT+TrEMBL非 冗 余 庫 http:/www.expasy.ch/sprot/ ftp:/ftp.expasy.ch/databases/sp_tr_nrdb/ 56 SWISS PROT 1. 瑞 士 日 內(nèi) 瓦 大 學 醫(yī) 學 生 物 化 學 系 和 歐 洲 生 物 信 息 學 研 究 所 (EBI)合 作 維 護 ( 1986年 ) ; 2. 在 EMBL和 GenBank數(shù) 據(jù) 庫 上 均 建 立 了 鏡 像 站 點 ; 3. 數(shù) 據(jù) 庫 包 括 了 從 EMBL翻 譯 而 來 的 蛋 白 質(zhì) 序 列 , 這 些 序 列 經(jīng)過 檢 驗 和 注
54、 釋 ; 4. 數(shù) 據(jù) 記 錄 包 括 兩 部 分 : 序 列 注 釋 (結(jié) 構(gòu) 域 、 功 能 位 點 、 跨 膜 區(qū) 域 、 二 硫 鍵 位 置 、 翻 譯 后 的 修 飾 、 突 變 體 等 ) 5. 數(shù) 據(jù) 存 在 滯 后 性 TrEMBL數(shù) 據(jù) 庫 的 建 立SWISS-PROT的 網(wǎng) 址 : http:/cn.expasy.org/sprot TrEMBL的 網(wǎng) 址 : http:/www.ebi.ac.uk/trembl/index.html 57 SWISS-PROT (http:/www.expasy.ch/sprot/sprot-top.html)是 目 前 國 際 上 比
55、 較 權(quán) 威 的 蛋 白 質(zhì) 序 列 數(shù) 據(jù) 庫 ,其 中 的 蛋 白質(zhì) 序 列 是 經(jīng) 過 注 釋 的 SWISS-PROT中 的 數(shù) 據(jù) 來 源 于 不 同 源 地 :( 1) 從 核 酸 數(shù) 據(jù) 庫 經(jīng) 過 翻 譯 推 導 而 來 ;( 2) 從 蛋 白 質(zhì) 數(shù) 據(jù) 庫 PIR挑 選 出 合 適 的 數(shù) 據(jù) ;( 3) 從 科 學 文 獻 中 摘 錄 ;( 4) 研 究 人 員 直 接 提 交 的 蛋 白 質(zhì) 序 列 數(shù) 據(jù) SWISS-PROT有 三 個 明 顯 的 特 點 : 58 ( 1) 注 釋在 SWISS-PROT中 , 數(shù) 據(jù) 分 為 核 心 數(shù) 據(jù) 和 注 釋 兩 大 類
56、 。核 心 數(shù) 據(jù) 包 括 :序 列 數(shù) 據(jù) 、 參 考 文 獻 、 分 類 信 息 ( 蛋 白 質(zhì) 生 物 來 源 的 描 述 )注 釋 包 括 : (A)蛋 白 質(zhì) 的 功 能 描 述 ; (B)翻 譯 后 修 飾 ; (C)域 和 功 能 位 點 , 如 鈣 結(jié) 合 區(qū) 域 、 ATP結(jié) 合 位 點 等 ; (D)蛋 白 質(zhì) 的 二 級 結(jié) 構(gòu) ; (E)蛋 白 質(zhì) 的 四 級 結(jié) 構(gòu) , 如 同 構(gòu) 二 聚 體 、 異 構(gòu) 三 聚 體 等 ; (F)與 其 它 蛋 白 質(zhì) 的 相 似 性 ; (G)由 于 缺 乏 該 蛋 白 質(zhì) 而 引 起 的 疾 病 ; (H)序 列 的 矛 盾 、
57、 變 化 等 。 59 ( 2) 最 小 冗 余 盡 量 將 相 關 的 數(shù) 據(jù) 歸 并 , 降 低 數(shù) 據(jù) 庫 的 冗 余程 度 。 如 果 不 同 來 源 的 原 始 數(shù) 據(jù) 有 矛 盾 , 則 在 相 應序 列 特 征 表 中 加 以 注 釋 。 60 ( 3) 與 其 它 數(shù) 據(jù) 庫 的 連 接 對 于 每 一 個 登 錄 項 , 有 許 多 指 向 其 它 數(shù) 據(jù) 庫 相 關數(shù) 據(jù) 的 指 針 , 這 便 于 用 戶 迅 速 得 到 相 關 的 信 息 。 現(xiàn) 有 的 交 叉 索 引 有 : 到 EMBL核 酸 序 列 數(shù) 據(jù) 庫 的 索 引 , 到 PROSITE模 式 數(shù) 據(jù) 庫
58、 的 索 引 , 到 生 物 大 分 子 結(jié) 構(gòu) 數(shù) 據(jù) 庫 PDB的 索 引 等 。 61 TrEMBL (http:/www.ebi.ac.uk/trembl/index.html) 是 與 SWISS-PROT相 關 的 一 個 數(shù) 據(jù) 庫 。包 含 從 EMBL核 酸 數(shù) 據(jù) 庫 中 根 據(jù) 編 碼 序 列 (CDS)翻 譯 而 得 到 的 蛋白 質(zhì) 序 列 , 并 且 這 些 序 列 尚 未 集 成 到 SWISS-PROT數(shù) 據(jù) 庫 中 。TrEMBL有 兩 個 部 分 :( 1) SP-TrEMBL(SWISS-PROT TrEMBL)包 含 最 終 將 要 集 成 到 SWIS
59、S-PROT的 數(shù) 據(jù) , 所 有 的 SP-TrEMBL 序 列 都 已 被 賦 予 SWISS-PROT的 登 錄 號 。( 2) REM-TrEMBL(REMaining TrEMBL)包 括 所 有 不 準 備 放 入 SWISS-PROT的 數(shù) 據(jù) , 因 此 這 部 分 數(shù) 據(jù) 都沒 有 登 錄 號 。 62 63 http:/www.expasy.org/proteomics 64 http:/www.uniprot.org/uniprot/?query=hbsag 1988年 , 由 美 國 RCSB(research collaboratory for structural
60、biology)管 理 ; 以 文 本 格 式 存 放 數(shù) 據(jù) , 包 括 原 子 坐 標 、 物 種 來 源 、 測 定 方法 、 提 交 者 信 息 、 一 級 結(jié) 構(gòu) 、 二 級 結(jié) 構(gòu) 等 ; PDBsum數(shù) 據(jù) 庫 : PDB注 釋 信 息 綜 合 數(shù) 據(jù) 庫 , 具 有 檢 索 、 分析 、 可 視 化 的 功 能 。 PDB的 網(wǎng) 址 : http:/www.rcsb.org/pdb(美 國 ) PDBsum的 網(wǎng) 址 : http:/www.biochem.ucl.ac.uk/bsm/pdbsum 83 PDB中 含 有 通 過 實 驗 ( X射 線 晶 體 衍 射 , 核 磁
61、共 振 NMR) 測 定 的 生 物 大 分 子 的 三 維 結(jié) 構(gòu) 蛋 白 質(zhì) 核 酸 糖 類 其 它 復 合 物 PDB( Protein Data Bank) 84 隱 式 序 列 信 息 ( implicit sequence ) PDB的 隱 式 序 列 即 為 立 體 化 學 數(shù) 據(jù) , 包 括 每 個 原 子的 名 稱 和 原 子 的 三 維 坐 標 。 顯 式 序 列 信 息 ( explicit sequence)在 PDB文 件 中 , 以 關 鍵 字 SEQRES作 為 顯 式 序 列 標 記 ,以 該 關 鍵 字 打 頭 的 每 一 行 都 是 關 于 序 列 的 信
62、息 。 85 http:/www.rcsb.org/pdb/home/home.do 86 l 轉(zhuǎn) 錄 因 子 數(shù) 據(jù) 庫RANSFAChttp:/transfac.gbf.deooTFDhttp:/www.ifti.orgl 基 因 分 類 數(shù) 據(jù) 庫 Gene Ontology (GO)http:/www.geneontology.orgl 酶 、 代 謝 和 調(diào) 控 路 徑 數(shù) 據(jù) 庫 KEGG http:/www.genome.ad.jp/kegg/Enzyme Nomenclature Database http:/expasy.hcuge.ch/sprot/enzyme.htmlP
63、rotein Kinase Resource (PKR)http:/www.sdsc.edu/kinases/l RNA數(shù) 據(jù) 庫 miRBase http:/www.mirbase.org/ mirna database http:/ lncRNAdb http:/www.lncrna.org/Help.aspx 87 Ensembl KEGG Pathway database http:/www.genome.jp/kegg/pathway.html Breakdown into major categories: metabolism (the most important one),
64、genetic information processing (including protein folding and sorting), environmental information processing (including membrane transport and intracellular signaling), cellular processes, plus some others Broken down into subcategories, e.g. carbohydrate metabolism, and then into individual pathways, e.g. glycolysis/gluconeogenesis (http:/www.genome.jp/kegg/pathway/map/map00010.html ) 90
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 川渝旅游日記成都重慶城市介紹推薦景點美食推薦
- XX國有企業(yè)黨委書記個人述責述廉報告及2025年重點工作計劃
- 世界濕地日濕地的含義及價值
- 20XX年春節(jié)節(jié)后復工安全生產(chǎn)培訓人到場心到崗
- 大唐女子圖鑒唐朝服飾之美器物之美繪畫之美生活之美
- 節(jié)后開工第一課輕松掌握各要點節(jié)后常見的八大危險
- 廈門城市旅游介紹廈門景點介紹廈門美食展示
- 節(jié)后開工第一課復工復產(chǎn)十注意節(jié)后復工十檢查
- 傳統(tǒng)文化百善孝為先孝道培訓
- 深圳城市旅游介紹景點推薦美食探索
- 節(jié)后復工安全生產(chǎn)培訓勿忘安全本心人人講安全個個會應急
- 預防性維修管理
- 常見閥門類型及特點
- 設備預防性維修
- 2.乳化液泵工理論考試試題含答案