生物信息學簡介
《生物信息學簡介》由會員分享,可在線閱讀,更多相關《生物信息學簡介(85頁珍藏版)》請在裝配圖網上搜索。
1、生 物 信 息 基 礎生 物 信 息 學 簡 介 2021-5-25 2 主講教師:高 昇Cell: 13120144593Email: Office:教三樓803-模式識別實驗室助教:莫能斌Cell: 13401134371Email: Office:教三樓803-模式識別實驗室 參 考 資 料n 孫 嘯 等 編 著 , 生 物 信 息 學 基 礎 , 清 華 大 學 出 版社 , 2005年 5月 .n 王 勇 獻 等 編 著 , 生 物 信 息 學 導 論 面 向 高 性 能計 算 的 算 法 與 應 用 ,清 華 大 學 出 版 社 , 2011年 6月 .n 陳 寶 林 , 最 優(yōu)
2、化 理 論 與 算 法 (第 二 版 ), 清 華 大 學出 版 社 , 2005年 10月 . n 課 件 存 放 郵 箱 : bioinfo_ passwd: bioinfo 2021-5-25 3 考 核 方 式n 期 末 成 績 40% 大 作 業(yè) or 考 試n 平 時 成 績 40% 小 作 業(yè) 開 放 項 目 , 鼓 勵 自 由 參 與n 日 常 考 勤 20% 2021-5-25 4 課 程 定 位n Introduction to Life Science and Artificial Life 生 物 信 息 基 礎n 生 命 科 學 中 的 信 息 科 學 利 用 信 息
3、 科 學 的 方 法 和 技 術 , 研 究 生 物 體 系 和 生 物 過 程中 信 息 的 存 儲 、 信 息 的 內 涵 和 信 息 的 傳 遞 , 研 究 和 分 析生 物 體 細 胞 、 組 織 、 器 官 的 生 理 、 病 理 、 藥 理 過 程 中 的各 種 生 物 信 息 。n Bioinformatics: 分 析 復 雜 生 物 學 數 據 的 學 科 : 應 用 信 息 科 學 的 理 論 、 方法 和 技 術 , 管 理 、 分 析 和 利 用 生 物 分 子 數 據 。 分 子 生 物 信 息 學 ( Molecular Bioinformatics)2021-5-
4、25 5 2021-5-25 6 內 容 提 要n 生 物 信 息 學 產 生 的 背 景n 什 么 是 生 物 信 息 學n 生 物 信 息 學 的 研 究 意 義n 生 物 信 息 學 的 發(fā) 展 歷 史 n 生 物 信 息 學 主 要 研 究 內 容 n 生 物 信 息 學 所 用 的 方 法 和 技 術 2021-5-25 7生 命 信 息 的 組 織 、傳 遞 、 表 達 物 理 化 學 分 子生 物 學遺 傳 學信 息 技 術引 言 8 歷 史 回 顧 (1)n 1866年 , 神 父 Gregor Mendel通過 對 豌 豆 的 雜 交 和 遺 傳 學 研 究 ,提 出 了 傳
5、 遞 遺 傳 特 征 的 基 本 單 位 -遺 傳 因 子 (基 因 )的 概 念n 1944年 , Avery & McCarty第 一次 發(fā) 現(xiàn) 了 遺 傳 信 息 的 載 體 是 染 色體 上 的 DNA(而 不 是 先 前 認 為 的蛋 白 質 ). 9 歷 史 回 顧 (2)n 1953年 , James Watson & Francis Crick發(fā) 現(xiàn) 了 DNA的 雙螺 旋 空 間 結 構 并 推 斷 出 了 DNA的 復 制 方 式 , 由 此 揭 開 了 分 子生 物 學 研 究 的 序 幕 。n 1990年 , 人 類 基 因 組 計 劃 啟 動 人 類 歷 史 上 的
6、三 大 科 技 工 程 2021-5-25 10 曼哈頓原子彈研制計劃人類基因組計劃阿波羅登月計劃 1941.12.6 - 1945.7.16羅斯福批準耗資20億美元原 子 半 徑 10-10m原 子 體 積 10-30m 3 1990.10.1 - 2003.4.23克林頓、布萊爾批準耗資30億美元1961.5.25 - 1969.7.20肯尼迪批準耗資240億美元人 體 半 徑 100m人 體 體 積 100m 3 太 陽 系 半 徑 1012m太 陽 系 體 積 1034m 3 人 類 基 因 組 計 劃n 人 類 基 因 組 計 劃 (Human Genome Project, HGP
7、) 1986年 R.Dulbeccol在 Science上 撰 文 , 建 議 對 人 類 基 因組 進 行 全 測 序 。 1990年 美 國 政 府 正 式 啟 動 人 類 基 因 組 計 劃 耗 資 30億 美 元 、 為 期 15年 的 計 劃 , 預 期 到 2005年 完 成人 類 基 因 組 大 約 30億 個 堿 基 的 全 序 列 測 定 美 、 英 、 日 、 法 、 德 、 中 六 國 科 學 家 共 同 參 與n HGP的 主 要 任 務 是 : 人 類 基 因 組 以 及 一 些 模 式 生物 體 (細 菌 、 酵 母 、 線 蟲 、 果 蠅 等 )基 因 組 的 作
8、 圖 、測 序 和 基 因 識 別 。 人 類 基 因 組 計 劃 的 發(fā) 展 歷 程前 期 準 備1984年 DOE(Department of Energy) 委 托 Alta, White R., Mendelsonhm M 科學 家 專 業(yè) 會 議 ; 1985年 提 出 人 類 基 因 組 計 劃 的 動 議1986年 McKusick V 稱 從 整 個 基 因 組 層 次 上 研 究 遺 傳 的 科 學 為 基 因 組 學1986年 Dulbecco R 在 Science上 發(fā) 表 文 章 ” 腫 瘤 研 究 的 轉 折 人 類 基 因 組 的全 序 列 分 析 ” , 提 出
9、 人 類 基 因 組 計 劃1986年 Gilbert W & Berg P 主 持 人 類 基 因 組 計 劃 專 家 會 議1987年 DOE(能 源 部 )和 NIH(國 家 健 康 研 究 院 )下 撥 研 究 經 費1988年 NRC(原 子 能 調 整 委 員 會 )的 專 家 發(fā) 表 mapping and sequencing the human genome報 告 1988年 成 立 了 國 家 人 類 基 因 組 研 究 中 心 。 Watson 第 一 任 主 任 。 人 類 基 因 組 計 劃 的 發(fā) 展 歷 程正 式 啟 動1990年 經 過 5年 辯 論 , 美 國
10、 國 會 通 過 “ 人 類 基 因 組 計 劃 ”1990年 10月 1日 啟 動計 劃 15年 , 30億 美 元 多 國 參 與 (英 國 1989, 法 國 1990, 德 國 1995, 中 國 1999)1990年 6月 , 歐 共 體 通 過 “ 歐 洲 人 類 基 因 組 計 劃 ” 。此 外 , 丹 麥 , 日 本 , 韓 國 , 俄 羅 斯 和 澳 大 利 亞 也 加 入 行 動 行 列1999年 9月 1日 , 楊 煥 明 教 授 在 第 五 次 倫 敦 國 際 人 類 基 因 組 戰(zhàn) 略 討 論 會 上 介 紹情 況 。 會 議 正 式 接 受 中 國 加 入 國 際
11、合 作 , 劃 定 了 測 序 區(qū) 域 , 正 式 承 擔 的 測 序 任 務 2000年 6月 26日 各 國 科 學 家 公 布 了 人 類 基 因 組 工 作 草 圖2004年 精 度 大 于 99%的 完 成 圖 公 布 人 類 基 因 組 計 劃n 參 與 HGP的 國 家美 國 ( 54%)英 國 ( 33%)日 本 ( 7%)法 國 ( 2.8%)德 國 ( 2.2%)中 國 ( 1%)n 目 標 :測 定 人 類 基 因 組 DNA序 列 中 的 30億 個 堿 基 順 序 , 獲 取 四 張 圖 譜 : 遺 傳 圖 譜 物 理 圖 譜 序 列 圖 譜 基 因 圖 譜 HGP負
12、 責 人柯 林 斯 (Collins ) 已 完 成 測 序 的 基 因 組(http:/www.ebi.ac.uk/genomes)種類數目備注古細菌(Archaea) 16真細菌(Bacteria) 120其中有的測定了2個以上的菌株真核生物(Eukaryo) 15包括酵母、線蟲、果蠅、蚊子、擬南芥、人等病毒(Virus) 885包括不同亞類或不同株系類病毒(Viroid) 40包括不同亞類或不同株系噬菌體(Phage) 114包括不同亞類或不同株系 細胞器(Organelle) 308包括線粒體和葉綠體質粒(Plasmid) 282 103 Kilo106 Mega109 Giga101
13、2 Tera 1015 Peta1018 Exa1021 Zetta1024 Yotta一 個 普 通 生 物 實 驗 室 每 年 產 生 的 數 據 量 100 Terra-bytes (10 14)人 類 迄 今 為 止 所 說 過 的 話 (詞 語 量 ) 5 exa-bytes (51018)! 巨 量 的 數 據 GenBank DataYear Base Pairs Sequences1982 680,338 6061983 2,274,029 2,4271984 3,368,765 4,1751985 5,204,420 5,7001986 9,615,371 9,9781987
14、 15,514,776 14,5841988 23,800,000 20,579 1989 34,762,585 28,7911990 49,179,285 39,5331991 71,947,426 55,6271992 101,008,486 78,6081993 157,152,442 143,4921994 217,102,462 215,2731995 384,939,485 555,6941996 651,972,984 1,021,2111997 1,160,300,687 1,765,847 1998 2,008,761,784 2,837,8971999 3,841,163,
15、011 4,864,5702000 11,101,066,288 10,106,0232001 15,849,921,438 14,976,3102002 28,507,990,166 22,318,8832003 36,553,368,485 30,968,4182004 44,575,745,176 40,604,319http:/www.ncbi.nlm.nih.gov/Genbank/genbankstats.html 蛋 白 質 序 列 四 種 數 據n 原 始 數 據 (Original data)n 科 學 文 獻 (Scientific literature)n 數 據 組 合
16、 (Datasets)n 綜 合 性 數 據 (Organized data) 后 基 因 組 時 代 的 呼 喚n 傳 統(tǒng) 生 物 學 : 實 驗 科 學n 現(xiàn) 代 生 物 學 的 發(fā) 展 :1. 數 據 獲 取 日 益 實 現(xiàn) 自 動 化 、 半 工 業(yè) 化從 數 據 庫 中 實 現(xiàn) 數 據 挖 掘 、 知 識 發(fā) 現(xiàn)2. 海 量 數 據難 以 完 全 依 賴 實 驗 手 段 對 新 數 據 進 行 分 析 , 必 須 借 助計 算 機 實 現(xiàn) 分 析 和 篩 選3. 更 復 雜 層 次 的 生 物 學 問 題復 雜 的 基 因 調 控 網 絡 、 代 謝 網 絡 ; 細 胞 間 信 號
17、轉 導 過程 ; 生 物 個 體 全 部 基 因 表 達 變 化 面 對 堆 積 如 山 的 生 物 學 數 據 2021-5-25 22HGP生 物 數 據 的 激 增( 每 15個 月 翻 一 番 ) 生 物 學 家數 學 家信 息科 學 家 生 物 信 息 學( bioinfomatics)的 誕 生生 物 信 息 學 概 念 “We are not limited by the number of experiments that we can do, we are limited by our ability to understand the information that is
18、 generated as a result of these experiments. “Biology is quickly becoming an information science.生 物 學 日 益 成 為 一 門 信 息 科 學 Biology easily has 500 years of exciting problems to work on.生物學中有著至少500年也解決不完的有趣問題。Donald E. KnuthLets begin our exploration of computational and theoretical biology! 什 么 是 生 物
19、 信 息 學n 生 物 信 息 學 是 現(xiàn) 代 生 命 科 學 與 信 息 科 學 、 計 算 機 科 學 、 數學 、 統(tǒng) 計 學 、 物 理 學 、 化 學 等 學 科 相 互 滲 透 而 形 成 的 交 叉學 科 , 是 應 用 計 算 機 技 術 和 信 息 論 方 法 研 究 蛋 白 質 及 核 酸序 列 等 各 種 生 物 信 息 的 采 集 、 存 儲 、 傳 遞 、 檢 索 、 分 析 和解 讀 , 以 幫 助 了 解 生 物 學 信 息 的 科 學 。n 從 研 究 涉 及 的 學 科 來 看 : 多 學 科 交 叉n 從 研 究 內 容 來 看 : 基 因 組 信 息 學
20、、 蛋 白 質 組 信 息 學 、 結 構模 擬 與 分 子 設 計 等 構 成 其 主 要 組 成 部 分 2021-5-25 26 生 物 體 系 和 生 物 過 程 中 信 息的 存 儲 、 傳 遞 和 表 達細 胞 、 組 織 、 器 官 的 生 理 、 病 理、 藥 理 過 程 的 中 各 種 生 物 信 息信 息 科 學 生命科學中的信息科學概 念 ( 廣 義 ) 2021-5-25 27生 物分 子 數 據 深 層 次生 物 學 知 識 分 子 生 物 信 息 學Molecular Bioinformatics挖 掘獲 取概 念 ( 狹 義 )n 生 物 分 子 信 息 的 獲
21、取 、 存 儲 、 分 析 和 利 用 2021-5-25 28 生 物 分 子數 據 信 息計 算 + Bioinformatics 2021-5-25 29細 胞 分 子 存 儲 、 復 制 、 傳 遞 和 表 達遺 傳 信 息 的 系 統(tǒng)生 物 信 息 的 載 體生 物 分 子 信 息 2021-5-25 30 主 要 研 究 兩 種 信 息 載 體n DNA分 子n 蛋 白 質 分 子 2021-5-25 31 生 物 分 子 至 少 攜 帶 三 種 信 息n 遺 傳 信 息n 與 功 能 相 關 的 結 構 信 息n 進 化 信 息 2021-5-25 32 遺 傳 信 息 的 載
22、體 - DNAn 遺 傳 信 息 的 載 體 主 要 是 DNAn 控 制 生 物 體 性 狀 的 基 因 是 - 系 列 DNA片 段n 生 物 體 生 長 發(fā) 育 的 本 質 就 是 遺 傳 信 息 的 傳遞 和 表 達 33 DNA 7.5-101012 23對 2.8-3.5萬 2021-5-25 34 蛋 白 質 的 結 構 決 定 其 功 能n 蛋 白 質 功 能 取 決 于 蛋 白 質 的 空 間 結 構n 蛋 白 質 結 構 決 定 于 蛋 白 質 的 序 列 ( 這 是 目前 基 本 共 認 的 假 設 ) , 蛋 白 質 結 構 的 信 息隱 含 在 蛋 白 質 序 列 之
23、 中 。 2021-5-25 35 DNA分 子 和 蛋 白 質 分 子都 含 有 進 化 信 息n 通 過 比 較 相 似 的 蛋 白 質 序 列 , 如 肌 紅 蛋 白和 血 紅 蛋 白 , 可 以 發(fā) 現(xiàn) 由 于 基 因 復 制 而 產生 的 分 子 進 化 證 據 。n 通 過 比 較 來 自 于 不 同 種 屬 的 同 源 蛋 白 質 ,可 以 分 析 蛋 白 質 甚 至 種 屬 之 間 的 系 統(tǒng) 發(fā) 生關 系 , 推 測 它 們 共 同 的 祖 先 蛋 白 質 。 2021-5-25 36 生物分子信息 DNA序 列 數 據 蛋 白 質 序 列 數 據 生 物 分 子 結 構 數
24、 據 生 物 分 子 功 能 數 據 最 基 本 直 觀復 雜 2021-5-25 37 DNA核酸 序 列 蛋 白 質 氨基 酸 序 列 蛋 白 質結 構 蛋 白 質功 能最 基 本 的生 物 信 息 維 持 生 命 活動 的 機 器第 一 部 : 遺傳 密 碼 第 二 部 : 遺 傳密 碼 ?生 命 體 系 千 姿百 態(tài) 的 變 化生 物 分 子 數 據 及 其 關 系 2021-5-25 38 生 物 分 子 信 息 的 特 征n 生 物 分 子 信 息 數 據 量 大n 生 物 分 子 信 息 復 雜n 生 物 分 子 信 息 之 間 存 在 著 密 切 的 聯(lián) 系 2021-5-25
25、 39 生 物 信 息 學 的 目 標 和 任 務n 收 集 和 管 理 生 物 分 子 數 據n 數 據 分 析 和 挖 掘n 開 發(fā) 分 析 工 具 和 實 用 軟 件 生 物 分 子 序 列 比 較 工 具 基 因 識 別 工 具 生 物 分 子 結 構 預 測 工 具 基 因 表 達 數 據 分 析 工 具 2021-5-25 40 實 驗 數 據 信 息 知 識 收 集 表 示 分 析 建 模 刻 畫 特 征 比 較 推 理 應 用基 因 工 程蛋 白 質 設 計疾 病 診 斷疾 病 治 療開 發(fā) 新 藥生 物 分 子 信 息 處 理 流 程 數 據 源 數 據 量 生 物 信 息
26、學 任 務DNA序列 11.5百 萬 條 序 列125.0 億 個 堿 基 分 離 編 碼 與 非 編 碼 區(qū) 域識 別 內 含 子 與 外 顯 子基 因 產 物 預 測基 因 功 能 注 釋基 因 調 控 信 息 分 析 蛋 白 質序 列 40.0萬 條 序 列 ( 每條 序 列 平 均 有 300氨 基 酸 ) 序 列 比 較多 重 序 列 比 對識 別 保 守 的 序 列 模 式進 化 分 析 數 據 源 數 據 量 生 物 信 息 學 任 務大 分 子結 構 1.5 萬 個 結 構( 每 個 結 構 平均 1000個 原 子坐 標 ) 二 級 結 構 、 空 間 結 構 預 測三 維
27、結 構 比 對蛋 白 質 幾 何 學 度 量表 面 和 形 態(tài) 計 算分 子 間 相 互 作 用 分 析分 子 模 擬 基 因 組 300個 基 因 組 標 注 重 復 序 列基 因 結 構 分 析系 統(tǒng) 發(fā) 生 分 析基 因 與 疾 病 的 連 鎖 分 析基 因 組 比 較遺 傳 語 言 分 析 2021-5-25 43 數 據 源 數 據 量 生 物 信 息 學 任 務基 因 表 達 酵 母 6000個 基 因在 約 20時 間 點 表達 值 表 達 模 式 相 關 分 析 基 因基 因 調 控 網 絡 分 析表 達 調 控 信 息 分 析 2021-5-25 44 分 子 生 物 學 的
28、 三 大 核 心 數 據 庫n GenBank核 酸 序 列 數 據 庫n SWISS-PROT蛋 白 質 序 列 數 據 庫n PDB生 物 大 分 子 結 構 數 據 庫 2021-5-25 45 生 物 信 息 學 研 究 意 義n 認 識 生 物 本 質 了 解 生 物 分 子 信 息 的 組 織 和 結 構 , 破 譯 基 因 組信 息 , 闡 明 生 物 信 息 之 間 的 關 系 。n 改 變 生 物 學 的 研 究 方 式 改 變 傳 統(tǒng) 研 究 方 式 , 引 進 現(xiàn) 代 信 息 學 方 法n 在 醫(yī) 學 上 的 重 要 意 義 為 疾 病 的 診 斷 和 治 療 提 供 依
29、 據 為 設 計 新 藥 提 供 依 據 2021-5-25 46生 物 信 息 學基 本 思 想 的 產 生 生 物 信 息 學 的 迅 速 發(fā) 展二 十 世 紀50年 代 二 十 世 紀80-90年 代 生 物 科 學 和技 術 的發(fā) 展 人 類 基 因 組計 劃 的推 動 生 物 信 息 學 的 發(fā) 展 歷 史 2021-5-25 47 n 20世 紀 50年 代 , 生 物 信 息 學 開 始 孕 育n 20世 紀 60年 代 , 生 物 分 子 信 息 在 概 念 上 將 計 算 生 物學 和 計 算 機 科 學 聯(lián) 系 起 來n 20世 紀 70年 代 , 生 物 信 息 學 的
30、真 正 開 端n 20世 紀 70年 代 到 80年 代 初 期 , 出 現(xiàn) 了 一 系 列 著 名的 序 列 比 較 方 法 和 生 物 信 息 分 析 方 法n 20世 紀 80年 代 以 后 , 出 現(xiàn) 一 批 生 物 信 息 服 務 機 構 和生 物 信 息 數 據 庫n 20世 紀 90年 代 后 , HGP促 進 生 物 信 息 學 的 迅 速 發(fā) 展 2021-5-25 48 生 物 信 息 學 主 要 研 究 內 容n 序 列 分 析 /Sequence analysis Sequence alignment Structure and function prediction
31、Gene findingn 結 構 分 析 /Structure analysis Protein structure comparison Protein structure prediction RNA structure modelingn 表 達 分 析 /Expression analysis Gene clustering Gen expression analysisn 蛋 白 質 組 學 /Proteomics Protein-Protein Interaction 2021-5-25 49 基 因 組數 據 庫 蛋 白 質 序 列數 據 庫 蛋 白 質 結 構數 據 庫 DD
32、BJEMBLGenBankSWISS-PROT PDBPIR 序 列 分 析n 從 DNA序 列 與 蛋 白 質 序 列 中 進 行 信 息 及 模 式發(fā) 現(xiàn) 尋 找 進 化 聯(lián) 系 尋 找 基 因 組 的 編 碼 區(qū) 尋 找 序 列 中 的 功 能 信 號 區(qū) 全 基 因 組 序 列 的 拼 接 與 組 裝 識 別 非 編 碼 區(qū) , 探 索 其 功 能 單 核 苷 酸 多 態(tài) 性 SNP (Single nucleotide polymorphism) 序 列 比 對 /alignment序 列 分 析 分 子 進 化 和 比 較 基 因 組 學 結 構 分 析n 蛋 白 質 結 構 和
33、功 能 的 預 測 分 析 蛋 白 質 家 族 保 守 序 列 尋 找 從 氨 基 酸 組 成 辨 識 蛋 白 質 蛋 白 質 二 級 結 構 預 測 蛋 白 質 的 三 維 結 構 蛋 白 質 的 物 理 性 質 預 測 其 他 特 殊 局 部 信 息 : 其 它 特 殊 局 部 結 構 包 括 膜蛋 白 的 跨 膜 螺 旋 、 信 號 肽 、 卷 曲 螺 旋 (Coiled Coils)等 , 具 有 明 顯 的 序 列 特 征 和 結 構 特 征 , 也可 以 用 計 算 方 法 加 以 預 測 基 因 表 達 數 據 分 析n 基 因 表 達 數 據 : 近 年 來 biochips,
34、 microarray 技 術 迅 速 發(fā)展 起 來 , 使 得 我 們 可 能 得 到 同 一 時 間 成 千 上 萬 個 基 因 的 表達 水 平 的 數 據 。n 上 述 基 因 表 達 數 據 為 我 們 提 供 了 深 入 研 究 基 因 功 能 , 基 因相 互 作 用 , 基 因 網 絡 等 復 雜 網 絡 問 題 的 有 力 工 具 。n 基 因 表 達 數 據 分 析 面 臨 維 數 極 高 , 噪 聲 大 而 且 相 關 , 數 據重 復 度 低 等 問 題 , 對 數 理 統(tǒng) 計 等 學 科 提 出 了 新 問 題 。 目 前對 基 因 表 達 數 據 的 處 理 主 要
35、 是 進 行 聚 類 分 析 , 將 表 達 模 式相 似 的 基 因 聚 為 一 類 , 在 此 基 礎 上 尋 找 相 關 基 因 , 分 析 基因 的 功 能 。 2021-5-25 55 基 因 調 控 網 絡 與 信 號 轉 導n 基 因 的 表 達 受 到 蛋 白 的 調 控 , 一 個 基 因 的 表 達 與否 , 表 達 量 , 均 受 到 細 胞 中 各 種 蛋 白 的 調 控 。 所以 基 因 的 調 控 可 以 看 作 是 細 胞 中 各 基 因 對 應 的 mRNA 與 各 種 蛋 白 的 一 個 相 互 作 用 網 絡 。n 信 號 轉 導 指 當 細 胞 受 到 某
36、 種 影 響 , 其 中 某 個 蛋 白的 含 量 發(fā) 生 變 化 , 而 引 起 一 系 列 的 蛋 白 的 表 達 變化 的 過 程 和 路 徑 。 它 對 于 研 究 藥 理 、 病 理 、 細 胞的 分 化 、 發(fā) 育 、 進 化 等 重 大 問 題 都 十 分 重 要 。n 信 號 轉 導 、 基 因 網 絡 與 基 因 表 達 的 數 據 分 析 是 緊密 相 關 的 。 生 物 信 息 處 理 并 行 算 法 2021-5-25 58 生 物 信 息 學 主 要 研 究 內 容n 序 列 分 析 /Sequence analysis Sequence alignment Stru
37、cture and function prediction Gene findingn 結 構 分 析 /Structure analysis Protein structure comparison Protein structure prediction RNA structure modelingn 表 達 分 析 /Expression analysis Gene clustering Gen expression analysisn 蛋 白 質 組 學 /Proteomics Protein-Protein Interaction 2021-5-25 59 生 物 信 息 學 所 用
38、 的 方 法 和 技 術1、 數 學 統(tǒng) 計 方 法 2、 動 態(tài) 規(guī) 劃 方 法 3、 機 器 學 習 與 模 式 識 別 技 術 4、 數 據 庫 技 術 及 數 據 挖 掘 5、 人 工 神 經 網 絡 技 術6、 專 家 系 統(tǒng)7、 分 子 模 型 化 技 術8、 生 物 分 子 的 計 算 機 模 擬9、 因 特 網 ( Internet) 技 術 2021-5-25 60 數 學 統(tǒng) 計 方 法n 生 物 活 動 常 常 以 大 量 、 重 復 的 形 式 出 現(xiàn) , 既 受 到內 在 因 素 的 制 約 , 又 受 到 外 界 環(huán) 境 的 隨 機 干 擾 。因 此 概 率 論 和
39、 數 學 統(tǒng) 計 是 現(xiàn) 代 生 物 學 研 究 中 一 種常 用 的 分 析 方 法 n 數 據 統(tǒng) 計 、 因 素 分 析 、 多 元 回 歸 分 析 是 生 物 學 研究 必 備 的 工 具n 隱 馬 爾 科 夫 模 型 ( Hidden Markov Models) 在 序列 分 析 方 面 有 著 重 要 的 應 用 。 與 隱 馬 爾 科 夫 模 型相 關 的 技 術 是 馬 爾 科 夫 鏈 ( Markov Chain) 2021-5-25 61 動 態(tài) 規(guī) 劃 方 法n 動 態(tài) 規(guī) 劃 ( Dynamic Programming) 是 一種 解 決 多 階 段 決 策 過 程
40、的 最 優(yōu) 化 方 法 或 復雜 空 間 的 優(yōu) 化 搜 索 方 法 n 動 態(tài) 規(guī) 劃 解 決 問 題 的 基 本 過 程 是 : 將 一 個問 題 的 全 局 解 分 解 為 局 部 解 , 逆 序 遞 推 求出 局 部 最 優(yōu) 解 , 隨 著 執(zhí) 行 過 程 的 推 進 ,“ 局 部 ” 逐 漸 接 近 “ 全 局 ” , 最 終 獲 得 全局 最 優(yōu) 解 2021-5-25 62 機 器 學 習 與 模 式 識 別 技 術n 機 器 學 習 機 器 學 習 是 模 擬 人 類 的 學 習 過 程 , 以 計 算機 為 工 具 獲 取 知 識 、 積 累 經 驗 遺 傳 算 法 采 用
41、隨 機 搜 索 方 法 , 具 有 自 適 應 能力 和 便 于 并 行 計 算 神 經 網 絡 的 理 論 是 基 于 人 腦 的 結 構 , 其 目 的是 揭 示 一 個 系 統(tǒng) 是 如 何 向 環(huán) 境 學 習 的 , 這 一種 方 法 被 稱 為 聯(lián) 接 主 義 。 2021-5-25 63 機 器 學 習 與 模 式 識 別 技 術n 模 式 識 別 模 式 識 別 是 機 器 學 習 的 一 個 主 要 任 務 。 模式 是 對 感 興 趣 客 體 定 量 的 或 者 結 構 的 描 述 ,而 模 式 識 別 就 是 利 用 計 算 機 對 客 體 進 行 鑒別 , 將 相 同 或
42、相 似 的 客 體 歸 入 同 類 中 模 式 識 別 主 要 有 兩 種 方 法 : 根 據 對 象 的 統(tǒng) 計 特 征 進 行 識 別 , 根 據 對 象 的 結 構 特 征 進 行 識 別 2021-5-25 64環(huán) 境 學 習 知 識 庫 執(zhí) 行 反 饋機 器 學 習 系 統(tǒng) 的 基 本 結 構 2021-5-25 65 數 據 庫 技 術 及 數 據 挖 掘n 數 據 挖 掘 ( data mining) 又 稱 作 數 據 庫 中 的 知 識 發(fā) 現(xiàn) (Knowledge Discovery in Database), 它 是 從 數 據 庫 或 數 據倉 庫 中 發(fā) 現(xiàn) 并 提
43、取 隱 藏 在 其 中 的 信 息 的 一 種 新技 術 , 它 能 自 動 分 析 數 據 , 對 它 們 進 行 歸 納 性推 理 和 聯(lián) 想 , 尋 找 數 據 間 內 在 的 某 些 關 聯(lián) , 從中 發(fā) 掘 出 潛 在 的 、 對 信 息 預 測 和 決 策 行 為 起 著十 分 重 要 作 用 的 模 式 數 據 挖 掘 過 程 一 般 分 為 4個 基 本 步 驟 : 數 據 選 擇 、數 據 轉 換 、 數 據 挖 掘 和 結 果 分 析 2021-5-25 66 人 工 神 經 網 絡 技 術n 人 工 神 經 網 絡 ( Artificial Neural Network,
44、 簡 稱 ANN) 是 通 過 模 擬 神 經 元 的 特 性 以 及 腦的 大 規(guī) 模 并 行 結 構 、 信 息 的 分 布 式 和 并 行處 理 等 機 制 建 立 的 一 種 數 學 模 型 2021-5-25 67 輸入層 隱 藏 層 輸出層 2021-5-25 68 專 家 系 統(tǒng)n 專 家 系 統(tǒng) ( Expert System) 是 一 種 基 于 知識 的 智 能 系 統(tǒng) , 它 將 領 域 專 家 的 經 驗 用 一定 的 知 識 表 示 方 法 表 示 出 來 , 并 放 入 知 識庫 中 , 供 推 理 機 使 用 . 2021-5-25 69 使 用 界 面 解 釋
45、機 構推 理 機知 識 獲 取知 識 庫 數 據 庫領 域 專 家 用 戶 AI專 家專 家 系 統(tǒng) 的 基 本 結 構 2021-5-25 70 分 子 模 型 化 技 術n 分 子 模 型 化 ( Molecular modeling) 是 利 用 計 算 機模 擬 分 子 結 構 、 研 究 分 子 之 間 相 互 作 用 的 一 種 技術n 分 子 模 型 化 是 進 行 分 子 設 計 的 基 礎 。 分 子 圖 形 學( Molecular Graphics) 是 進 行 分 子 模 型 化 的 一 項重 要 技 術 , 正 是 由 于 分 子 圖 形 學 和 其 它 計 算 化
46、學方 法 ( 如 分 子 力 學 、 分 子 動 力 學 ) 的 相 互 結 合 ,才 使 得 分 子 模 型 化 方 法 取 得 成 功 2021-5-25 71 2021-5-25 72 生 物 分 子 的 計 算 機 模 擬n 傳 統(tǒng) 的 生 物 分 子 研 究 主 要 是 實 驗 方 法 , 如 利 用 測序 技 術 確 定 DNA分 子 的 序 列 , 通 過 分 子 遺 傳 學 方法 確 定 基 因 的 多 態(tài) 性 , 通 過 X-射 線 晶 體 衍 射 確 定蛋 白 質 分 子 的 結 構 , 通 過 生 化 實 驗 研 究 生 物 大 分子 之 間 的 相 互 作 用 、 藥
47、物 分 子 與 靶 分 子 的 結 合 。n 所 謂 生 物 分 子 的 計 算 機 模 擬 就 是 從 分 子 或 者 原 子水 平 上 的 相 互 作 用 出 發(fā) , 建 立 分 子 體 系 的 數 學 模型 , 利 用 計 算 機 進 行 模 擬 實 驗 , 預 測 生 物 分 子 的結 構 和 功 能 , 預 測 動 力 學 及 熱 力 學 等 方 面 的 性 質 2021-5-25 73 反 饋 , 改 進 模 型 實 驗實 驗 現(xiàn) 象數 學模 型 計 算 機模 擬 模 擬 結果 分 析 新 的 設 想 產 生設 計解 釋 2021-5-25 74 因 特 網 ( Internet)
48、 技 術n Internet已 經 成 為 生 物 學 研 究 的 平 臺 , 同 時也 成 為 分 子 生 物 學 研 究 人 員 進 行 信 息 交 流特 別 是 生 物 分 子 數 據 的 交 流 的 場 所 通 過 網 絡 查 詢 或 搜 索 所 需 要 的 生 物 信 息 , 使 用分 析 工 具 將 所 要 處 理 的 數 據 直 接 送 到 相 應 的 網 絡 服 務 器上 , 服 務 器 接 受 你 的 處 理 請 求 , 并 將 處 理 結 果返 回 復雜網絡分析理論n 社會網:社交網,演員合作網,姻親關系網,科研合作網,Email網n 生物網:食物鏈網,神經網,新陳代謝網,
49、蛋白質網,基因網絡n 信息網絡:WWW,專利使用,論文引用,計算機共享n 技術網絡:電力網,Internet,電話線路網 n 交通運輸網:航線網,鐵路網,公路網,自然河流網 75 中藥方劑網n 雖然中藥方劑的數量很大,但目前還沒有統(tǒng)計用的數據庫。不得不用手工進行統(tǒng)計,因此統(tǒng)計的數據量受到很大限制。選用了1536付藥方,681種藥物進行了統(tǒng)計。n 節(jié)點:藥物,邊:在一付方劑中藥物的相互作用。n 方劑:藥物、藥物的相互作用構成的固定完全圖局域網,同時也可以看作是節(jié)點(藥物) 的合作成果。 n 各個完全圖通過共用的節(jié)點(藥物)架起橋梁,構成網絡。網絡由完全圖連接而成,如圖所示。 76 中藥方劑網示意
50、圖n 點(藥材), 邊(藥材之間相互作用), 局域網(方劑) 77 中國淮揚菜肴網 78 節(jié)點-食料 邊-菜肴中兩種食料之間的相互作用 每道菜肴-局域網(完全圖) 通過公共節(jié)點連接構成中國淮揚菜肴網。 329道菜肴,242個頂點(食品),1713條邊。 類似于中藥方劑網的討論。 79 (1)節(jié)點分類n在基于鏈接的節(jié)點( 對象) 分類問題中,圖G =( O,L) 表示對象集合O 和它們之間的鏈接集合L,我們的任務是將O 中的成員賦予某一類標簽。在復雜網絡中,數據實例之間存在著具有描述性屬性的關系( 鏈接) ,且相連對象的類別也是相關的。比如,某人加入一個組的概率取決于組內朋友的數目、朋友之間的連
51、結性、組內交互的數目等等。因此,研究者注意到鏈接的屬性與結構有助于節(jié)點分類任務,這與以往的機器學習方法不同。n由于節(jié)點之間存在著鏈接,使用節(jié)點的局部結構特征之外還應該考慮節(jié)點之間的關系結構特征,這將涉及關系學習( relational learning) 方法在復雜 網絡分析中的進一步研究。 81 (2)鏈接預測n鏈接預測是復雜網絡分析的另一個重要研究方向,通過節(jié)點屬性和已觀察到的鏈接來預測某鏈接是否存在。從機器學習的角度,鏈接預測可看成一個簡單的兩類分類問題: 對于可能有鏈接存在的兩個節(jié)點,預測鏈接是1 還是0。鏈接預測的應用很廣泛,例如預測蛋白質網絡的相互作用關系、社會網絡中人們之間的朋友
52、關系、合作關系等等。n 作為一個二類分類問題,研究者把鏈接預測看成一個監(jiān)督學習的過程。當社會網絡的規(guī)模較大時,與訓練樣本相比,網絡中存在著大量的未知標簽的樣本。這些潛在樣本的信息( 包括樣本的結構信息) 可以更好幫助訓練學習器。 83 (3)社群檢測 n 又稱節(jié)點聚類,將有著共同特征的節(jié)點聚類,是復雜網絡分析的一個經典問題。群體或者社團可由一組節(jié)點組成的子圖表示,其內部存在很多鏈接而與外部存在較少鏈接,使得組內緊密而組間松散。節(jié)點聚類可以使用機器學習中的聚類算法。比較經典的方法有: 譜圖分割算法、圖的核方法、分層聚類方法、基于概率關系模型的聚類方法、基于隨機游走的聚類方法等。n 在群體檢測任務中,機器學習的研究重點主要是設計基于圖結構數據( 節(jié)點間的鏈接或加權鏈接) 的聚類算法。當前算法的可擴展性限于至多幾千個節(jié)點的網絡,而非大規(guī)模網絡。因此,對于現(xiàn)實應用中的大規(guī)模網絡數據集,仍需要設計有效的算法。 85
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 裝配圖網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 川渝旅游日記成都重慶城市介紹推薦景點美食推薦
- XX國有企業(yè)黨委書記個人述責述廉報告及2025年重點工作計劃
- 世界濕地日濕地的含義及價值
- 20XX年春節(jié)節(jié)后復工安全生產培訓人到場心到崗
- 大唐女子圖鑒唐朝服飾之美器物之美繪畫之美生活之美
- 節(jié)后開工第一課輕松掌握各要點節(jié)后常見的八大危險
- 廈門城市旅游介紹廈門景點介紹廈門美食展示
- 節(jié)后開工第一課復工復產十注意節(jié)后復工十檢查
- 傳統(tǒng)文化百善孝為先孝道培訓
- 深圳城市旅游介紹景點推薦美食探索
- 節(jié)后復工安全生產培訓勿忘安全本心人人講安全個個會應急
- 預防性維修管理
- 常見閥門類型及特點
- 設備預防性維修
- 2.乳化液泵工理論考試試題含答案