生物医学领域覆盖全产业链的核心数据库体系

以下是生物医学领域覆盖全产业链的核心数据库体系，按功能分类并附最新动态解析：

一、基础科学数据库（全球研究基石）1. 基因与基因组数据库NCBI GenBank（美国国立生物技术信息中心）：全球最大的公开基因序列数据库，包含 30 万 + 物种的 2.8 万亿碱基对数据，支持 BLAST 序列比对和实时更新9。Ensembl（欧洲生物信息研究所）：整合人类、小鼠等 500 + 物种的基因组注释，提供变异预测、调控元件分析等工具，日均访问量超 100 万次。dbGaP（NIH 基因型 - 表型数据库）：存储 150 万 + 个体的全基因组关联研究（GWAS）数据，涉及疾病易感性、药物反应等表型，2025 年因美国政策调整对中国关闭1。2. 蛋白质数据库UniProt（全球蛋白质知识库）：整合 Swiss-Prot（人工注释）、TrEMBL（自动注释）和 PIR-PSD，包含 6.3 亿条蛋白质序列，覆盖 98% 已知物种，支持功能域分析和跨数据库交叉引用78。AlphaFold DB（DeepMind）：提供 2.3 亿个蛋白质结构预测模型，覆盖 98.5% 人类蛋白质组，2023 年新增与疾病相关的结构变异注释。3. 基因表达数据库GEO（NCBI 基因表达综合数据库）：收录 20 万 + 基因表达数据集，涵盖芯片、RNA-seq 等技术，支持数据挖掘和元分析，2024 年新增单细胞测序数据整合功能9。ArrayExpress（EMBL-EBI）：存储 1.8 万 + 实验数据，支持跨物种比较和通路富集分析，与 GEO 形成互补。二、临床研究数据库（医疗决策核心）1. 疾病与诊断数据库ICD-11（世界卫生组织）：2022 年正式发布，包含 17 万 + 疾病编码，支持组合式编码（主干码 + 扩展码），新增中医证候分类（如气虚证 SE90），中国 59 家医院试点应用16。OMIM（在线人类孟德尔遗传数据库）：收录 2.4 万 + 遗传病条目，整合基因 - 表型关联证据，支持临床诊断和遗传咨询。2. 癌症研究数据库TCGA（癌症基因组图谱）：包含 33 种癌症的 1.1 万 + 样本的多组学数据，2025 年因美国政策调整对中国关闭1。COSMIC（癌症体细胞突变目录）：存储 37 万 + 癌症基因组的体细胞突变数据，支持驱动基因发现和药物靶点预测，2023 年新增 3D 结构突变可视化工具11。3. 临床试验数据库ClinicalTrials.gov（美国国立卫生研究院）：注册 28 万 + 临床试验，覆盖全球 220 个国家，支持高级检索和结果报告分析。ChiCTR（中国临床试验注册中心）：收录 8 万 + 国内临床试验，2024 年与 WHO 国际临床试验注册平台实现数据互通。三、药物研发数据库（创新药引擎）1. 药物靶点与分子库DrugBank（加拿大阿尔伯塔大学）：整合 1.6 万 + 药物、4 千 + 靶点和 5 万 + 药物 - 靶点相互作用，支持虚拟筛选和药物再利用分析。ChEMBL（欧洲生物信息研究所）：存储 230 万 + 生物活性化合物数据，支持类药性评估和 ADMET 预测。2. 药物临床试验与审批FDA 橙皮书（美国食品药品监督管理局）：收录 1.4 万 + 获批药物的专利和独占权信息，支持仿制药研发。EMA 药物审批数据库（欧洲药品管理局）：存储 8 千 + 上市药物的评估报告和临床试验数据。3. 药物不良反应FAERS（FDA 不良事件报告系统）：收集 2100 万 + 药物不良反应报告，支持信号检测和风险评估。VigiBase（WHO 药物警戒数据库）：覆盖 150 个国家的 2000 万 + 报告，支持跨区域安全性分析。四、多组学与系统生物学数据库（精准医学基础）1. 代谢与通路数据库KEGG（京都基因与基因组百科全书）：包含 4 千 + 代谢通路图，支持通路富集分析和药物靶点预测，2023 年新增人工智能辅助的通路推断功能。Reactome（欧洲生物信息研究所）：整合 1.5 万 + 生物过程，支持通路可视化和跨物种比较。2. 蛋白质相互作用数据库STRING（瑞士苏黎世大学）：预测 500 万 + 蛋白质 - 蛋白质相互作用，支持功能模块分析和网络可视化。BioGRID（多伦多大学）：存储 280 万 + 实验验证的相互作用，涵盖蛋白质、遗传和化学关联，2025 年新增 CRISPR 筛选数据13。3. 表观遗传数据库ENCODE（美国国立人类基因组研究所）：整合 1500 个细胞类型的表观遗传数据，支持调控元件注释和疾病关联分析。Roadmap Epigenomics（美国国立卫生研究院）：存储 127 个组织的表观基因组数据，支持细胞类型特异性调控网络构建。五、中文特色数据库（本土化研究支撑）1. 文献与知识服务SinoMed（中国医学科学院）：整合 CBM（1080 万篇中文文献）、WBM（2400 万篇西文文献）和协和博硕论文库，支持主题标引和跨库检索34。CNKI 医学频道（中国知网）：收录 1800 种医学期刊，支持中文全文检索和知识图谱分析。2. 临床与公共卫生China Kadoorie Biobank（中国慢性病前瞻性研究）：存储 50 万 + 中国人群的遗传和健康数据，支持慢性病风险预测。国家传染病数据库（中国疾控中心）：实时更新传染病病例数据，支持疫情监测和防控决策。六、数据共享与分析平台（科研基础设施）1. 云分析平台AnVIL（NIH）：基于 Google Cloud 的基因组数据分析平台，整合 TCGA、GTEx 等数据，2025 年对中国关闭1。Seven Bridges（美国）：支持多组学数据处理和协作分析，与 FDA、NCI 等机构合作。2. 数据整合工具Open Targets（欧洲生物信息研究所）：整合 170 个数据源，支持疾病 - 基因 - 药物关联分析，2024 年新增 AI 驱动的靶点优先级排序。BioPortal（美国国立医学图书馆）：提供 800 + 生物医学本体的一站式访问，支持语义检索和数据标准化。七、最新动态与挑战国际数据壁垒：美国 NIH 于 2025 年 4 月关闭 dbGaP、TCGA 等数据库对中国的访问，倒逼中国加速建设自主数据库如 “中国人类遗传资源平台”12。人工智能融合：AlphaFold3、RoseTTAFold 等工具推动结构生物学数据爆发，2025 年预测覆盖 99% 已知蛋白质。伦理与合规：欧盟《通用数据保护条例》（GDPR）和中国《人类遗传资源管理条例》强化数据跨境流动监管，推动联邦学习等隐私保护技术应用。数据库选择策略研究阶段：基础研究优先选择 GenBank、UniProt；临床研究侧重 ICD-11、ClinicalTrials.gov；药物研发依赖 DrugBank、ChEMBL。数据类型：基因组学选 Ensembl、GEO；蛋白质组学选 UniProt、AlphaFold；多组学整合用 KEGG、Reactome。地域需求：中文文献用 SinoMed、CNKI；中国人群研究用 China Kadoorie Biobank。

这些数据库构成了生物医学研究的 “数字基础设施”，其发展趋势呈现出三大特征：数据量指数级增长（如 GEO 年增 3 万 + 数据集）、跨学科整合深化（如多组学与临床数据结合）、人工智能驱动分析（如 AlphaFold 的结构预测）。研究者需根据具体需求灵活选择，并关注数据政策变化对研究的影响。

玩酷网

生物医学领域覆盖全产业链的核心数据库体系

亦民评健康