
以下是生物医学领域覆盖全产业链的核心数据库体系,按功能分类并附最新动态解析:
一、基础科学数据库(全球研究基石)1. 基因与基因组数据库NCBI GenBank(美国国立生物技术信息中心):全球最大的公开基因序列数据库,包含 30 万 + 物种的 2.8 万亿碱基对数据,支持 BLAST 序列比对和实时更新9。Ensembl(欧洲生物信息研究所):整合人类、小鼠等 500 + 物种的基因组注释,提供变异预测、调控元件分析等工具,日均访问量超 100 万次。dbGaP(NIH 基因型 - 表型数据库):存储 150 万 + 个体的全基因组关联研究(GWAS)数据,涉及疾病易感性、药物反应等表型,2025 年因美国政策调整对中国关闭1。2. 蛋白质数据库UniProt(全球蛋白质知识库):整合 Swiss-Prot(人工注释)、TrEMBL(自动注释)和 PIR-PSD,包含 6.3 亿条蛋白质序列,覆盖 98% 已知物种,支持功能域分析和跨数据库交叉引用78。AlphaFold DB(DeepMind):提供 2.3 亿个蛋白质结构预测模型,覆盖 98.5% 人类蛋白质组,2023 年新增与疾病相关的结构变异注释。3. 基因表达数据库GEO(NCBI 基因表达综合数据库):收录 20 万 + 基因表达数据集,涵盖芯片、RNA-seq 等技术,支持数据挖掘和元分析,2024 年新增单细胞测序数据整合功能9。ArrayExpress(EMBL-EBI):存储 1.8 万 + 实验数据,支持跨物种比较和通路富集分析,与 GEO 形成互补。二、临床研究数据库(医疗决策核心)1. 疾病与诊断数据库ICD-11(世界卫生组织):2022 年正式发布,包含 17 万 + 疾病编码,支持组合式编码(主干码 + 扩展码),新增中医证候分类(如气虚证 SE90),中国 59 家医院试点应用16。OMIM(在线人类孟德尔遗传数据库):收录 2.4 万 + 遗传病条目,整合基因 - 表型关联证据,支持临床诊断和遗传咨询。2. 癌症研究数据库TCGA(癌症基因组图谱):包含 33 种癌症的 1.1 万 + 样本的多组学数据,2025 年因美国政策调整对中国关闭1。COSMIC(癌症体细胞突变目录):存储 37 万 + 癌症基因组的体细胞突变数据,支持驱动基因发现和药物靶点预测,2023 年新增 3D 结构突变可视化工具11。3. 临床试验数据库ClinicalTrials.gov(美国国立卫生研究院):注册 28 万 + 临床试验,覆盖全球 220 个国家,支持高级检索和结果报告分析。ChiCTR(中国临床试验注册中心):收录 8 万 + 国内临床试验,2024 年与 WHO 国际临床试验注册平台实现数据互通。三、药物研发数据库(创新药引擎)1. 药物靶点与分子库DrugBank(加拿大阿尔伯塔大学):整合 1.6 万 + 药物、4 千 + 靶点和 5 万 + 药物 - 靶点相互作用,支持虚拟筛选和药物再利用分析。ChEMBL(欧洲生物信息研究所):存储 230 万 + 生物活性化合物数据,支持类药性评估和 ADMET 预测。2. 药物临床试验与审批FDA 橙皮书(美国食品药品监督管理局):收录 1.4 万 + 获批药物的专利和独占权信息,支持仿制药研发。EMA 药物审批数据库(欧洲药品管理局):存储 8 千 + 上市药物的评估报告和临床试验数据。3. 药物不良反应FAERS(FDA 不良事件报告系统):收集 2100 万 + 药物不良反应报告,支持信号检测和风险评估。VigiBase(WHO 药物警戒数据库):覆盖 150 个国家的 2000 万 + 报告,支持跨区域安全性分析。四、多组学与系统生物学数据库(精准医学基础)1. 代谢与通路数据库KEGG(京都基因与基因组百科全书):包含 4 千 + 代谢通路图,支持通路富集分析和药物靶点预测,2023 年新增人工智能辅助的通路推断功能。Reactome(欧洲生物信息研究所):整合 1.5 万 + 生物过程,支持通路可视化和跨物种比较。2. 蛋白质相互作用数据库STRING(瑞士苏黎世大学):预测 500 万 + 蛋白质 - 蛋白质相互作用,支持功能模块分析和网络可视化。BioGRID(多伦多大学):存储 280 万 + 实验验证的相互作用,涵盖蛋白质、遗传和化学关联,2025 年新增 CRISPR 筛选数据13。3. 表观遗传数据库ENCODE(美国国立人类基因组研究所):整合 1500 个细胞类型的表观遗传数据,支持调控元件注释和疾病关联分析。Roadmap Epigenomics(美国国立卫生研究院):存储 127 个组织的表观基因组数据,支持细胞类型特异性调控网络构建。五、中文特色数据库(本土化研究支撑)1. 文献与知识服务SinoMed(中国医学科学院):整合 CBM(1080 万篇中文文献)、WBM(2400 万篇西文文献)和协和博硕论文库,支持主题标引和跨库检索34。CNKI 医学频道(中国知网):收录 1800 种医学期刊,支持中文全文检索和知识图谱分析。2. 临床与公共卫生China Kadoorie Biobank(中国慢性病前瞻性研究):存储 50 万 + 中国人群的遗传和健康数据,支持慢性病风险预测。国家传染病数据库(中国疾控中心):实时更新传染病病例数据,支持疫情监测和防控决策。六、数据共享与分析平台(科研基础设施)1. 云分析平台AnVIL(NIH):基于 Google Cloud 的基因组数据分析平台,整合 TCGA、GTEx 等数据,2025 年对中国关闭1。Seven Bridges(美国):支持多组学数据处理和协作分析,与 FDA、NCI 等机构合作。2. 数据整合工具Open Targets(欧洲生物信息研究所):整合 170 个数据源,支持疾病 - 基因 - 药物关联分析,2024 年新增 AI 驱动的靶点优先级排序。BioPortal(美国国立医学图书馆):提供 800 + 生物医学本体的一站式访问,支持语义检索和数据标准化。七、最新动态与挑战国际数据壁垒:美国 NIH 于 2025 年 4 月关闭 dbGaP、TCGA 等数据库对中国的访问,倒逼中国加速建设自主数据库如 “中国人类遗传资源平台”12。人工智能融合:AlphaFold3、RoseTTAFold 等工具推动结构生物学数据爆发,2025 年预测覆盖 99% 已知蛋白质。伦理与合规:欧盟《通用数据保护条例》(GDPR)和中国《人类遗传资源管理条例》强化数据跨境流动监管,推动联邦学习等隐私保护技术应用。数据库选择策略研究阶段:基础研究优先选择 GenBank、UniProt;临床研究侧重 ICD-11、ClinicalTrials.gov;药物研发依赖 DrugBank、ChEMBL。数据类型:基因组学选 Ensembl、GEO;蛋白质组学选 UniProt、AlphaFold;多组学整合用 KEGG、Reactome。地域需求:中文文献用 SinoMed、CNKI;中国人群研究用 China Kadoorie Biobank。这些数据库构成了生物医学研究的 “数字基础设施”,其发展趋势呈现出三大特征:数据量指数级增长(如 GEO 年增 3 万 + 数据集)、跨学科整合深化(如多组学与临床数据结合)、人工智能驱动分析(如 AlphaFold 的结构预测)。研究者需根据具体需求灵活选择,并关注数据政策变化对研究的影响。