中药网络药理学研究的免费数据库、在线平台与软件工具介绍

中药网络药理学要解决的一个核心问题是,如何在疾病相关网络的背景下,评价中药的多成分、多靶点的协同作用。根据中药方剂成分复杂、靶点不清、以全面调节的方式干预复杂疾病的特点,研究者们提出了一些中药网络药理学的研究路线,如图1就是一个典型的中药复方研究的网络药理学路线图。这个路线图包括数据获取和网络分析两大部分。需要获取的数据包括中药方剂的有效活性成分、活性化合物的靶点和疾病相关基因等。基于这些数据,构建和分析疾病相关网络、药物影响网络,识别疾病和药物影响的信号通路和生物学过程,能帮助我们阐明中药方剂的作用机制。

img

图 1中药复方研究的网络药理学路线图.

本综述介绍中药网络药理学研究用到的各种数据库和工具,包括中药数据库、药物靶标数据库、疾病基因数据库、靶标预测工具、网络构建和分析工具、功能分析工具等,所介绍的数据库和工具全部是公开、免费的。

一、中药数据库

一个中药复方通常由许多天然产物组成,如草药、动物药和矿物药,每一种都含有大量的化学分子。复方中的活性化合物与特定疾病相关的功能失调蛋白相互作用,从而治疗该疾病。因此,对中药有效成分及其作用靶点的鉴定,对于深入了解中药方剂的作用机理具有重要意义。目前已经建立了若干数据库,提供有关中药的各方面信息,包括疾病、方剂、草药或天然产物、生物活性成分和靶点。这些数据库成为中医药与现代生物医学之间的桥梁,在中药药理学研究中发挥了重要作用。本节介绍一些免费的中药数据库。表1列出了这些数据库的基本情况。

本文介绍的中药数据库见下表。

img

  1. TCMSP:http://tcmspw.com/tcmsp.php

TCMSP包括中国药典中的499种中药,共29384种成分,3311种靶点,837种相关疾病。药物靶点来自HIT数据库和预测算法SysDT,疾病信息来自TTD数据库和PharmGKB。这个数据库提供化合物的药代动力学信息,如药物相似性(DL)、口服生物利用度(OB)、人体肠吸收(HIA)、血脑屏障(BBB)、肠上皮通透性(Caco-2)、ALogP、FASA-和H-键供体/受体数量(Hdon/Hacc)。因此,使用者可以选择具有良好药物相似性和ADME(吸收、分布、代谢、排泄)特性的化合物,进行进一步的研究。

  1. TCMID:http://www.megabionet.org/tcmid/

TCMID提供有关中药复方、草药和草药化合物的信息,以及疾病和西药信息。这个数据库是通过集成以前的数据库和文本挖掘而构建的。其中,中药复方是通过文本挖掘收集的;中药是从TCM-ID数据库和文本挖掘获取的;中药成分是通过文本挖掘并结合其他中药数据库(包括TCM@Taiwan、TCM-ID和HIT)获得;疾病及其相关基因来自DrugBank和OMIM。

  1. HIT:http://lifecenter.biosino.org/hit/

HIT是一个人工注释的数据库,包含了中草药中化合物的蛋白质靶标信息,这些信息是通过人工整理3250多篇文献获得。HIT包括1300多种中草药, 586种草药化合物,以及1301个靶标蛋白。

  1. TCM@Taiwan:http://tcm.cmu.edu.tw

TCM@Taiwan提供了从中医文献和科学出版物中收集的453种中药中的61000种化合物的信息。

  1. NPACT:http://crdd.osdd.net/raghava/npact/

NPACT是一个人工注释的植物衍生化合物数据库,收集了从762篇论文中的具有抗癌活性的植物化合物。共含有对353个癌细胞系、284个癌症相关蛋白靶点具有作用的1574个化合物,以及1980个经实验验证的化合物-靶标相互作用。对于每种化合物,它提供了它的结构、性质、针对的癌症类型、细胞系、抑制值(IC50、ED50、EC50、GI50)、分子靶标、商业供应商、以及化合物的药物相似性的信息。

  1. CancerHSP:http://ibts.hkbu.edu.hk/LSP/CancerHSP.php

CancerHSP收录了2439种抗癌草药中所含有的3575种抗癌化合物,以及它们的靶标共832个。靶标是通过文本挖掘或预测得到的。还提供了这些抗癌化合物对于492种不同癌细胞系的抗癌活性。数据库还显示了每个化合物的分子结构和9个关键的ADME参数。

  1. NPASS:http://bidd2.nus.edu.sg/NPASS

NPASS提供了天然产物的物种来源和生物活性方面的详细信息。该数据库收录了35032种不同的天然产物(即化合物),它们来自25041个物种—其中植物16581种、细菌1675种、后生动物2503种、真菌2107种。数据库收录了这些化合物的靶标共5863个,其中2946个是蛋白靶标。它还包括其他种类的靶标,如有机体和细胞系。

二、药物靶标数据库

目前免费中药数据库中的靶标信息太少,无法满足中药研究的需要。因此,有必要利用其他资源。有许多通用的药物靶点数据库或化合物-蛋白相互作用数据库,提供了大量的药物(或小分子)-蛋白相互作用的实验或预测数据。这些数据库已被药物发现界广泛接受,它们也可用于寻找或预测中药活性成分的蛋白质靶点。

本文介绍的药物靶标数据库见表2。

img

  1. DrugBank:https://www.drugbank.ca

DrugBank提供有关西药分子及其机制的全面信息—包括其化学、药理、ADME、相互作用信息以及靶标。第一版的DrugBank于2006年发布,它更新很勤。目前的DrugBank 5.0包含10971种药物和4900个蛋白质靶标的信息。这些药物包括2391种FDA批准的小分子药物、934种批准的生物制剂药物、109种保健品和5090多种实验药物。在中药药理研究中,西药的靶点信息可用于中药靶点的预测。此外,治疗同一疾病的西药可以作为中药的阳性对照。

  1. TTD:http://bidd.nus.edu.sg/group/ttd

TTD提供药物、靶标、以及药物靶向的疾病和通路的信息。当前版本共收集34019种药物—其中已获批准的2544种、临床试验药物8103种、在研药物18923种;收录了3101个靶标—包含445个成功靶标、1121个临床试验靶标和1535个在研靶标。每种药物都有其化学结构、靶标、靶向疾病和相关通路的信息。用户可以通过靶标、药物、疾病和生物标记物搜索数据库。TTD提供了药物相似性搜索工具,可以用于预测化合物的靶标。相似性搜索基于Tanimoto相似性,可以通过化合物的MOL、SDF或SMILES格式输入,然后TTD会列出与其相似的化合物和相应的Tanimoto相似性分数。得分最高的化合物的靶标可以预测为查询化合物的靶标。

  1. STITCH:http://stitch.embl.de/

STITCH是一个化合物-蛋白相互作用的数据库,包含了已知的和预测的相互作用。当前版本涵盖了来自2031个物种的43万个小分子和9643763个蛋白之间的相互作用。STITCH与由同一团队开发的基因关联数据库STRING共享蛋白数据。STITCH收集的数据来自人工注释数据库—如DurgBank、GLIDA、Matador、TTD和CTD;通路数据库—如KEGG、PID、Reactome和BioCyc;以及实验结果数据库—如ChEMBL、PDSP Ki和PDB。数据库中的每个相互作用都分配了一个分值,以指示其相互作用的概率或结合亲和力。当通过数据库的web搜索一个化合物时,STITCH将列出它的相似化合物和相似性分数。此数据库也可用于化合物靶标预测。

  1. ChEMBL:https://www.ebi.ac.uk/chembldb

ChEMBL收录了更多的药物和小分子。当前版本含有1735442个不同的化合物和11538个靶标。数据库提供化合物的结构、功能、靶标和ADMET信息。这些数据是从67722篇公开发表的学术出版物中手工收集的。

  1. BindingDB:http://www.bindingdb.org/bind

BindingDB提供了实验测量的蛋白质-配体结合亲和力数据,包括Ki、Kd、IC50和EC50的值。它主要关注类药物小分子和被认为是药物靶点的蛋白质之间的相互作用。数据收集自美国专利、科学出版物和其他数据库,如PubChem、ChEMBL、PDSP Ki和CSAR(http://www.csardock.org)。该数据库于2000年在网上启动,并不断更新。目前BindingDB包含639152个小分子和7026个蛋白质靶点之间的1427022个结合数据。

  1. ZINC:https://zinc15.docking.org/

ZINC提供化合物的购买信息、靶点、临床试验等方面的信息。目前,第15版ZINC收录了超过4亿种可购买的“类药物”化合物,涵盖145家公司的204个商业目录。化合物的生物注释来自第三方数据库,如HMDB、ChEMBL和DrugBank。ZINC将配体-靶标结合的亲和力值pKi、IC50、EC50、AC50和pIC50标准化为单一的pKi值。该数据库还提供了预测的靶标,预测算法是相似性集成方法(SEA)与最大的Timimoto相似性相结合的算法。应用该算法,预测了超过1.71亿个市售化合物对2629个靶标的显著靶向性。在搜索一种化合物时,使用者可以获得有关其化学特性、已知和预测的靶标、临床试验和销售这种化合物的供应商的信息。

三、靶标预测的在线平台

一些中药数据库和化合物-蛋白质相互作用数据库,如TCMSP、TTD、BATMAN-TCM和STITCH,也提供靶标预测服务。即当我们搜索这些数据库时,一些结果实际上是由数据库的算法预测的。目前已有一些专门用于靶标预测的web服务器和软件,可以像这些数据库一样应用于中药药理学的研究。本节介绍一些提供药物靶标预测服务的非商业在线平台。

  1. SuperPred:http://prediction.charite.de/

SuperPred提供化合物靶标和ATC码的预测,其预测是基于相似性原理。其靶标预测是将输入化合物针对包含约341000个化合物、1800个靶标和665000个化合物-靶标相互作用的数据库进行筛选来执行的。这个数据库是从SuperTarget、ChEMBL和BindingDB中提取化合物-靶标相互作用数据而构建的。ATC码的预测是将输入化合物与2600个已知ATC码的化合物进行相似性比对来做的。ATC药品编码由世界卫生组织(WHO)公布,它根据药物的治疗和化学特性对药品进行分类。

  1. SwissTargetPrediction:http://swisstargetprediction.ch/

SwissTargetPrediction基于与已知化合物的二维和三维结构的相似性来预测化合物的靶标。预测可以在人、大鼠、小鼠三种不同物种中进行。已知的化合物-靶标相互作用来自第16版的ChEMBL数据库,它由280381个小分子与2686个靶标间的相互作用构成,其中大多数靶标(66%)是人的蛋白。SwissTargetPrediction为每个预测靶标提供一个分数,以评估预测正确的可能性。它还通过不同物种之间的同源性映射进行预测,并提供正确可能性得分。

  1. TargetNet:http://targetnet.scbdd.com/home

TargetNet是基于QSAR(定量结构-活性关系)模型预测化合物的靶标。该模型在数学上将分子的特定化学特征与其生物活性联系起来,使用七种不同的分子指纹来描述分子的化学特性。预测使用一种机器学习算法—Naive Bayes分类器。将BindingDB数据库用作训练数据集。经过筛选后,该数据库中109061个化合物、623个靶蛋白用于模型构建。当用户输入化合物时,TargetNet就输出该分子对于623个靶蛋白的预测分数。

  1. PharmMapper:http://lilab-ecust.cn/pharmmapper/

PharmMapper根据药效团模型预测化合物的靶标蛋白,它通过将所查询化合物的药效团与内部药效团模型数据库匹配来执行预测。目前,PharmMapper的内部药效团数据库包括53184个不同的药效团模型。

四、疾病数据库

临床实践证明,中药方剂在治疗多种慢性复杂疾病方面疗效显著。复杂疾病是一种多因素疾病,受多种基因的影响,并与生活方式和环境因素相关。有许多数据库收集与疾病相关的基因信息,它们是中药网络药理学研究的重要资源。本节介绍几个具有代表性的疾病数据库。

  1. OMIM:https://omim.org/

OMIM(在线孟德尔人类遗传数据库)提供所有已知遗传性疾病的遗传成分和相关基因的信息,它是一个全面的、权威的人类基因、遗传表型以及它们之间的关系的数据库。OMIM包含超过15000个与所有已知孟德尔病相关的基因。OMIM的信息来自公开发表的生物医学文献,数据库每天更新。

  1. DisGeNET:http://www.disgenet.org/

DisGeNET是一个综合性的基因-疾病关联(GDA)关系数据库,它提供了人类疾病的最新知识,包括孟德尔病、复杂疾病和环境疾病。DisGeNET中的信息来自专家注释的知识库、GWAS、动物模型和科学文献。具体地说,其数据来源包括CTD、UnPROT/SWISPROT、ClinVar、Orphanet、 the NHGRI-EBI GWAS Catalog、GAD (Genetic Association Database)、 MGD (the Mouse Genome Database)、 RGD (the Rat Genome Database)、 PsyGeNET、 the Human Phenotype Ontology、 LHGDN (the Literature Human Gene Derived Network), 以及BeFree [80]。DisGeNET给每个GDA多个评分。可靠性分(confidence score)由GDA在所有数据源中重复出现次数的多少,反映该GDA的可靠性;疾病特异性指数(DSI)与该基因相关的疾病数量成反比,而疾病多效性指数(DPI)与该基因相关的不同疾病类别的数量成反比。高DSI的GDA表明该基因对该疾病更为特异,低DPI的GDA意味着该基因对该疾病所属的疾病类别更为特异。DisGeNET(v5.0)包含了20370个疾病(表型)与17074个基因之间的561119个基因-疾病关联关系。

  1. MalaCards:http://www.malacards.org/

MalaCards数据库是人类疾病及其注释的综合汇编。当前版本包括来自72个来源的19592种疾病的信息。对于每一种疾病,数据库都会显示一张带有关于该疾病的各种注释信息的网页卡,例如疾病分类、疾病概况、相关联的疾病、相关基因、治疗药物和出版物。网页卡的“基因”部分提供了与该疾病相关的基因列表。MalaCards给每个疾病-基因关联关系分配一个优先分,它是这对关系在八个数据库(OMIM、ClinVar、Orphanet、SwissProt的Humsavar、GeneTests、DISEASES、Novoseek和GeneCards)得分的加权和。对于每一种疾病,MalaCards定义了一组“精英”(Elite)基因,这些基因与这种疾病的关联关系来自人工注释和可靠资源。MalaCards中每种疾病的相关基因的平均数多于OMIM少于DisGeNET。

  1. DigSee:http://210.107.182.61/geneSearch/

DigSee[86]是一个文本挖掘搜索引擎,它提供证据语句,描述通过生物事件参与疾病发展的基因。目前,DigSee支持所有疾病类型和重要的生物学事件,如点突变、基因表达、调节(正调节、负调节)、磷酸化、定位、结合、转录、催化、乙酰化、羟基化、泛素化、甲基化、糖基化以及DNA甲基化等。当前版本(v2.01)包含14608个人类基因。通过输入疾病、基因或生物事件,用户可以获得带有突出证据句子的Medline摘要。

五、用于网络和功能分析的在线和软件工具

由于中医方剂是多组分、多靶标的药物,,在生物网络背景中对其靶标进行研究,有助于揭示其作用机制。利用网络药理学方法,可以识别中药方剂中受活性成分调控的信号通路、检测靶蛋白之间的相互作用、以及靶蛋白在网络中的作用,这有助于阐明中药治疗效应,更好地阐明其作用机制。这里介绍一些可用于中医药网络药理学研究的在线平台和软件工具。

  1. BATMAN-TCM:http://bionet.ncpsb.org/batman-tcm

BATMAN-TCM是研究中药分子机制的在线生物信息学分析工具。用户可以输入中药复方、草药或化合物进行分析,该工具将预测复方或草药中化合物的靶标,对预测的靶标进行功能分析,并构建和可视化成分-靶点-通路/疾病关联网络。靶标的功能分析输出靶标所富集的生物通路、基因本体(GO)和疾病。此工具中的复方-草药-化合物关联数据是从TCMID数据库中提取,并利用相似性算法对中药成分的潜在靶点进行预测。此算法根据与DrugBank、TTD和KEGG数据库中已知药物-靶点相互作用的相似性, 对潜在药物-靶点相互作用进行排序。此工具为中药复方分析提供了一站式快速服务。

  1. DAVID:https://david.ncifcrf.gov/

通路富集分析用于识别显著富集一组基因或蛋白的信号通路。通常,药物靶标富集的通路被认为是最有可能受到药物调控的。通路富集分析已广泛应用于中药网络药理学的研究。使用在线生物信息学平台DAVID可以很容易地进行富集分析。在DAVID平台上,用户可以上传基因/蛋白列表,然后使用DAVID的功能注释工具对基因进行注释。该工具从生物通路、GO条目、蛋白-蛋白相互作用、蛋白功能域、疾病关联、基因的组织表达、文献等方面为输入的基因列表提供丰富的分析。DAVID的功能注释聚类工具基于不同注释项中基因的共同关联,可以将相似、冗余、混杂的注释项分组成注释组,该服务将一长串注释项压缩成较少的基因功能组,从而帮助用户更好地解释其基因列表的功能。

  1. CMap:https://portals.broadinstitute.org/cmap/https://clue.io

CMap(Connectivity Map)是一个基于基因表达特征的相似性,发现疾病-基因-药物关系的在线平台。CMap数据库包含了大量经药物或生物活性化合物处理的人类细胞系的基因表达谱。使用CMap提供的在线软件工具,用户可以将自己实验产生的基因表达谱(如疾病条件或药物处理的)与数据库中的所有扰动特征进行比较,CMap给出了一个从+1到-1的分数(在新版CMap-L1000v1中为+100到-100),以量化查询的基因表达谱与数据库中表达谱之间的相似性。正分表示正相关程度,负分表示负相关程度。因此,两种化合物干预后表达谱的高度正相关表明,这两种化合物可能对细胞产生相似的生理效应。因此,对于中药干预后的表达谱,可以在CMAP中搜索与其相似分在1分附近的药物,由这些药物的作用可以推断中药的效应。

CMap的最初版本(build 02)包含1309个小分子干预5个人类细胞系所产生基因表达谱共6100个instance。2017年,发布了新一代的CMAP(CMAP-L1000v1),它被扩展到19811个小分子化合物和9个人类细胞系,其中除了小分子化合物,新版本还包括在细胞系上处理其他干扰因子(18493 shRNAs,3462 cDNAs和314 biologics),其核心数据集(touchstone)包含了2429个小分子、3799个基因敲除和2160个基因共表达。CMap build02版可以用任意邮箱注册使用,CMAP-L1000v1版只能用非商业邮箱注册使用。

  1. Cytoscape:http://cytoscape.org/

Cytoscape是一款用于在网络构建、可视化和分析的免费软件。Cytoscape的软件核心提供了构建、可视化、布局和分析网络的基本功能。网络拓扑分析是中药网络药理学研究中的一个重要课题,它可以识别在网络中起关键作用的重要节点。使用Cytoscape的工具“NetworkAnalyzer”可以很容易地进行网络拓扑分析。

Cytoscape的核心功能可以通过一系列应用程序(App)进行扩展,这些应用程序可以从软件的菜单界面安装和应用。用户首先需要从Cytoscape的网站下载这个软件,然后安装到Cytoscape中。例如,一个名为“clusterMaker”的应用程序提供了一系列方法,如kmeans、MCL、Glay社区检测算法,来将网络划分为网络模块。

Cytoscale软件界面友好,对中药网络药理学的研究具有重要意义。

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐