散人笔记

学术资源与网络技术分享

生物信息学资源与数据库集锦

1.综合性数据库 - 几乎每天都要用的
  • NCBI
    • PubMed- 什么?你不读文献?
    • GenBank - 所有生物序列都"应该"提交到这里。只是"应该",是因为高通量测序的发展让这个事情不太现实,就有了下面的SRA干了部分的活。
    • GEO (Gene Expression Omnibus / SRA (Short Read Archive) - GEO最初建立主要是用于收集microarray数据的。近来以 RNAseq 为首的各类 *seq 高通量数据大举进占。原本专门建立来存储这些数据的SRA反倒成了GEO的附属。任何有点象样的基因组数据的文章,都应该有GEO Accession Number的"GSExxxx"字样。
    • BLAST - 学过生物信息的没有不知道这个的吧。新拿到的序列是什么,直接来BLAST一下。设计了引物想看有没有非特异扩增,也是一个好去处。
    • dbSNP / HapMap(不是NCBI的,但跟dbSNP关系密切) - 收集单核甘酸多态,和其他小范围核苷酸的变异/多态的数据库。它们是用来做连锁分析/关联分析的理想遗传标记。
    • OMIM - 人类基因与遗传疾病的关系。
  • EBI - 用的比较多的就只是Pfam(蛋白质家族)。其他不熟悉,就不细说了。
2.Genome Browser - 收集各类基因组范围数据的地方
  • UCSC - 老资格的Genome Browser,加上很多小工具(BLAT,bedtools)能让人比较方便地利用它的基因组数据,或在它的框架下可视化。值得一提的是全站惯用的0-based start coordinate应该坑过不少人,千万要小心。
  • EnsEMBL (包括EnsEMBL Bacteria / EnsEMBL Fungi / Gramene,还有BioMart勉强也算吧) - 以转录本(Transcript)为中心的基因组数据库。是BioPerl的创始人Ewan Birney搞起来的,自然API非常完善,想把整个数据库搬到自己机子上也非常容易(只要硬盘够大)。近来数据类型越来越多,搞得有点臃肿了,反而不如UCSC简洁。
3.衡量/比较不同生物信息学软件的表现 - 不服跑个分? 题外话,大家似乎不太热衷这个,理由大概是不同工具的优势不一样,用同一组数据来跑分有失公允。姑勿论这个原因有没有道理,至少说明用户选用不同的工具应该优先考虑要研究的生物学问题,跑分只能做部分参考。
  • GAGE (Genome Assembly Gold-standard Evaluations) - 高通量测序结果用于组装基因组,看谁组装出来的更正确。
  • CASP (Critical Assessment of Protein Structure Prediction) / CAFASP - 谁预测蛋白质结构更准?
  • CAPRI (Critical Assessment of PRediction of Interactions) - 预测蛋白质相互作用/结合,哪家强?
  • CAGI (Critical Assessment of Genome Interpretation) - 预测基因组上的变异会对生物的表型产生什么影响,看谁的预测更准。
  • BAliBASE / BRAliBase - 多序列联配(Multiple Sequence Alignment)的准确性
  • DREAM challenges (http://dreamchallenges.org/) - 多种不同生物信息学任务的比拼,吸引我注意的是比赛预测选择性剪接(Alternative Splicing)的那次。
  • lh3lh3.users.sourceforge.net - 各种把高通量测序结果比对到基因组上的工具的准确率比较(ROC curve)。虽然我相信他没有 bias,但是必须指出参赛者之一的Heng Li也是裁判。
4.模式生物的专门门户 - (这个页面的list更全:Generic Model Organism Database)
  • PortEco - 大肠杆菌
  • SGD - 酵母
  • WormBase - 线虫
  • FlyBase - 果蝇
  • ZFIN - 斑马鱼
  • MGI - 小鼠
  • XenBase - 非洲爪蟾

5.各种Ontology/Pathway - 能让计算机读懂生物数据的“字典”
6.其他 - 只是个人感兴趣,没经过系统整理的东西

发表评论:

Powered By 散人笔记—学术与网络技术博客

版权声明:转载本站文章必须遵循“署名-非商业用途-保持一致”的创作共用协议