【佳学基因检测】基因数据库进行了再次更新,收集基因序列数据超过31亿
GenBank 252.0版(2022年10月17日)现已在NCBI FTP网站上发布。这个版本有20.35万亿个碱基和31亿个记录。新发布的版本有240539282条传统记录,其中包含1562963366851个碱基对的序列数据。还有2167900306条WGS记录,包含1823196008828个碱基对的序列数据,57402800条批量定向TSA记录,包含511476787957个碱基,115123306条批量定向TLS记录,包括43860512749个碱基。
发布之间的增长
在GenBank发布251.0和252.0的截止日期之间的63天内,GenBank的传统部分增加了70162662354个碱基对和623496个序列记录。在同一期间,更新了25466项记录。平均每天增加和/或更新10301条传统记录。
在版本251.0和252.0之间,GenBank的WGS部分增加了720151132199个碱基对和143800629个序列记录。GenBank的TSA成分增加了13975407571个碱基对和13823250个序列记录。GenBank的TLS成分增加了8232104个碱基对和19779个序列记录。
此版本的序列数据文件总数增加了216个。划分如下:
BCT:37个新文件,现在总共857个
CON:删除了28个文件,现在总共231个
ENV:3个新文件,现在总共75个
INV:99个新文件,现在总共965个
PLN:61个新文件,现在总共1013个
VRL:39个新文件,现在总共813个
VRT:5个新文件,现在总共320个
序列数据文件注释
随着2022年4月GenBank发布249.0版本,我们注意到CON部门的36个序列平面文件数量异常大。增加的原因是将“外部注释”错误地纳入了ASN。一组CON记录中的174个WGS相关软骨支架的1个版本。
GenBank平面文件表示中这174条记录的呈现和内容没有受到此错误的负面影响。但是,使用ASN的客户。1表示GenBank记录时,其大小会急剧增加。
在2022年10月的GenBank版本252.0中纠正了这个问题,CON部门文件的总数减少了。对于由此造成的任何困难,深表歉意。
其他信息
出于下载目的,请记住,未压缩的GenBank版本252.0序列数据平面文件大约需要2815 GB。ASN.1数据文件大约需要1432 GB。
有关GenBank 252.0版的更多信息,请参阅发行说明以及GenBank和ASN中的README文件。FTP上的ASN.1 (ncbi-asn1) 目录。
(责任编辑:佳学基因)