听说最近大家的朋友圈被组学君家的Nanopore 两大利器——MinION和GridION刷屏了,组学君的座机(400-027-1221,广告一下组学君专机O(∩_∩)O)也被咨询Nanopore的电话打爆了,大家热情这么高,组学君也不能辜负,于是从未来组最专注的基因组组装方向,为大家整理了几篇已公布的基于Nanopore测序基因组文章,先让大家一睹为快,当然,Nanopore测序到底如何?你不来未来组试试如何知道,组学君等你。 万事开头难,先从模式物种来 Whole genome sequencing and assembly of a Caenorhabditis elegans genome with complex genomic rearrangements using the MinION sequencing device (2D) ONT sequencing library(SQK-LSK108),上机4 MinION flowcells(R9.0)48hrs (1D) ONT sequencing library(SQK-RAD001),上机2 MinION flowcells(R9.3)48hrs (Figure 1) Figure1 MinION 测序 共下机1.1M reads,read长度最长123,159 bp (平均长度 4,801 bp),其中5.33Gb 1D碱基,其互补链的2D 序列有1Gb,1D 序列比对率为~93%,2D比对率90-95%,其中,3号染色体上有~3M的duplication(chrIII:10,062,096-11,973,739)(Figure 2)。 Figure2 MinION read 比对到参考基因组 经Nanopore数据组装可到145 Contigs,Contig N50 = 1.22 Mb,覆盖了参考基因组的99%序列。研究者并用短读长数据做了比较,经Illumina平台的~8.04 G数据,组装得到38,645 Contigs,Contig N50 = ~26 kb。通过MinION 的基因组组装结果,同时还确定了重排和插入的复杂区域结构。 High contiguity Arabidopsis thaliana genome assembly with a single nanopore flow cell typical consumer computing hardware (4 Cores, 16Gb RAM) 1 μg gDNA ,(1D) ONT sequencing library (SQK-LSK108)(~3h),a single ONT MinION flowcell (R9.4) 48hrs 平均读长11.4K(N50 7.5 kb),3.4G base-called sequence,平均质量值Q7.3,其中200k以上reads有4条,最长有269K,超过100kb有14条reads,50k以上有2317条reads。 文中经多种组装软件测试,其中,minimap/miniasm组装少于1hr,racon (3x)consensus 12 hrs,pilon 进行polish 24 hrs。 ONT minimap/miniasm (ONTmin) 组装得到62 Contigs,ContigN50=12.3 Mb,覆盖了100% (119 Mb) 的非重复序列(Table 1),经BioNano光学图谱数据验证了其高连续性,并经PacBio RSII数据验证其高碱基质量。 最后研究者不忘计算此次Nanopore测序组装项目成本,总共花费了4天时间,以及包括仪器折旧和测序耗材在内1000美金。 Table 1 OxfordNanopore (ONT) 和Pacific Biosciences (PB)组装比较 模式物种搞定,再来点非模式物种 Reconstructing the Gigabase Plant Genome of Solanum pennellii using Nanopore sequencing 通过2种片段方式建库: a. 富集长片段(12-80 kb,12-50 kb)建库,(1D) ONT sequencing library (SQK-LSK108),20 μg DNA/library,29 ONT MinION flowcell (R9.4) b. 未经片段筛选建库,24 μg DNA/2 library,2 ONT MinION flowcell (R9.4) 共下机数据131.6G,平均一个Cell 4G产量,passed filter(Metrichor 1.121 base caller) 数据有110.96G(基本上是预估基因组1-1.1G的100X测序量),过滤后的平均Q-score为7.44,在文库优化后,平均读长在6,625-15,869bp间,最长read达153,099bp。 提取40%,60%,80%数据量,经miniasm,Canu和 SMART de novo 进行组装测试,并经二代数据polish,其中Canu-SMARTdenovo效果最优:Contig N50 达2.5 Mb(Figure 3)。 Figure3 不同组装策略对比 Rapid de novo assembly of the European eel genome from nanopore sequencing reads 在血液和肝脏组织中提取High MW DNA,片段化到20 kb,构建不同文库: ONT sequencing library (2D:SQK- MAP006),于ONT MinION flowcell(R7.3)上机; ONT sequencing library (2D:SQK-NSK007和1D:SQK-RAD001),上机MinION flowcells(R9.0); ONT sequencing library (SQK-LSK108和SQK-RAD002),ONT MinION flowcell(R9.4)。 下机数据共15.6G(Table 2),k-mer分析预估基因组~860 Mb,下机数据基本上是基因组18X测序深度。 Table 2 Nanopore测序 研究者开发组装新工具TULIP(The Uncorrected Long-read Integration Process),在二代数据基础上组装得到基因组891.7 Mb,Contig N50为1.2M,相对已有短读长组装的基因组草图提升显著。 |
|