ノボジーンのNovaSeq X Plusデータ一覧！最大465Gb/レーン、平均Q30 >95%に到達

NovaSeq X Plusは、イルミナの最新ハイスルプットシケンスシステムで、スルプット、シケンス能力、サステナビリティの面において卓越した性能を発揮します。従来のシケンサと比較して最大2.5倍のスルプットで、年間20,000以上のヒト全ゲノムデータを生成でき、大規模なシケンスプロジェクトや挑戦的なゲノミクス研究に最適な選択肢を提供します。PhiXライブラリおよびヒト全ゲノムシケンスでの評価が完了しました。結果を現在公開いたします。最先端ソリュションの驚くべき能力をご覧ください。

1. PhiXライブラリを用いた評価テストのQC概要

平均データ出力とQ30は、それぞれ443Gb/レーン、95%以上です。あるレーンでは、465Gbに達しました。

表1. 各レーンのリド1のQC結果

Lane No.	PF (%)	Reads PF (M)	Q30 (%)	Yield (GB)	Error Rate (%)
1	75.26 ± 8.35	1,468.08	95.17	217.05	0.51 ± 0.4
2	78.59 ± 3.17	1,533.02	95.49	227.59	0.33 ± 0.3
3	76.73 ± 4.69	1,496.74	95.25	221.74	0.55 ± 0.57
4	75.88 ± 11.66	1,480.03	95.67	218.62	0.51 ± 0.58
5	77.85 ± 12.49	1,518.43	96.17	223.85	0.45 ± 0.35
6	80.67 ± 4.64	1,573.52	96.31	232.69	0.38 ± 0.28
7	75.64 ± 13.11	1,475.48	95.71	218.13	0.44 ± 0.33
8	73.38 ± 12.55	1,431.29	95.66	211.12	0.43 ± 0.3

表2. 各レーンのリド2のQC結果

Lane No.	PF (%)	Reads PF (M)	Q30 (%)	Yield (GB)	Error Rate (%)
1	75.26 ± 8.35	1,468.08	94.95	217.13	0.42 ± 0.38
2	78.59 ± 3.17	1,533.02	95.1	227.22	0.38 ± 0.31
3	76.73 ± 4.69	1,496.74	95.21	221.8	0.47 ± 0.35
4	75.88 ± 11.66	1,480.03	95.44	218.53	0.46 ± 0.41
5	77.85 ± 12.49	1,518.43	95.57	223.84	0.53 ± 0.38
6	80.67 ± 4.64	1,573.52	95.68	232.51	0.45 ± 0.4
7	75.64 ± 13.11	1,475.48	95.33	218.17	0.48 ± 0.42
8	73.38 ± 12.55	1,431.29	95.07	210.96	0.51 ± 0.4

2. ヒト全ゲノムシケンスの評価結果

ライブラリ調製用にサンプルNA12878を用い、NovaSeq X PlusとNovaSeq 6000で同時に全ゲノムシケンスを行い、プラットフォム性能をさらに評価しました。

2.1 QC

NovaSeq 6000と比較して、NovaSeq X PlusプラットフォムはQ30において優れた性能を発揮しました（平均94.63％）。

表3. サンプルNA12878のQC

Sample	Effective (%)	Error (%)	Q20 (%)	Q30 (%)	GC (%)	Containing N (%)	Low quality (%)	Adapter related (%)
NA12878_NovaSeq X Plus_1	99.83	0.03	96.91	94.45	41.72	0.01	0.00	0.16
NA12878_NovaSeq X Plus_2	99.88	0.03	96.81	94.67	41.14	0.00	0.00	0.12
NA12878_NovaSeq X Plus_3	99.87	0.03	96.77	94.41	41.3	0.00	0.00	0.13
NA12878_NovaSeq X Plus_4	99.82	0.03	97.31	94.97	41.73	0.01	0.00	0.17
NA12878_NovaSeq 6000	99.83	0.03	97.60	93.34	42.08	0.00	0.00	0.17

2.2 マッピング統計値

NovaSeq X PlusおよびNovaSeq 6000プラットフォムは、平均シケンスデプス30xの下で〜99%のカバレッジで全ゲノムにわたって均一なカバレッジを達成しました。

表4. サンプルNA12878のマッピング統計値

Sample	Mapped (%)	Properly (%)	PE mapped (%)	Average Sequencing Depth (%)	Coverage (%)	4X (%)	10X (%)	20X (%)
NA12878_NovaSeq X Plus_1	99.75	97.06	99.70	29.99	98.99	98.64	97.84	88.41
NA12878_NovaSeq X Plus_2	99.74	97.09	99.69	30.01	98.99	98.64	97.81	88.92
NA12878_NovaSeq X Plus_3	99.71	97.02	99.66	29.96	98.99	98.64	97.83	88.86
NA12878_NovaSeq X Plus_4	99.71	97.04	99.67	29.96	98.99	98.63	97.83	88.52
NA12878_NovaSeq 6000	99.89	96.90	99.83	28.84	98.63	98.63	97.77	85.19

2.3 バリアントコル精度

NovaSeq X PlusとNovaSeq 6000は、SNP検出において95%以上の一致率があります。2つのプラットフォム間のSNPとInDelの精度およびリゴール偏差は<0.2%です。

表5. サンプルNA12878のバリアントコル結果

Sample	Precision (SNP) (%)	Recall (SNP) (%)	F-score (SNP) (%)	Precision (InDel) (%)	Recall (InDel) (%)	F-score (InDel) (%)	dbSNP (SNP) (%)	dbSNP (InDel) (%)
NA12878_NovaSeq X Plus_1	99.18	97.94	98.55	88.09	85.92	86.99	96.55	88.34
NA12878_NovaSeq X Plus_2	99.14	97.84	98.48	87.93	85.95	86.93	96.55	88.50
NA12878_NovaSeq X Plus_3	99.14	97.86	98.50	87.98	86.09	87.02	96.57	88.46
NA12878_NovaSeq X Plus_4	99.16	97.98	98.57	88.07	86.18	87.12	96.51	88.30
NA12878_NovaSeq 6000	99.36	98.01	98.68	88.59	86.04	87.30	96.66	88.41

図1. NovaSeq X PlusとNovaSeq 6000の間で共有されるSNPのベン図

NovaSeq X PlusとNovaSeq 6000プラットフォムでは、別々のレーンでシケンスされたサンプル間で高いデータの一致が観察されました。これは、シケンスラン間でのバリアント検出の高い再現性と、最新のシケンスプラットフォムで当社のワクフローによって達成可能な高品質なデータを実証しています。

ノボジーンについて

ノボジーンは、最先端の分子生物学技術とハイパフォマンスコンピュティングを、ライフサイエンスとヒュマンヘルスの分野の研究に応用するパイオニアです。そのビジョンは、ゲノミクスサビスとソリュションの提供において、グロバルリダであり続けることです。
世界最大級のシケンスキャパシティを擁し、深い科学的知識、一流のカスタマサビス、卓越したデータ品質を駆使して、急速に進化するゲノミクスの世界でお客様の研究目標を実現するお手伝いをします。ノボジーンは、お客様の信頼できるゲノミクスパトナとなることをお約束します。

用語の説明:

(1) Effective（エフェクティブ）：全生成リードのうち、クリーンリードの割合。
(2) Error：エラー： read1とread2の全塩基の平均エラー率。塩基のエラー率は式1より求められる。
(3) Q20: phred-scaled quality scoreが20より大きい塩基の割合。
(4) Q30：Fred Scaleにて計算された品質スコアが30を超える塩基の割合。
(5) GC (%)：全塩基に含まれるGとCの割合。
(6) Containing N(%)：どちらか一方のリードで、塩基が不確かなものが10%以上あるリードペア。
(7) Low Quality：どちらか一方のリードにおいて、低品質塩基の割合が50％以上であるリードペア。
(8) Adapter Related: どちらかのリードにアダプターの混入があるリードペア。
(9) Mapped (%)：参照ゲノムにマッピングされたリードの数（割合）。
(10) Properly: 適切にマッピングされたリードの数：参照ゲノムにマッピングされたリードのうち、予想されるインサートサイズ内にあるリードの数（％）。
(11) PE mapped：参照ゲノムにマッピングされたペアエンドリードの数（％）。
(12) Average_sequencing_depth: 全ゲノム平均シーケンス深度。
(13) Coverage：全ゲノムにおけるカバレッジ。
(14) 4X: 4Xを超えるシーケンス深度の塩基のみを考慮した場合の全ゲノムにおけるカバー率。
(15) 10X (%)：シーケンス深度10倍以上の塩基のみを考慮した場合の全ゲノムのカバー率。
(16) 20X (%)：シーケンス深度20倍以上の塩基のみを考慮した場合の全ゲノムのカバー率。
(17) Recall=TP/(TP+FN)(パーセント)
(18) Recall=TP/(TP+FN) (percentage)
(19) F score=2* Precision*Recall/(Precision + Recall)
(20) dbSNP（SNP）．dbSNPデータベースで報告されたSNPの数をSNPの総数で割ったものです。
(21) dbSNP (InDel)： dbSNPデータベースで報告されているInDelの数をInDelの総数で割った値。