ライブラリ調整とシーケンスの基本について
TL;DR
次世代シーケンサー(NGS)解析技術の発展に伴い、比較的安価にシーケンスを行うことができるようになってきています。NGS解析を行うにあたって重要なライブラリ調整の原理と、シーケンサーの挙動についてまとめていきます。
ライブラリ調整について
Illumina社のNGS技術はsequence by synthesis (SBS)
と呼ばれる技術が使われています。SBS
を使うには、アダプターと呼ばれる認識配列が必要です。
ライブラリ調整とは、様々な反応を駆使して、読みたいDNAの両端にアダプターをつける反応です。このアダプターとして使われる配列も色々ありますが、2021現在において最もよく使われているのはTruseqのアダプターと、Nexteraのアダプターだと思われます。その他のアダプターなどについてはIllumina adapter sequences documentを参照してください。
よく使われている反応については、弊ブログの記事などを参照していただけると幸いです。
ライブラリの構造
基本的に、ライブラリは以下の要素で構成されています。名前は正式名称ではありませんが、便宜上本記事ではこれらの名前を使わせていただきます。
説明 | 代表例 | |
---|---|---|
フローセル結合配列 | フローセルとハイブリダイズするのに必要な配列 | P5 , P7 etc., |
インデックス配列 | マルチサンプルを扱うときに使う配列 | i5 , i7 etc., |
アダプター配列 | シーケンスプライマーが結合する配列 | Truseq Read , Nextera Read etc., |
Insert DNA | 実際に解析される配列 |
実際のライブラリ構造を見て見ると、それらの要素が全て入っているのがわかると思います。
Truseq Single Index
5'- AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-insert-AGATCGGAAGAGCACACGTCTGAACTCCAGTCACNNNNNNNNATCTCGTATGCCGTCTTCTGCTTG - 3'
3'- TTACTATGCCGCTGGTGGCTCTAGATGTGAGAAAGGGATGTGCTGCGAGAAGGCTAGA-insert-TCTAGCCTTCTCGTGTGCAGACTTGAGGTCAGTGNNNNNNNNTAGAGCATACGGCAGAAGACGAAC - 5'
Illumina P5 Truseq Read 1 Truseq Read 2 i7 Illumina P7
Truseq Dual Index
5'- AATGATACGGCGACCACCGAGATCTACACNNNNNNNNACACTCTTTCCCTACACGACGCTCTTCCGATCT-insert-AGATCGGAAGAGCACACGTCTGAACTCCAGTCACNNNNNNNNATCTCGTATGCCGTCTTCTGCTTG - 3'
3'- TTACTATGCCGCTGGTGGCTCTAGATGTGNNNNNNNNTGTGAGAAAGGGATGTGCTGCGAGAAGGCTAGA-insert-TCTAGCCTTCTCGTGTGCAGACTTGAGGTCAGTGNNNNNNNNTAGAGCATACGGCAGAAGACGAAC - 5'
Illumina P5 i5 Truseq Read 1 Truseq Read 2 i7 Illumina P7
Nextera Dual Index
5'- AATGATACGGCGACCACCGAGATCTACACNNNNNNNNTCGTCGGCAGCGTCAGATGTGTATAAGAGACAG-insert-CTGTCTCTTATACACATCTCCGAGCCCACGAGACNNNNNNNNATCTCGTATGCCGTCTTCTGCTTG - 3'
3'- TTACTATGCCGCTGGTGGCTCTAGATGTGNNNNNNNNAGCAGCCGTCGCAGTCTACACATATTCTCTGTC-insert-GACAGAGAATATGTGTAGAGGCTCGGGTGCTCTGNNNNNNNNTAGAGCATACGGCAGAAGACGAAC - 5'
Illumina P5 i5 Nextera Read 1 Nextera Read 2 i7 Illumina P7
ライブラリ調整法
これらのライブラリがどうやって作成されるかのかを順番に見ていきます。ライブラリ調整の基本的な流れは、
- 数百bp程度の二本鎖DNAを作る
- それらのDNAに対して、何らかの方法でSBSに必要な配列を追加していく
- ビーズやゲルなどで精製、PCR増幅を行う
といった流れが一般的です。今回は基本であるDNAに関するライブラリ調整に絞って説明します。
Truseq1
- Covarisなどの超音波破砕などで100-200 ngゲノムDNAを断片化します。
- T4 DNA polymeraseやkelnow fragmentを用いてDNA断片の末端を平滑化、リン酸化します。
- ビーズなどを使って特定サイズのDNAのみを選択的に取得します。
- 平滑化したDNA断片の末端をKlenow Fragmentを用いて、A-tailを付与します(参考1, 参考2)。
- T4 DNA ligaseでライゲーションし、アダプターを付加します。
- PCRで増幅します。
- シーケンスへ。
Nextera
- TransposaseをつかってゲノムDNAを~300 bp程度に断片化し、同時に必要なIndexを付加します。
- 付加した配列を鋳型にするプライマーを使って、PCRで残りのアダプターを付加します。
- シーケンスへ
実際どういうふうにシーケンスが読まれているのか
まず最初に単語として、インデックス配列が1つのものをシングルインデックス、インデックス配列が2つあるものをデュアルインデックス配列と呼びます。このスライドが非常に詳しいです。
マルチプレックス法
シーケンサーにライブラリを入れるとき、1つのライブラリではなく複数のライブラリを同時に流します。その際に、そのリードがどのライブラリ由来なのかを判別するために使われるのがインデックス配列です。つまり、1つのライブラリにユニークなIDを配列という形で付与することで、1回のシーケンスで複数のサンプルを同時に解析し、後でそれを区別するための仕組みです。デュアルインデックスにすると、インデックス配列が2個あるので、インデックス配列の組み合わせがユニークなIDとなります。
シングルインデックスかつペアエンドの場合
- Read1側からinsert-DNAのシーケンスを読みます** (a)** (ex., Truseq Read1, Nextera Read1)。
- Read2側からインデックス配列を読みます (b) (ex., Truseq Read2, Nextera Read2)。
- ブリッジする。
- Read2側からinset-DNAのシーケンスを読みます (c)。
デュアルインデックスかつペアエンドの場合
- Read1側からinsert-DNAのシーケンスを読みます(ex., Truseq Read1, Nextera Read1)。
- Read2側からインデックス配列を読みます(ex., Truseq Read2, Nextera Read2)。
- ブリッジしたあとP5側からインデックス配列2を読みます。
- Read2側からinset-DNAのシーケンスを読みます。
参考文献
- Library sequencing
- 次世代シーケンサー向けライブラリー調製キット
- 次世代シーケンサー用ライブラリー調製試薬
- A-Tailing with Klenow Fragment (3'-->5' exo-)
- Marie-Theres Gansauge, Tobias Gerber, Isabelle Glocke, Petra Korlević, Laurin Lippik, Sarah Nagel, Lara Maria Riehl, Anna Schmidt, Matthias Meyer, Single-stranded DNA library preparation from highly degraded DNA using T4 DNA ligase, Nucleic Acids Research, Volume 45, Issue 10, 2 June 2017, Page e79, https://doi.org/10.1093/nar/gkx033
- NGS超入門
参考動画
Footnotes
-
TruseqというよりNEBNextかもしれないが、Nexteraはタグメンテーションするので明確にこれとは違うライブラリ調整法である。 ↩