ライブラリ調整とシーケンスの基本について

TL;DR

次世代シーケンサー(NGS)解析技術の発展に伴い、比較的安価にシーケンスを行うことができるようになってきています。NGS解析を行うにあたって重要なライブラリ調整の原理と、シーケンサーの挙動についてまとめていきます。

ライブラリ調整について

Illumina社のNGS技術はsequence by synthesis (SBS)と呼ばれる技術が使われています。SBSを使うには、アダプターと呼ばれる認識配列が必要です。 ライブラリ調整とは、様々な反応を駆使して、読みたいDNAの両端にアダプターをつける反応です。このアダプターとして使われる配列も色々ありますが、2021現在において最もよく使われているのはTruseqのアダプターと、Nexteraのアダプターだと思われます。その他のアダプターなどについてはIllumina adapter sequences documentを参照してください。

よく使われている反応については、弊ブログの記事などを参照していただけると幸いです。

ライブラリの構造

基本的に、ライブラリは以下の要素で構成されています。名前は正式名称ではありませんが、便宜上本記事ではこれらの名前を使わせていただきます。

説明代表例
フローセル結合配列フローセルとハイブリダイズするのに必要な配列P5, P7 etc.,
インデックス配列マルチサンプルを扱うときに使う配列i5, i7 etc.,
アダプター配列シーケンスプライマーが結合する配列Truseq Read, Nextera Read etc.,
Insert DNA実際に解析される配列

実際のライブラリ構造を見て見ると、それらの要素が全て入っているのがわかると思います。

Truseq Single Index

5'- AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-insert-AGATCGGAAGAGCACACGTCTGAACTCCAGTCACNNNNNNNNATCTCGTATGCCGTCTTCTGCTTG - 3'
3'- TTACTATGCCGCTGGTGGCTCTAGATGTGAGAAAGGGATGTGCTGCGAGAAGGCTAGA-insert-TCTAGCCTTCTCGTGTGCAGACTTGAGGTCAGTGNNNNNNNNTAGAGCATACGGCAGAAGACGAAC - 5'
Illumina P5 Truseq Read 1 Truseq Read 2 i7 Illumina P7

Truseq Dual Index

5'- AATGATACGGCGACCACCGAGATCTACACNNNNNNNNACACTCTTTCCCTACACGACGCTCTTCCGATCT-insert-AGATCGGAAGAGCACACGTCTGAACTCCAGTCACNNNNNNNNATCTCGTATGCCGTCTTCTGCTTG - 3'
3'- TTACTATGCCGCTGGTGGCTCTAGATGTGNNNNNNNNTGTGAGAAAGGGATGTGCTGCGAGAAGGCTAGA-insert-TCTAGCCTTCTCGTGTGCAGACTTGAGGTCAGTGNNNNNNNNTAGAGCATACGGCAGAAGACGAAC - 5'
Illumina P5 i5 Truseq Read 1 Truseq Read 2 i7 Illumina P7

Nextera Dual Index

5'- AATGATACGGCGACCACCGAGATCTACACNNNNNNNNTCGTCGGCAGCGTCAGATGTGTATAAGAGACAG-insert-CTGTCTCTTATACACATCTCCGAGCCCACGAGACNNNNNNNNATCTCGTATGCCGTCTTCTGCTTG - 3'
3'- TTACTATGCCGCTGGTGGCTCTAGATGTGNNNNNNNNAGCAGCCGTCGCAGTCTACACATATTCTCTGTC-insert-GACAGAGAATATGTGTAGAGGCTCGGGTGCTCTGNNNNNNNNTAGAGCATACGGCAGAAGACGAAC - 5'
Illumina P5 i5 Nextera Read 1 Nextera Read 2 i7 Illumina P7

ライブラリ調整法

これらのライブラリがどうやって作成されるかのかを順番に見ていきます。ライブラリ調整の基本的な流れは、

  1. 数百bp程度の二本鎖DNAを作る
  2. それらのDNAに対して、何らかの方法でSBSに必要な配列を追加していく
  3. ビーズやゲルなどで精製、PCR増幅を行う

といった流れが一般的です。今回は基本であるDNAに関するライブラリ調整に絞って説明します。

Truseq1

  1. Covarisなどの超音波破砕などで100-200 ngゲノムDNAを断片化します。
  2. T4 DNA polymeraseやkelnow fragmentを用いてDNA断片の末端を平滑化、リン酸化します。
  3. ビーズなどを使って特定サイズのDNAのみを選択的に取得します。
  4. 平滑化したDNA断片の末端をKlenow Fragmentを用いて、A-tailを付与します(参考1, 参考2)。
  5. T4 DNA ligaseでライゲーションし、アダプターを付加します。
  6. PCRで増幅します。
  7. シーケンスへ。

truseq

次世代シーケンサー用ライブラリー調製試薬

Nextera

  1. TransposaseをつかってゲノムDNAを~300 bp程度に断片化し、同時に必要なIndexを付加します。
  2. 付加した配列を鋳型にするプライマーを使って、PCRで残りのアダプターを付加します。
  3. シーケンスへ

nextera

次世代シーケンサー用ライブラリー調製試薬

実際どういうふうにシーケンスが読まれているのか

まず最初に単語として、インデックス配列が1つのものをシングルインデックス、インデックス配列が2つあるものをデュアルインデックス配列と呼びます。このスライドが非常に詳しいです。

マルチプレックス法

シーケンサーにライブラリを入れるとき、1つのライブラリではなく複数のライブラリを同時に流します。その際に、そのリードがどのライブラリ由来なのかを判別するために使われるのがインデックス配列です。つまり、1つのライブラリにユニークなIDを配列という形で付与することで、1回のシーケンスで複数のサンプルを同時に解析し、後でそれを区別するための仕組みです。デュアルインデックスにすると、インデックス配列が2個あるので、インデックス配列の組み合わせがユニークなIDとなります。

multiplex

NGS超入門

シングルインデックスかつペアエンドの場合

  1. Read1側からinsert-DNAのシーケンスを読みます** (a)** (ex., Truseq Read1, Nextera Read1)。
  2. Read2側からインデックス配列を読みます (b) (ex., Truseq Read2, Nextera Read2)。
  3. ブリッジする。
  4. Read2側からinset-DNAのシーケンスを読みます (c)

single_index_pair

NGS超入門

デュアルインデックスかつペアエンドの場合

  1. Read1側からinsert-DNAのシーケンスを読みます(ex., Truseq Read1, Nextera Read1)。
  2. Read2側からインデックス配列を読みます(ex., Truseq Read2, Nextera Read2)。
  3. ブリッジしたあとP5側からインデックス配列2を読みます。
  4. Read2側からinset-DNAのシーケンスを読みます。

dual_index_pair

NGS超入門

参考文献

参考動画

Footnotes

  1. TruseqというよりNEBNextかもしれないが、Nexteraはタグメンテーションするので明確にこれとは違うライブラリ調整法である。

この記事に関するIssueをGithubで作成する

Read Next