SRAからfastqをダウンロードする時の関連知識

TL;DR

SRAからfastqをダウンロードする技術の必要性は年々高まっている気がします。Cloud関連はお金がないのでわかりません。

sra-tools

これを使えばダウンロードすることそのものは非常に簡単です。prefetchしてからfasterq-dumpをするとメモリエラーみたいなのが起きにくくなるのでお勧めです。

examples (とりあえずfastqが欲しい場合)

id=SRRxxxxx
threads=8

mkdir -p prefetch_dir
prefetch -p -O ./prefetch_dir ${id}
fasterq-dump -p -e ${threads} --force ./prefetch_dir/${id}/${id}.sra
pigz -p ${threads} *.fastq

Config

vdb-config -i

とすればConfig画面が立ち上がります。クラウドやProxyの設定、後述する.sraliteを使うかどうかの設定などができます。移動方法は赤く光っている文字を押すことです。

その他

  • prefetchはoutput場所を指定しないと勝手に他の場所に置かれます。その場合は、srapath ${id}でダウンロード先を見れます。
  • fasterq-dumpはペアエンドかどうかは勝手に認識してくれます。
  • fasterq-dumpはgzip圧縮に対応していません。あとでgz圧縮しておくのがよいと思います。pigzみたいなマルチスレッドで使えるものがおすすめです。
  • アップロード時とは異なり、ascpを使った直接のダウンロードは推奨されていません。Wikiにはprefetchはascpをサポートしていると書いていますが、issueを見る限りでは現在ではサポートされていないようです。

アップロードについてはこちらをご確認ください。

SRAファイル

prefetchでとってくるファイルです。.sra.sraliteがあります。

  • .sra: 全ての情報が含まれているファイルです。基本的にこれを使えばいいです。

  • .sralite: SRA Toolkitのv2.11.2からサポートされているフォーマットで、クオリティスコアが簡略化されています。具体的には、Pass(30)とreject (3)のみが保存されています。使い道はいまいちわかっていません。configを設定することで使えるようになります。

Reference

この記事に関するIssueをGithubで作成する

Read Next