SRAからfastqをダウンロードする時の関連知識

published: 2021/11/16 update: 2021/11/16

Table of Contents

TL;DR

SRAからfastqをダウンロードする技術の必要性は年々高まっている気がします。Cloud関連はお金がないのでわかりません。

sra-tools

これを使えばダウンロードすることそのものは非常に簡単です。prefetchしてからfasterq-dumpをするとメモリエラーみたいなのが起きにくくなるのでお勧めです。

examples (とりあえずfastqが欲しい場合)

id=SRRxxxxx
threads=8

mkdir -p prefetch_dir
prefetch -p -O ./prefetch_dir ${id}
fasterq-dump -p -e ${threads} --force ./prefetch_dir/${id}/${id}.sra
pigz -p ${threads} *.fastq

Config

vdb-config -i

とすればConfig画面が立ち上がります。クラウドやProxyの設定、後述する.sraliteを使うかどうかの設定などができます。移動方法は赤く光っている文字を押すことです。

その他

  • prefetchはoutput場所を指定しないと勝手に他の場所に置かれます。その場合は、srapath ${id}でダウンロード先を見れます。
  • fasterq-dumpはペアエンドかどうかは勝手に認識してくれます。
  • fasterq-dumpはgzip圧縮に対応していません。あとでgz圧縮しておくのがよいと思います。pigzみたいなマルチスレッドで使えるものがおすすめです。
  • アップロード時とは異なり、ascpを使った直接のダウンロードは推奨されていません。Wikiにはprefetchはascpをサポートしていると書いていますが、issueを見る限りでは現在ではサポートされていないようです。

アップロードについてはこちらをご確認ください。

httpやftpによるSRAへのデータアップロードは遅すぎるので、IBMのaspera connectを使ってデータをアップロードするやり方を使おう。

SRAファイル

prefetchでとってくるファイルです。.sra.sraliteがあります。

  • .sra: 全ての情報が含まれているファイルです。基本的にこれを使えばいいです。

  • .sralite: SRA Toolkitのv2.11.2からサポートされているフォーマットで、クオリティスコアが簡略化されています。具体的には、Pass(30)とreject (3)のみが保存されています。使い道はいまいちわかっていません。configを設定することで使えるようになります。

Reference

記事に間違い等ありましたら、お気軽に以下までご連絡ください

E-mail: illumination.k.27|gmail.com ("|" replaced to "@")

Twitter: @illuminationK

当HPを応援してくれる方は下のリンクからお布施をいただけると非常に励みになります。

Ofuse

Other Articles

Site Map

Table of Contents

    TL;DR

    sra-tools

      examples (とりあえずfastqが欲しい場合)

      Config

      その他

    SRAファイル

      Reference


当HPを応援してくれる方は下のリンクからお布施をいただけると非常に励みになります。

Ofuse
Privacy Policy

Copyright © illumination-k 2020-2021.