published: 2022/5/20 update: 2022/5/20
SRAからfastqをダウンロードする技術の必要性は年々高まっている気がします。Cloud関連はお金がないのでわかりません。
これを使えばダウンロードすることそのものは非常に簡単です。prefetch
してからfasterq-dump
をするとメモリエラーみたいなのが起きにくくなるのでお勧めです。
id=SRRxxxxx
threads=8
mkdir -p prefetch_dir
prefetch -p -O ./prefetch_dir ${id}
fasterq-dump -p -e ${threads} --force ./prefetch_dir/${id}/${id}.sra
pigz -p ${threads} *.fastq
vdb-config -i
とすればConfig画面が立ち上がります。クラウドやProxyの設定、後述する.sralite
を使うかどうかの設定などができます。移動方法は赤く光っている文字を押すことです。
srapath ${id}
でダウンロード先を見れます。fasterq-dump
はペアエンドかどうかは勝手に認識してくれます。fasterq-dump
はgzip圧縮に対応していません。あとでgz圧縮しておくのがよいと思います。pigzみたいなマルチスレッドで使えるものがおすすめです。ascp
を使った直接のダウンロードは推奨されていません。Wikiにはprefetchはascpをサポートしていると書いていますが、issueを見る限りでは現在ではサポートされていないようです。アップロードについてはこちらをご確認ください。
httpやftpによるSRAへのデータアップロードは遅すぎるので、IBMのaspera connectを使ってデータをアップロードするやり方を使おう。
prefetch
でとってくるファイルです。.sra
と.sralite
があります。
.sra
: 全ての情報が含まれているファイルです。基本的にこれを使えばいいです。
.sralite
: SRA Toolkitのv2.11.2からサポートされているフォーマットで、クオリティスコアが簡略化されています。具体的には、Pass(30)とreject (3)のみが保存されています。使い道はいまいちわかっていません。configを設定することで使えるようになります。
記事に間違い等ありましたら、お気軽に以下までご連絡ください
E-mail: illumination.k.27|gmail.com ("|" replaced to "@")
Twitter: @illuminationK
当HPを応援してくれる方は下のリンクからお布施をいただけると非常に励みになります。
OfuseCopyright © illumination-k 2020-2022.