SRAにAsperaを使ってデータをアップロードする

TL;DR

httpやftpによるSRAへのデータアップロードは遅すぎるので、IBMのAspera Connectを使ってデータをアップロードしないと日が暮れます。初めてアップロードした時は、Webからは終わらず、ftpで一つずつアップロードするのはしんどかったのですが、Asperaを使うと思ったより快適にアップロードできました。難しいことは何もなく、scpの高速版という感じでした。 実際、NCBIのページを見ると、以下の様にAspera Connectを使うことが推奨されています。

Aspera Connect Fast and Secure Protocol (FASP) uses User Datagram Protocol (UDP) that eliminates and overcomes many shortcomings of other FTP clients and we recommend it for all medium to large submissions and slow or unreliable connections (especially from abroad).

Aspera Connectのインストール

Aspera ConnectはIBM Aspera Connectからダウンロードできます。Linuxを使っている場合の例を以下に示します。versionは更新されることがあるので、できるだけ最新版を使いましょう。

wget https://d3gcli72yxqn2z.cloudfront.net/connect_latest/v4/bin/ibm-aspera-connect_4.0.2.38_linux.tar.gz

tar -zxvf ibm-aspera-connect_4.0.2.38_linux.tar.gz
bash ibm-aspera-connect_4.0.2.38_linux.sh
export PATH=$PATH:$HOME/.aspera/connect/bin

パスを通すと、ascpコマンドが使えるようになっています。必要なら~/.profileなどに記入しておきます。

Fileのアップロード

RSA Private Keyが表示されるので、~/.aspera/keys/aspera_rsaとして保存します。アップロードしたいfastqはgz圧縮されている必要があります。upload先は、登録したemailから始まる指定されたものを使います。

your_submission_directory="<user@email.com_xxxxx"

ascp -i ~/.aspera/keys/aspera_rsa -QT -l 100m -k1 -d path/to/your_reads.fastq.gz subasp@upload.ncbi.nlm.nih.gov:uploads/${your_submission_directory}

この記事に関するIssueをGithubで作成する

Read Next