区間に関するクエリ

TL;DR

Genomicなデータを扱っていると、区間に対するクエリを扱いたいことがよくある。

例えば、遺伝子領域と重複するピークやSNVを探したり、Open Chromatin Regionにあるヒストンマークを探したりするような利用方法が考えられる。

こういったクエリは、ナイーブに投げると $O(N^2)$ になってしまう。現実問題として、この計算量はあまりよろしくない。

解決策

CLI

CLIであるbedtoolsなどを使えばこういったクエリをある程度効率的に処理することができる。基本的には $O(Nlog(N))$ くらいになる。速度面で問題なければこういったツールを活用するのが良いと考えられる。

テスト済みのツールが使えるので定型的な処理をする分には安心感がある。また、bedなどのパーサーを書かなくていいので嬉しい。一番メジャーかつできる処理が多いのはbedtools、高速なのはbedtkかなという感じを受ける。

自作

CLIで解決できない問題の場合は自分でコードを書くことになる。その場合に使えるようなデータ構造は当然ながら古くから研究されている。計算量のオーダーとしてはそこまで変化はないっぽいが、ベンチマークとか見るとだいぶ違うので最適化はされていっているらしい。

基本的なアイデアとしては、Interval TreeやR-treeなどが使われている。

このあたりの基本的なデータ構造の実装としては、色々あるがrust-bioのデータ構造だったり、python実装だったりがある。 ALV木として実装されているので、自分で実装するよりこういったものを利用すると苦労は少なそう。

最近開発されているより高速・省メモリなデータ構造としては、以下のような物がある。ctrangesはbedtkで使用されているデータ構造。

Name	Language	Github
Augmented Interval List (AIList)	C, Python	https://github.com/databio/AIList
cgranges	C, C++	https://github.com/lh3/cgranges
Cache Oblivious Interval Trees (COITree)	Rust	https://github.com/dcjones/coitrees

Githubで公開されているベンチマーク的にはCOITreeが一番早い。個人的にはCほとんどわからないので普通にCOITree使いそう。

この記事に関するIssueをGithubで作成する

salmonの出力ファイルをtximportで加工する

作成

2022-05-20

更新

2022-05-20

techblog

bioinformaticsr

salmonの出力ファイルはquant.sfですが、その加工は非常に多岐に渡り、結構難しいです。tximportで加工できる先と用途についてまとめていきたいと思います。

MUSCLE + trimal + RAxML-ng-mpiを使って最尤法で系統解析

作成

2022-05-20

更新

2022-05-20

techblog

bioinformaticsphylogeny

遺伝子の機能や、進化を考察する上でタンパク質を用いた系統解析は重要な解析手法の一つとして知られている。今回は、MUSCLEを用いてマルチプルアラインメントを作成し、非保存領域をTrimAlで除去したあと、RAxMLを用いて最尤法によって系統解析を行う。

GO Termに関する基礎

作成

2022-05-20

更新

2022-05-20

techblog

bioinformaticsgoterm

GO解析はよく使われる解析手法ですが、正確に理解するには、まずGOそのものに関する理解が必要になります。GO Termの基本についてまとめていきます。

SRAにAsperaを使ってデータをアップロードする

作成

2022-05-20

更新

2022-05-20

techblog

bioinformaticssra

httpやftpによるSRAへのデータアップロードは遅すぎるので、IBMのaspera connectを使ってデータをアップロードするやり方を使おう。

Bioinformaticsで使うファイルフォーマットまとめ

作成

2022-05-20

更新

2022-06-12

techblog

bioinformatics

バイオインフォマティクスをしていて、障壁になることの1つにファイルフォーマットが多すぎる、という問題があると思います。ツールを動かそうとするとこれとこれとこれが必要となって、どうやってこの形式のファイルを作ればいいんだ？ということはよくあります。備忘録を兼ねて、よく使うフォーマットと関連するツールについてまとめておきます。

gatk4のRNA-seq bestpractice

作成

2022-05-20

更新

2022-05-20

techblog

bioinformaticsgatk

genomic sequenceと少しRNA-seqのパイプラインは違うので、bestpracticeをbashで実行するメモ

区間に関するクエリ

TL;DR

解決策

CLI

自作

Read Next