PythonでGO Enrichmentの結果を図示する
RにはGO Enrichmentの結果をいい感じに図示してくれるライブラリがいくつかありますが、Pythonにはありません。基本的なプロットからsemantic similarityを利用したheatmap・MDS scatter・ネットワーク・treemapまで、似たような図の作成方法をまとめます。
RにはGO Enrichmentの結果をいい感じに図示してくれるライブラリがいくつかありますが、Pythonにはありません。基本的なプロットからsemantic similarityを利用したheatmap・MDS scatter・ネットワーク・treemapまで、似たような図の作成方法をまとめます。
遺伝子やタンパク質に関連する多様なデータベース間でのID変換方法を解説します。特に、UniprotのID Mappingサービスを使えば、Uniprot IDからEnsembl ID、NCBIのEntrez IDなど、主要なデータベース間での変換が簡単に行えます。APIも提供されているため、スクリプトやプログラムでの自動化も可能です。さらに、APIの利用方法や実際のコマンド例についても触れています。 このページでは、IDマッピングの手順を詳しく説明し、実際のコマンド例を含めた具体的な手順を紹介しています。APIを用いたプロセスをステップごとに説明しており、UniprotKBからUniRefへの変換、Ensemblへの変換例を取り上げています。
Phylogenetic Analysis各種ステップのAlignment, Trim, Model選択, Tree Constructionに関する情報、ツールに関してまとめ
バイオインフォマティクスをしていて、障壁になることの1つにファイルフォーマットが多すぎる、という問題があると思います。ツールを動かそうとするとこれとこれとこれが必要となって、どうやってこの形式のファイルを作ればいいんだ?ということはよくあります。備忘録を兼ねて、よく使うフォーマットと関連するツールについてまとめておきます。
salmonの出力ファイルはquant.sfですが、その加工は非常に多岐に渡り、結構難しいです。tximportで加工できる先と用途についてまとめていきたいと思います。
自然言語処理技術では深層学習技術が非常に良い成果をあげています。タンパク質配列からGO Termなどのアノテーション行い、機能を推定する方法として、これまでの多くはBLASTなどの相同性検索を用いていました。最近では、いくつかのツールが深層学習ベースで機能予測を行っています。今回はdeepgoplusを試してみることにします。
single cell RNA-seqを知ってる人ならまず知っているであろう、Cell Ranger。使ったことがなかったんですが、ちょっと使ってみようかなと思いました。しかし、これ内部的にはSTARを使ってマッピングするんですが、STARのパラメーターを引数でとれない、という問題(誰も問題にしていない)があります。公式の解答としては、自分でビルドしてね、責任は持たないけど、ってことらしいです。