GO Termに関する基礎

TL;DR

GOに関連する解析は次世代シーケンサーやマイクロアレイの解析において、よく使われる解析手法です。解析の意味を正確に理解するには、まずGOそのものに関する理解が必要になります。ここでは、GO Termの基本についてまとめていきます。

GO Termとは

The Gene Ontology Consortiumという団体が規定している、人によって定義されたアノテーションです。人によって定義されていることから、PFAMやKEGGなどといったデータと比べ客観性に欠ける、などといった指摘も見られます。 とはいえ、生物学的な知見を含んだアノテーションはGO Termくらいですし、Contributorの方々のおかげで信頼性は高くなっています。2021年現在では、150,000を超える論文の実験データをもとにアノテーションがつけられており、実験的な裏付けのあるアノテーションは700,000を超えます(参考)。実際、タンパク質の機能推定を行うような手法では、正解データとして多くの解析でGO Termが使われています。

また、人によって付けられるという性質上、GO Termそのものが更新されることも多いため、解析の際にはできるだけ最新のGO Termのリストを使うことが推奨されます。

File format

Go TermはOBO-formatとowl形式で書かれています。goatoolsobo_parserなどを使用するとobo formatをパースすることができます。あまりファイル形式については詳しくないので、そのうち調べたいです。また、後述するsubsetについては、json形式でも提供されています。

Subset

生物種ごとのアノテーションがあります。例えば動物は光合成をしないので、光合成のGo Termなどを予め除いておきたい場合はこういったSubsetを使用するのが適していると考えられます。

GO Termの中身

基本要素

1つのGO Termは以下の要素を基本に構成されます。

NameDescriptionExample
Gene Productアノテーションされている遺伝子産物UniProtKB
(rat Dhfr)
GO TermIDと名前 (説明)GO:0004146 (dihydrofolate reductase activity)
Referenceアノテーションの根拠を示す論文
Evidence Codeアノテーションの根拠の種類を示すコード(実験、系統解析 etc.,)Inferred from Experiment (EXP)

extensions

基本要素以外にも、いくつかのアノテーションの拡張が行われています。拡張アノテーションは以下の2つに大別されます(Huntley & Lovering 2017)。

  • 遺伝子や遺伝子産物、複合体、化学物質などの関係性を示すMolecular reationships
  • 細胞種や解剖学、発達段階などとの関係性を示すContextual relationshipsに大別されます。

Molecular reationships

NameDescriptionExample
has_regulation_targethas_regulation_target (UniProtKB
zinc finger protein GLI1)
has_inputhas_input (PomBase
.0 pcf2)
has_direct_inputhas_direct_input (UniProtKB
Solute carrier family 26 member 9)

Contextual relationships

NameDescriptionExample
part_ofpart_of (WBbt:0006804 body wall muscle cell)
occurs_inoccurs_in (CL:0000740 retinal ganglion cell)
happens_duringhappens_during (GO:0071470 cellular response to osmotic stress)

GO Annotationの構造

GO Annotation全体はノードとしてGO Termを、エッジとして下で定義されるRelationを持つ有向非巡回グラフ(DAG)で表されており、階層構造を持ちます。階層構造の上に行くほど、広い意味をもつアノテーションになります。

階層構造における関係性を表すRelationは以下の通りです(参考)。

NameDescription
is a基本構造です。A is a Bと示すとき、AはBのサブタイプです。
part ofより強い制約です。B is part of Aでは、Bが存在するとき、それは必ずAの一部であり、Aの存在が約束されます。Extensionのpart ofはノード情報ですが、このpart ofはエッジ情報です。
has partA has part Bのとき、BはAの一部です。Aが存在するとき、Bは存在する必要がありますが、Bが存在していても必ずしもAが存在する必要がありません。
regulates制御関係を表します。例えば、他のパスウェイからの影響などががあります。

GO Termの一番上の階層として、以下の3つが割り当てられています。解析ツールなどでは、このノードを最上流ノードとして扱うことが多いです。

略称意味
Biological ProcessBP生物学的なプロセス
Molecular FunctionMP遺伝子産物の分子的機能
Cellular ComponentCC細胞の構成要素

Reference

この記事に関するIssueをGithubで作成する

Read Next