HeteroNAM’18/WSDM2018に、特別研究員の露崎弘毅さんの以下の論文が採択されました。
生命科学のデータは、ゲノム、RNA、タンパク質、表現型など様々な階層に渡り、複雑で多様なデータ構造を扱います。生命科学分野でのデータ解析では、これらのデータを統合的に解析する手法の確立が大きな課題となっています。一方、機械学習の分野では、Heterogeneous Information Network (HIN) という分野で、このような複雑なデータを統合的に解析する手法が発達しつつあります。
HINは、あらゆるデータを頂点(ノード)と枝(リンク)からなる「グラフ」と捉え、ノード同士の繋りを行列やテンソルとして表現します。これにより異なる種類のデータ同士を連結できます。このようなHINは、1. Prioritization、2. Missing-Link、3. Cross-Domain の解析ができるという良い性質があります。
本論文では、生命科学のデータ解析とHINについてのレビューと展望を述べました。まず、複雑で多様な生命科学データが、HIN として捉えられることを指摘しました。また、これまで生命科学でGuilt-By-Associationと呼ばれて活用されていた解析手法が、HINとして捉えられることを示し、これまでの手法との関連を網羅的に整理しました。さらに、生命科学分野でのHINによるデータ統合について、今後の展望を議論しました。特に、1細胞レベルでマルチオミックスが得られた際のデータ統合に利活用できるということを提言しました。