大規模データに対する主成分分析

大規模1細胞発現データを高精度・高速・低メモリで主成分分析(PCA)[1]する手法の性能評価を行い、論文を出版しました。本研究成果は、大規模な遺伝子発現データからの疾患関連細胞や遺伝子の発見で利用されるアルゴリズムの高速化・軽量化に貢献すると期待できます。

近年、臓器が持つ全細胞種を1細胞RNAシーケンス法(1細胞RNA-seq)で同定する研究が盛んです。この方法で得られたデータをPCAで簡素化し、細胞の種類や数、機能を特定しますが、大規模研究では細胞の数が100万を超えるため、従来法ではそもそも計算できなかったり、膨大な計算時間、メモリ量が必要とされます。

我々は、10種のPCAアルゴリズムを比較しました。その結果、高速化や低メモリ化には、行列の非ゼロ要素のみを格納する疎行列フォーマット[3]の利用や、行列の一部を逐次的に計算に用いるOut-of-core[4]な実装が有効なことが分かりました。そして、それらを考慮したソフトウェアを実装し、その有効性を示しました。

本研究は、英国の科学雑誌『Genome Biology』のオンライン版(1月20日付)に掲載されました。

Koki Tsuyuzaki, Hiroyuki Sato, Kenta SatoItoshi NikaidoBenchmarking principal component analysis for large-scale single-cell RNA-sequencing. Genome Biology. 21, Article number: 9, 2020.

大規模データに対する主成分分析の性能を評価
-100万規模の1細胞発現データで検証-