1細胞RNA-seqベンチマーク論文のpreprintが公開されました

世界中のハイスループット型1細胞RNA-seq開発者や企業が参加した国際的なベンチマーク大会が、Human Cell Atlas Projectで開催されました。これまで報告されている13種類の代表的な手法が比較されました。この活動は、7カ国, 25研究機関が参加した国際的な取り組みです。アジアからは唯一我々がQuartz-Seq2で参加しました。その結果をまとめた論文の preprint が公開されました。

全参加チームがスペインのバルセロナから送られた同じ細胞カクテルを用いて、各拠点で1細胞採取からシーケンスまでを実施しました。細胞カクテルは事前にヒトやマウス、イヌなどの細胞を一定量混ぜたサンプルで、バルセロナで混合されたサンプルが世界中の拠点に冷凍輸送されました。そのサンプルを元に各チームが各方法で1細胞RNA-seqを実施しました。その後、生データはバルセロナに集められ、その性能を比較が比較されました。評価指標としては検出遺伝子数や、細胞型の判別など複数の項目に渡ります。

その結果、我々のQuartz-Seq2が評価項目のほとんどでTopの成績を示し、ベンチマーク総合スコアでトップスコアを示しました。特に検出遺伝子は他の手法を圧倒しています。これまで我々自身の論文で示してきたことではありますが、今回より客観的にQuartz-Seq2が世界最高精度のハイスループット1細胞RNA-seqであることが示されました。

このプレプリントはすでに学術誌に投稿しており、専門家のレビューを受けて、採択を目指しています。このベンチマーキングでは、Human Cell Atlas ProjectChan Zuckerberg Initiative の支援を受けました。

Elisabetta Mereu, Atefeh Lafzi, Catia Moutinho, Christoph Ziegenhain, Davis J.MacCarthy, Adrian Alvarez, Eduard Batlle, Sagar, Dominic Grün, Julia K. Lau, StéphaneBoutet, Chad Sanada, Aik Ooi, Robert C. Jones, Kelly Kaihara, Chris Brampton, YashaTalaga, Yohei Sasagawa, Kaori Tanaka, Tetsutaro Hayashi, Itoshi Nikaido, CorneliusFischer, Sascha Sauer, Timo Trefzer, Christian Conrad, Xian Adiconis, Lan T. Nguyen, Aviv Regev, Joshua Z. Levin, Aleksandar Janjic, Lucas E. Wange, Johannes W. Bagnoli, Swati Parekh, Wolfgang Enard, Marta Gut, Rickard Sandberg, Ivo Gut, Oliver Stegle, Holger Heyn. Benchmarking Single-Cell RNA Sequencing Protocols for Cell Atlas Projects. bioRxiv. (submitted)

細胞あたりの検出遺伝子数とリード数の関係。黄色がQuartz-Seq2

バイオインフォマティクス研究開発チームへ昇格

バイオインフォマティクス研究開発ユニットは、所内選考によりこれまでの業績が認められ、2019年4月1日よりチームへの昇格が認められました。これにより、研究室名は「バイオインフォマティクス研究開発チーム」となり、二階堂ユニットリーダーは、チームリーダーへ昇格になりました。

英語名は、Laboratory for Bioinformatics Researchのままで変更になりません。

ハイブリッドクラウドに関する共同研究がNII「クラウド活用事例」で紹介されました

ライフサイエンスのデータ解析クラウドの構築技術について、国立情報学研究所(NII)と共同研究を行ってきました。具体的には、理研内のオンプレミスなPCクラスタとAmazon AWSのようなパブリッククラウドをNIIが提供するオンデマンドクラウド接続サービスで、繋げて利用する方法を開発しました。

これにより、理研内PCクラスタに計算ジョブを投入すると、自動的にパブリッククラウドから計算ノードを調達し、計算の設定や計算自体が自動的に行われます。計算が終了したクラウド上の計算機は自動的にシャットダウンします。このようなハイブリッドクラウドを利用することで、計算機の調達・維持管理コストを減らし、普段使っている計算機から、自由にいつでもどこでも大量の計算ができるようになります。

今回、この共同研究で利用しているNIIのオンデマンドクラウド接続サービスの利用事例としてインタビューを受けました。紙面の関係で、技術的な詳細については割愛されていますが、その使い勝手や意義について述べています。

インタビュー記事はこちら。NIIクラウド活用事例 理化学研究所

これまでのクラウドに関わる活動については以下をご覧ください。



高速検索エンジン「CellFishing.jl」を開発 -大規模1細胞データベースから類似細胞を瞬時に検出する手法-

大規模1細胞データベース(DB)から、類似細胞を高速検索するソフトウェア「CellFishing.jl」を開発しました。

本研究成果は、細胞分化や臓器・器官発生などの基礎研究から、再生医療における移植細胞の有効性・安全性評価、創薬などの発展に貢献すると期待できます。

多細胞生物が持つ数百種類の細胞の機能を理解する方法として、1細胞ごとにRNAの種類と量を計測する「1細胞RNAシーケンス法]」があります。これにより、共同研究チームを含め、世界中が協力してヒトの全細胞種の遺伝子発現データをデータベース化する研究が進行中で、次々とデータが公開されています。世界中の研究者がこれらのDBと自分のデータを比較できれば、疾患の原因や薬剤応答を細胞レベルで精緻に理解できるようになります。

今回、我々は、1細胞発現データを検索するアルゴリズムを開発し、百万個の細胞DBから、高い検索精度を保ちつつも、1細胞あたり0.63ミリ秒で類似細胞の検索に成功しました。これは既存の方法の100倍以上の速さです。さらに、類似細胞で特徴的に働く遺伝子を高速に検出する機能も開発しました。

本研究は、英国の科学雑誌『Genome Biology』(2月11日付)に掲載されました。詳細は以下の日本語プレスリリースをご覧ください。

理研からのプレスリリース: 高速検索エンジン「CellFishing.jl」を開発 -大規模1細胞データベースから類似細胞を瞬時に検出する手法-
AMEDからのプレスリリース: 高速検索エンジン「CellFishing.jl」を開発 -大規模1細胞データベースから類似細胞を瞬時に検出する手法-

Kenta Sato, Koki Tsuyuzaki, Kentaro Shimizu, Itoshi Nikaido, “CellFishing.jl: an ultrafast and scalable cell search method for single-cell RNA-sequencing”, Genome Biology10.1186/s13059-019-1639-x

ソースコード: Github: CellFishing.j

第1回 バイオインフォマティクスデータ可視化セミナー

第1回 バイオインフォマティクスデータ可視化セミナー

概要

バイオインフォマティクスデータ可視化セミナーは、生物学のデータ解釈の効率を最大化するためのソフトウェア環境やその構築技術についてのセミナーです。バイオインフォマティクスでは定番となるデータ可視化手法が確立されていないことが多く、それぞれの研究内容に応じて独自のソフトウェアの実装が行われています。このセミナーでは各実装の共通部分の開発ベストプラクティスを共有し、本分であるデータ解釈の効率化を目指します。また様々な研究分野における可視化が抱える課題を共有し解決へ向けた情報交換を行います。

具体的な技術としては、Python言語やR言語のデータ可視化ツールの利用と実装、ワークフローのダッシュボード化、ネットワーク可視化ソフトウェア(Cytoscape)の利用・自動化などについて実験的なものや、開発中のものも含めて議論します。

産学官や学問分野などの垣根を越えて、可視化に関わる技術者や科学者などからの参加を広く募集します。 オープンクエスチョン前提の議論・交流を考えております。お気軽にご参加ください。

    • 日時:2018年12月26日 (水)、13時00分-18時
    • 場所:理化学研究所東京連絡事務所、15階会議室3,4
    • 住所:東京都中央区日本橋1-4-1 日本橋一丁目三井ビルディング [地図]
  • 問い合わせ: support-bayes at riken dot jp

プログラム(敬称略)

時間 内容
13:00-13:30 受付
13:30-13:35 オープニング

二階堂愛
国立研究開発法人理化学研究所 生命機能科学研究センター バイオインフォマティクス研究開発ユニット
オープニング

13:35-13:40 諸注意など
石井学
国立研究開発法人理化学研究所 生命機能科学研究センター バイオインフォマティクス研究開発ユニット
13:40-14:40 大野圭一朗
University of California, San Diego Trey Ideker Lab
/ National Resource for Network Biology / The Cytoscape Consortium
バイオインフォマティクス分野における可視化アプリケーション構築と維持の実際
14:40-15:10 休憩&ミキサー
15:10-15:40 柚木 克之
国立研究開発法人理化学研究所 生命医科学研究センター トランスオミクス研究YCIラボ
「トランスオミクスネットワークの解釈可能な視覚化: 2.5次元、事前知識、動画ツアー」
15:40-16:10 海津 一成
国立研究開発法人理化学研究所 生命機能科学研究センター バイオコンピューティング研究チーム
「細胞シミュレーションにおける可視化」
16:10-16:40 休憩&ミキサー
16:40-17:10 津川 裕司
国立研究開発法人理化学研究所 環境資源科学研究センター メタボローム情報研究チーム
「Visualization efficiency for annotating novel metabolites in mass spectrometry based metabolomics」
17:10-17:40 LT

  • 大阪大学医学部医学科、安水良明 (阪医Python会 活動報告)
  • 東京大学 大学院 新領域創成科学研究科、横山 稔之(TBA)
  • Daniel Chen (TBA)
17:40-17:45 石井学(国立研究開発法人理化学研究所 生命機能科学研究センター バイオインフォマティクス研究開発ユニット)
「クロージング」
公式な懇親会は予定していません。

講演は、発表、質疑応答、演者交代を含め、トータル30
分予定です。(一部講演は60分)

休憩とミキサーの時間を何度か取っておりますので、交流や議論などを深めていただければと思います。

これまでの関連する活動

Twitter: #bioinfovizjp#bioinfovizjp

第2回 HPC OPS 研究会のお知らせ

第2回 HPC OPS研究会

概要

HPC OPS (えいちぴーしー おぷす) 研究会は、自然科学の研究成果を最大化するための科学計算環境やその構築技術についての研究会です。計算環境構築の時間やコストを低下させ、本来の研究活動に多くの時間を割けられるよう科学計算環境の開発・運用のノウハウを共有します。また、そのような計算環境そのものを研究開発したり、提供する研究者や技術者との交流を目指します。

具体的な技術としては、コンテナ型仮想計算やクラウドでのHigh Performance Computing、DevOps による科学計算環境の自動構築、データ解析ワークフローエンジンの実装や利用、最適なオンプレミスPCクラスタの運用構築などについて議論します。産学官などの垣根を越えて、クラウドやDevOps, HPCに関わる技術者や科学者などからの参加を広く募集します。

  • 日時:2018年7月2日 (月)、13時30分-18時
  • 場所:日本マイクロソフト (品川)、31階セミナールーム(C+D)
  • 住所:東京都港区港南2丁目16−3 品川グランドセントラルタワー
  • 参加申し込み: 締め切らせていただきました。
  • 当日の入館に関して:お名刺をご持参ください
  • 主催: 理化学研究所. 協賛: 日本マイクロソフト
  • 問い合わせ: support-bayes at riken dot jp

プログラム(敬称略)

時間 内容
13:00-13:30 受付
13:30-13:40 オープニング

二階堂愛
国立研究開発法人理化学研究所 生命機能科学研究センター バイオインフォマティクス研究開発ユニット
当日の発表資料はこちら

13:40-13:45 諸注意など
石井学
国立研究開発法人理化学研究所 生命機能科学研究センター バイオインフォマティクス研究開発ユニット
13:45-14:20 海津一成
国立研究開発法人理化学研究所 生命機能科学研究センター バイオコンピューティング研究チーム
「細胞シミュレーションソフトウェアE-Cell4の技術」
14:20-14:55 白石友一
国立がん研究センター がんゲノム情報管理センター ゲノム解析室
「Extraction Transformation Load (ETL)アプローチに基づくがんゲノム解析パイプラインの開発」
14:55-15:30 近藤宇智朗(udzura)
GMOペパボ株式会社 技術部技術基盤チーム
「コンテナランタイムとアーキテクチャを新規に開発した結果、見えてきた世界について」
15:30-15:40 日本マイクロソフト
「Microsoft Azure 事例紹介 (仮)」
15:40-16:00 休憩&ミキサー
16:00-16:15 奥野 慎吾
エクストリーム-D株式会社 取締役CTO
「XTREME-Dが提供するクラウドHPCサービス」
16:15-16:50 政谷好伸
国立情報学研究所 クラウド基盤研究開発センター
「NIIでの計算機環境の運用及び、Literate Computing(for reproducible infrastructure)について」
16:50-17:25 佐藤仁
国立研究開発法人産業技術総合研究所 人工知能研究センター
「AI橋渡しクラウド(ABCI)における高性能計算とAI/ビッグデータ処理の融合」
17:25-17:45 休憩&ミキサー
17:45-17:55 振り返り、質疑応答
17:55-18:00 クロージング

二階堂愛
国立研究開発法人理化学研究所 生命機能科学研究センター バイオインフォマティクス研究開発ユニット

懇親会

講演は、発表30分、質疑応答、演者交代を含めて5分、トータル35分予定です。

休憩とミキサーの時間を何度か取っておりますので、交流や議論などを深めていただければと思います。終了後、懇親会を行いたいと思っております。

これまでの活動

Twitterハッシュタグ: #hpcopsjp

2018年度からの理研バイオインフォマティクス研究開発ユニット

理化学研究所情報基盤センターが2018年3月31日でクローズし、事務部門主体の情報システム部へと改組されます。それに伴い、バイオインフォマティクス研究開発ユニットは、2018年4月よりスタートする理研の新センターである、理化学研究所 生命機能科学研究センターに所属が異動になります。

また、二階堂ユニットリーダーが、PIを兼任していた理化学研究所多細胞システム形成研究センター 一細胞オミックス研究ユニットは、バイオインフォマティクス研究開発ユニットへと発展的に統合され、さらなる研究を推進していきます。これにより、それぞれの研究室が持っていた研究ミッションが新センターへと引き継がれます。

研究拠点は、引き続き、和光キャンパスと神戸キャンパスにまたがった、2拠点体制となります。2018年度中には、ウェットの実験室と研究チームは神戸へ異動となります。バイオインフォやITに関わる研究チームは和光キャンパスか神戸キャンパスを自由に選べる、という体制になります。

研究テーマは、これまで通り「生命の情報」を計測技術・情報科学の両面から理解することを目標とし、そのための様々な技術の研究開発していきます。実験技術の開発はよりユーザーが近い神戸キャンパスで開発の連携を深めます。スパコン・クラウドの利活用は、これまで以上に情報システム部と連携を深めて、和光キャンパスにて研究開発を進めます。バイオインフォマティクス研究は両拠点で実施します。

高精度で低コストなハイスループット1細胞RNA-seq法Quartz-Seq2の論文が出版

大量の1細胞由来RNAを網羅的、高精度かつ低コストで計測する高出力型1細胞RNAシーケンス法「Quartz-Seq2(クォーツ・セックツー)」を開発し、論文が出版されました。以前プレプリントを公開していた論文です(参考: 高精度で低コストなハイスループット1細胞RNA-seq法Quartz-Seq2の論文が出版, 2017/07/05)

私たちの体は、数百種類の細胞が適切に混ざり合って構成されています。体の臓器が数十年にわたって正常に働くためには、必要な細胞を必要なだけ供給する幹細胞が必要ですが、臓器には幹細胞がごくわずかしか含まれていません。多種多様な細胞集団や希少な細胞の機能を理解するためには、一つ一つの細胞の特徴を調べる必要があります。その方法として、1細胞ごとにRNAの種類と量を計測する「1細胞RNAシーケンス法(1細胞RNA-seq)」があります。たくさんの細胞で正確に1細胞RNAシーケンスを実施できれば、細胞の状態を正確に計測できます。これまで、大量の1細胞からRNAの種類と量を計測する高出力型1細胞シーケンス法が開発されてきましたが、非高出力型の従来法と比べて、50~60%程度の遺伝子しか捉えられず、希少な細胞の状態を類推することが困難でした。

今回、我々は、高い検出遺伝子数と低コストを両立した、高出力型1細胞シーケンス法「Quartz-Seq2」を開発しました。Quartz-Seq2は、市販の高出力型1細胞RNAシーケンス法とほぼ同等のコストながら、200~240%の遺伝子数を検出しました。またQuartz-Seq2を利用し、胚性幹細胞(ES細胞)・分化細胞の計4,500個において、数個の希少細胞を検出することに成功しました。さらに、間葉系幹細胞が含まれる約1,000個のマウス脂肪組織から取り出した細胞を1細胞RNAシーケンスしたところ、間葉系幹細胞には2種類の幹細胞が含まれることが分かり、それぞれの細胞機能の違いを類推することができました。

本成果は、細胞分化や臓器・器官発生などの基礎研究から、再生医療における移植細胞の有効性・安全性評価など、様々なライフサイエンスの研究分野の発展に貢献すると期待できます。

Yohei Sasagawa, Hiroki Danno, Hitomi Takada, Masashi Ebisawa, Tetsutaro Hayashi, Akira Kurisaki, Itoshi Nikaido. Quartz-Seq2: a high-throughput single-cell RNA-sequencing method that effectively uses limited sequence reads. Genome Biology. 2018.

以下にプレスリリースが公開されています。

第1回 HPC OPS 研究会のお知らせ

第1回 HPC OPS研究会

概要

HPC OPS(えいちぴーしー おぷす)研究会は、自然科学研究の成果を最大化するための科学計算環境についての研究会です。研究時間やコストを低下させ、本来の研究活動に時間を割けられるよう科学計算環境の開発運用のノウハウを共有します。また、そのような計算環境そのものを研究開発したり、提供する研究者や技術者との交流を目指します。

具体的な技術としては、コンテナ型仮想計算やクラウドでのHigh Performance Computing への応用や、DevOps による科学計算環境の自動構築、データ解析ワークフローエンジンの実装、最適なオンプレミスPCクラウタの運用構築などについて議論します。産学官などの垣根を越えて、クラウドやDevOps, HPCに関わる技術者や科学者などからの参加を広く募集します。

  • 日時:2018年3月13日、13時30分-18時
  • 場所:日本マイクロソフト (品川)、31階セミナールーム(C+D)
  • 参加申し込み: support-bayes at riken dot jp へご連絡だください。3月8日13:00まで。延長しました。3月12日月曜日 13:00 まで。(席が埋まりましたらその前に締め切らせていただくことがあります)。
  • 主催: 理化学研究所. 協賛: 日本マイクロソフト

プログラム

時間 内容
13:00-13:30 受付
13:30-13:40 オープニング

二階堂愛
国立研究開発法人理化学研究所 情報基盤センター バイオインフォマ
ティクス研究開発ユニット 「研究生産性を向上させるためのHPC OPS」

13:40-13:45 諸注意など
石井学
国立研究開発法人理化学研究所 情報基盤センター バイオインフォマ
ティクス研究開発ユニット
13:45-14:10 大田 達郎
大学共同利用機関法人 情報・システム研究機構 データサイエンス共同利用基盤施設 ライフサイエンス統合データベースセンター「DBCLSでのコンテナ・クラウド活用紹介」
14:10-14:35 澤登亨彦
HiganWorks合同会社 .モビンギ株式会社「Dockerコンテナをつかったホスティングサービスと用途別コンテナイメージの話」
14:35-14:45 中田寿穂
日本マイクロソフト株式会社パブリックセクター事業本部
クラウドアーキテクト「HPC on Azure」
14:45-15:05 休憩&ミキサー
15:05-15:20 柴田 直樹
エクストリーム-D株式会社 CEO, High Performance Cloud Architect クラウドスパコン構築運用自動化サービス「XTREME-DNA」
15:20-15:45 竹房あつ子
国立情報学研究所 アーキテクチャ科学研究系「クラウドでのアプリケーション環境構築・管理を支援するオンデマンドクラウド構築サービス」
15:45-16:10 松嶋明宏
国立研究開発法人理化学研究所 情報基盤センター バイオインフォマ
ティクス研究開発ユニット「科学技術計算用クラスタへのDocker導入と運用」
16:10-16:35 笠原雅弘
東京大学 大学院新領域創成科学研究科 メディカル情報生命専攻
「最先端のゲノム解析で使いたい理想のコンテナ仮想化を考える」
16:35-16:55 休憩&ミキサー
16:55-17:50 ディスカッション
17:50-18:00 クロージング
懇親会

講演は、発表20分、質疑応答、演者交代を含めて5分、トータル25分予定です。

休憩とミキサーの時間を何度か取っておりますので、交流や議論などを深めていただければと思います。終了後、懇親会を行いたいと思っております。

ディスカッションの話題としては、以下のようなものを考えております

  • パブリッククラウドやプライベートクラウドの利活用
  • コンテナ型計算環境
  • Reproducibility, バックアップ
  • HPC, ジョブスケジューラ, DevOps、セキュリティ
  • 産官学連携、他研究分野との交流、情報交換など

これまでの活動

ハッシュタグ: #hpcopsjp

追記: プレゼンに利用したスライドをを演題タイトルからリンクしました (2018/03/15)

[論文]1細胞完全長トータルRNAシーケンス法RamDA-seqを発表

これまで検出が難しかった多様なRNA[1]の発現量と完全長を1細胞で計測できる「1細胞完全長トータルRNAシーケンス法『RamDA-seq』」を開発し、論文発表しました。

細胞の多様性は、ゲノムにコードされた数万の遺伝子領域から転写されるRNAの種類や量によって決まります。そのため、一つ一つの細胞の中に存在するRNAの種類と量が分かれば、どの遺伝子がどのくらい働いているかが分かり、細胞や臓器の状態・機能をより深く理解できます。1細胞に含まれるRNAの種類と量を網羅的に計測する技術は、「1細胞RNAシーケンス法(1細胞RNA-seq)」と呼ばれます。最近、非ポリA型RNA[4]が細胞分化や疾患に関与することが明らかになり、大きな注目を集めています。しかし、既存の1細胞RNA-seqでは非ポリA型RNAが検出できないため、非ポリA型RNAが細胞の中で機能していたとしても見逃してしまうという問題がありました。加えて、従来法にはRNAの全長が計測できずに途中で欠損する問題もありました。そのため、ゲノムDNAから転写された全てのRNAについて、ポリA型・非ポリA型を問わず、全長を偏りなく計測するために、新しい技術を開発する必要がありました。

今回、研究チームは、林センター研究員が新たに開発した核酸増幅法RT-RamDA法とランダムプライミング法を組み合わせ、「1細胞完全長トータルRNAシーケンス法『RamDA-seq』」を開発しました。従来法との性能比較の結果、RamDA-seqは非ポリA型RNAを含む約2倍の遺伝子種を精度よく検出でき、どんなに長いRNAでもほぼ全長の配列を計測できることを確認しました。また、マウス胚性幹細胞(ES細胞)[7]を用いた検証の結果、従来法では計測できなかったヒストンmRNA、長鎖ノンコーディングRNA(lncRNA)のNeat1、エンハンサーRNAといった非ポリA型RNAの細胞間での変動を計測できました。さらに、30万塩基を超える非常に長い新生RNAを捉えられました。

本成果は今後、細胞分化や臓器・器官発生などの基礎研究から、再生医療における移植細胞の安全性評価、血中循環腫瘍細胞など希少細胞集団の診断マーカーの開発まで、あらゆるライフサイエンスの研究分野の発展に貢献すると期待できます。

本研究は、英国のオンライン科学雑誌『Nature Communications』(2月12日付け)に掲載されました。

Tetsutaro Hayashi*, Haruka Ozaki*, Yohei Sasagawa, Mana Umeda, Hiroki Danno and Itoshi Nikaido. Single-cell full-length total RNA sequencing uncovers dynamics of recursive splicing and enhancer RNAs. Nature Communications. 2018.

より詳細なプレスリリースは以下からご覧頂けます。

1細胞から多種多様なRNAのふるまいを計測 -1細胞完全長トータルRNAシーケンス法の開発に成功-