第1回 HPC OPS 研究会のお知らせ

第1回 HPC OPS研究会

概要

HPC OPS(えいちぴーしー おぷす)研究会は、自然科学研究の成果を最大化するための科学計算環境についての研究会です。研究時間やコストを低下させ、本来の研究活動に時間を割けられるよう科学計算環境の開発運用のノウハウを共有します。また、そのような計算環境そのものを研究開発したり、提供する研究者や技術者との交流を目指します。

具体的な技術としては、コンテナ型仮想計算やクラウドでのHigh Performance Computing への応用や、DevOps による科学計算環境の自動構築、データ解析ワークフローエンジンの実装、最適なオンプレミスPCクラウタの運用構築などについて議論します。産学官などの垣根を越えて、クラウドやDevOps, HPCに関わる技術者や科学者などからの参加を広く募集します。

  • 日時:2018年3月13日、13時30分-18時
  • 場所:日本マイクロソフト (品川)、31階セミナールーム(C+D)
  • 参加申し込み: support-bayes at riken dot jp へご連絡だください。3月8日13:00まで。延長しました。3月12日月曜日 13:00 まで。(席が埋まりましたらその前に締め切らせていただくことがあります)。
  • 主催: 理化学研究所. 協賛: 日本マイクロソフト

プログラム

時間 内容
13:00-13:30 受付
13:30-13:40 オープニング

二階堂愛
国立研究開発法人理化学研究所 情報基盤センター バイオインフォマ
ティクス研究開発ユニット 「研究生産性を向上させるためのHPC OPS」

13:40-13:45 諸注意など
石井学
国立研究開発法人理化学研究所 情報基盤センター バイオインフォマ
ティクス研究開発ユニット
13:45-14:10 大田 達郎
大学共同利用機関法人 情報・システム研究機構 データサイエンス共同利用基盤施設 ライフサイエンス統合データベースセンター「DBCLSでのコンテナ・クラウド活用紹介」
14:10-14:35 澤登亨彦
HiganWorks合同会社 .モビンギ株式会社「Dockerコンテナをつかったホスティングサービスと用途別コンテナイメージの話」
14:35-14:45 中田寿穂
日本マイクロソフト株式会社パブリックセクター事業本部
クラウドアーキテクト「HPC on Azure」
14:45-15:05 休憩&ミキサー
15:05-15:20 柴田 直樹
エクストリーム-D株式会社 CEO, High Performance Cloud Architect クラウドスパコン構築運用自動化サービス「XTREME-DNA」
15:20-15:45 竹房あつ子
国立情報学研究所 アーキテクチャ科学研究系「クラウドでのアプリケーション環境構築・管理を支援するオンデマンドクラウド構築サービス」
15:45-16:10 松嶋明宏
国立研究開発法人理化学研究所 情報基盤センター バイオインフォマ
ティクス研究開発ユニット「科学技術計算用クラスタへのDocker導入と運用」
16:10-16:35 笠原雅弘
東京大学 大学院新領域創成科学研究科 メディカル情報生命専攻
「最先端のゲノム解析で使いたい理想のコンテナ仮想化を考える」
16:35-16:55 休憩&ミキサー
16:55-17:50 ディスカッション
17:50-18:00 クロージング
懇親会

講演は、発表20分、質疑応答、演者交代を含めて5分、トータル25分予定です。

休憩とミキサーの時間を何度か取っておりますので、交流や議論などを深めていただければと思います。終了後、懇親会を行いたいと思っております。

ディスカッションの話題としては、以下のようなものを考えております

  • パブリッククラウドやプライベートクラウドの利活用
  • コンテナ型計算環境
  • Reproducibility, バックアップ
  • HPC, ジョブスケジューラ, DevOps、セキュリティ
  • 産官学連携、他研究分野との交流、情報交換など

これまでの活動

ハッシュタグ: #hpcopsjp

追記: プレゼンに利用したスライドをを演題タイトルからリンクしました (2018/03/15)

[論文]1細胞完全長トータルRNAシーケンス法RamDA-seqを発表

これまで検出が難しかった多様なRNA[1]の発現量と完全長を1細胞で計測できる「1細胞完全長トータルRNAシーケンス法『RamDA-seq』」を開発し、論文発表しました。

細胞の多様性は、ゲノムにコードされた数万の遺伝子領域から転写されるRNAの種類や量によって決まります。そのため、一つ一つの細胞の中に存在するRNAの種類と量が分かれば、どの遺伝子がどのくらい働いているかが分かり、細胞や臓器の状態・機能をより深く理解できます。1細胞に含まれるRNAの種類と量を網羅的に計測する技術は、「1細胞RNAシーケンス法(1細胞RNA-seq)」と呼ばれます。最近、非ポリA型RNA[4]が細胞分化や疾患に関与することが明らかになり、大きな注目を集めています。しかし、既存の1細胞RNA-seqでは非ポリA型RNAが検出できないため、非ポリA型RNAが細胞の中で機能していたとしても見逃してしまうという問題がありました。加えて、従来法にはRNAの全長が計測できずに途中で欠損する問題もありました。そのため、ゲノムDNAから転写された全てのRNAについて、ポリA型・非ポリA型を問わず、全長を偏りなく計測するために、新しい技術を開発する必要がありました。

今回、研究チームは、林センター研究員が新たに開発した核酸増幅法RT-RamDA法とランダムプライミング法を組み合わせ、「1細胞完全長トータルRNAシーケンス法『RamDA-seq』」を開発しました。従来法との性能比較の結果、RamDA-seqは非ポリA型RNAを含む約2倍の遺伝子種を精度よく検出でき、どんなに長いRNAでもほぼ全長の配列を計測できることを確認しました。また、マウス胚性幹細胞(ES細胞)[7]を用いた検証の結果、従来法では計測できなかったヒストンmRNA、長鎖ノンコーディングRNA(lncRNA)のNeat1、エンハンサーRNAといった非ポリA型RNAの細胞間での変動を計測できました。さらに、30万塩基を超える非常に長い新生RNAを捉えられました。

本成果は今後、細胞分化や臓器・器官発生などの基礎研究から、再生医療における移植細胞の安全性評価、血中循環腫瘍細胞など希少細胞集団の診断マーカーの開発まで、あらゆるライフサイエンスの研究分野の発展に貢献すると期待できます。

本研究は、英国のオンライン科学雑誌『Nature Communications』(2月12日付け)に掲載されました。

Tetsutaro Hayashi*, Haruka Ozaki*, Yohei Sasagawa, Mana Umeda, Hiroki Danno and Itoshi Nikaido. Single-cell full-length total RNA sequencing uncovers dynamics of recursive splicing and enhancer RNAs. Nature Communications. 2018.

より詳細なプレスリリースは以下からご覧頂けます。

1細胞から多種多様なRNAのふるまいを計測 -1細胞完全長トータルRNAシーケンス法の開発に成功-

[論文]CHARGE症候群原因遺伝子CHD7の機能解析にQuartz-Seqが貢献

慶應義塾大学医学部生理学教室の岡野栄之教授、神山淳准教授、MuhChyi Chaiさん、佐野坂さんらとの共著論文が出版されました。

MuhChyi Chai, Tsukasa Sanosaka et al. Chromatin remodeler CHD7 regulates the stem cell identity of human neural progenitors. Genes Dev. February 9, 2018

CHARGE症候群の原因遺伝子CHD7が、ヒト中枢神経系神経前駆細胞の性質維持に関連しているという報告です。前駆細胞の一部が、神経堤様前駆細胞に分化転換していました。我々が2013年に開発した1細胞RNA-seq法 Quartz-Seqが使われています。

慶應大の岡野研は、うちのラボからQuartz-Seqを導入して、自分らで実施できるようになりました。岡野先生と神山さんの素晴しいマネジメントのもと、優秀なテクスタさんが、いつでもデータが出せる状態になっていて、今回の論文に結びつきました。我々の方法の再現性が高いことを示して頂き、感謝です。

今回の論文は、疾患iPS細胞、ゲノム編集、エピゲノム、1細胞RNA-seqと最新技術を駆使しまくりでの希少疾患メカニズム解明でした。その一端を担えたことを誇りに思います。このようなメディカルサイエンスも含む多様なテーマで貢献できるのが、技術開発の醍醐味。First authorのひとりであるMuhChyi Chaiさんも、この論文で博士号を取得できるとのこと。おめでとうございます

少し裏話をしますと、なにげに、今回の論文で使っている方法は、ただのQuartz-Seqではなく、未発表の96ウェルベースQuartz-Seqだったりします。ライブラリプレップ報もLIMprep(ライゲーション)でなく、Nextera を使うという、幻のバージョンです。我々のラボではQuartz-Seq Nextというコードネームが付いていました。

Quartz-Sea Nextを発表しなかったのは、たくさんの細胞が実施できるQuartz-Seq2と、そろそろpublishになる1細胞完全長Total RNA-seq開発に集中したからです。このような形で、Quartz-Seq Nextが世に出てくれたことは、我々としても非常に嬉しいことです。

露崎さんのHeterogeneous Information Networkについての論文が採択

HeteroNAM’18/WSDM2018に、特別研究員の露崎弘毅さんの以下の論文が採択されました。

Koki Tsuyuzak and Itoshi Nikaido. Biological Systems as Heterogeneous Information Networks: A Mini-review and Perspectives. HeteroNAM’18. WSDM2018. 2018.

生命科学のデータは、ゲノム、RNA、タンパク質、表現型など様々な階層に渡り、複雑で多様なデータ構造を扱います。生命科学分野でのデータ解析では、これらのデータを統合的に解析する手法の確立が大きな課題となっています。一方、機械学習の分野では、Heterogeneous Information Network (HIN) という分野で、このような複雑なデータを統合的に解析する手法が発達しつつあります。

HINは、あらゆるデータを頂点(ノード)と枝(リンク)からなる「グラフ」と捉え、ノード同士の繋りを行列やテンソルとして表現します。これにより異なる種類のデータ同士を連結できます。このようなHINは、1. Prioritization、2. Missing-Link、3. Cross-Domain の解析ができるという良い性質があります。

本論文では、生命科学のデータ解析とHINについてのレビューと展望を述べました。まず、複雑で多様な生命科学データが、HIN として捉えられることを指摘しました。また、これまで生命科学でGuilt-By-Associationと呼ばれて活用されていた解析手法が、HINとして捉えられることを示し、これまでの手法との関連を網羅的に整理しました。さらに、生命科学分野でのHINによるデータ統合について、今後の展望を議論しました。特に、1細胞レベルでマルチオミックスが得られた際のデータ統合に利活用できるということを提言しました。

ConBio2017で5つの講演があります

2017年12月6-9日に神戸で行われる生命系学会合同年次大会(ConBio2017)では、我々のラボから、1つのシンポジウム、3つのワークショップにて講演があります。

0. 2017年12月6日(水) 09:00 〜 11:30 第1会場 (神戸ポートピアホテル 本館 地下1階 偕楽1)
[1AW01] いかにして「使える」データベースを維持し続けるか?
10:54 〜 11:12 [1AW01-6] データベースとデータ解析の融合 ~なぜデータベースは必要か~
〇露崎 弘毅1 (1.理研・情報基盤・バイオインフォ)

1. 2017年12月7日(木) 09:00 〜 11:30 第14会場 (神戸国際会議場 3階 国際会議室)
シンポジウム[2AS14] シングルセル解析が切り開く薬理学の新潮流
オーガナイザー:成田 年(星薬科大学)、オーガナイザー:山中 章弘(名古屋大学)
09:33 〜 10:01 [2AS14-2] RamDA-seq: あらゆるRNAの全長を1細胞レベルで検出するRNAシーケンス法
〇二階堂 愛1(1.理研・情セ・バイオインフォ)

2. 2017年12月8日(金) 09:00 〜 11:30 第5会場 (神戸ポートピアホテル 本館 地下1階 菊水)
ワークショップ[3AW05] 分子生物学的アプローチによる運動器研究の新展開
オーガナイザー:乾 雅史(明治大学)、オーガナイザー:早田 匡芳(筑波大学)
11:05 〜 11:25 [3AW05-7] 高出力1細胞トランスクリプトーム解析の展開と多細胞生物学
〇團野 宏樹1、笹川 洋平1、二階堂 愛1(1.理研・情報基盤・バイオインフォマティクス)

3. 2017年12月8日(金) 16:00 〜 18:30 第15会場 (神戸国際会議場 3階 レセプションホール)
[3PW15] ゆらぎが担う器官発生のしくみ
オーガナイザー:髙里 実(理化学研究所)、オーガナイザー:栗崎 晃(奈良先端科学技術大学院大学)
16:00 〜 16:25 [3PW15-1] 1細胞トータルRNAシーケンス法は、発生生物学の「ゆらぎ」解析にパラダイムシフトをもたらすのか?
〇林 哲太郎1、尾崎 遼1、笹川 洋平1、團野 宏樹1、梅田 茉奈1、二階堂 愛1(1.理研・ACCC・バイオインフォマティクスU)

共同研究者からの一般口頭発表もあります。

4. 2017年12月9日(土) 16:15 〜 17:45 第16会場 (神戸国際会議場 4階 401+402)
一般口頭発表 | 7. 発生・再生 | 発生・再生(一般口頭発表)
[4P2T16] 発生・再生 Ⅴ
座長:谷水 直樹(札幌医科大学)、座長:松井 貴輝(奈良先端科学技術大学院大学)
16:55 〜 17:05 [4P2T16-05(3P-0817)] 毛包幹細胞の起源と誘導メカニズムの解明
〇森田 梨津子1、三千 典子1、林 哲太郎2、梅田 茉奈2、芳村 美佳2、二階堂 愛2、阿部 高也3、清成 寛3,4、古田 泰秀3,4、藤原 裕展1(1.理化学研究所、2.理化学研究所、3.理化学研究所、4.理化学研究所)

Biocloud Hackathon 2017

ライフサイエンス分野でのパブリッククラウド利用を目指したハッカーソンを実施します。

開催趣旨:
ライフサイエンス分野では、大量のデータを出力するDNAシーケンサーや顕微鏡などの進歩により、大量のデータを解析し、可視化し、共有する必要が出てきました。また、このようなデータが公的データベースで大量に提供されており、これらのオープンデータと、自身のデータを比較しなければ、研究ができなくなってきています。

様々なデータを解析するためには、様々なプログラムと計算機、データベースを複雑に組み合わせで実現しなければなりません。さらに、このようなデータがいつどのぐらい出力されるかは、不確定な生物実験の進捗に強く依存するため、事前に計算量の見積りが困難で、計算機の確保や計算環境の構築が困難になります。このような背景から、ライフサイエンス分野での科学計算が高度化し、再現のある計算が困難になりつつあります。

これらの問題を解決するために、いつでも自由に柔軟に計算リソースを仮想的に確保し、ソフトウェア環境を再現良く確保できるパブリッククラウドの利用が注目されつつあります。そこで、ライフサイエンス分野でクラウドを利用し、研究を促進できるか、実際に体験するハッカーソンを実施します。ライフサイエンス分野の様々な分野からの参加を歓迎します。

日時: 12月16-17日 (土、日)
場所: 品川、日本マイクロソフト本社 会議室
参加申し込み: support-bit at riken dot jp へご連絡だください。
企画書: バイオクラウドハッカーソン2017企画書

プログラム:
12/16 (土)
10:00 MS Azureの説明
11:00 Lighting Talk
13:00- ハッカーソン
17:30- プログレス発表

12/17 (日)
10:00-12:00 ハッカーソン
13:00-16:00 ハッカーソン
17:00-18:00 プログレス発表
18:00-18:10 Closing Remarks

主催:
理化学研究所バイオインフォマティクス研究開発ユニット / 日本マイクロソフト

研究生産性を高めるITツール活用事例の取材を受けました

限られたリソースを最大限に活かして研究効率を最大化するために、ITツール利用した工夫を行っていますが、そのさわりの部分を、リクルートのHRナビさんが紹介してくれました。アカデミア外の人に向けた書かれています。

「Slack」や「Qiita:Team」を理化学研究所が導入したら、チームがぐっと良くなった話

高精度で低コストなハイスループット1細胞RNA-seq法Quartz-Seq2の論文を公開

Single-cell RNA-sequencing は、組織・臓器に含まれる細胞亜集団を発見したり、細胞分化の仕組みの解明に貢献しています。しかし、計測できる細胞数や遺伝子数に限りがありました。

そこで我々は、Cell barcoding, Molecular barcoding 技術と、改良された高効率の PolyA tagging 技術により、高い精度を保ちつつ、低コストな1細胞RNA-seq法Quartz-Seq2の開発に成功しました。Quartz-Seq2は、384ウェルプレートとCell sorterを利用して、1細胞を採取した後、バーコード技術により1細胞やRNA分子を標識した後、1本のチューブに混合し、シーケンスライブラリを作製します。これにより数千の1細胞RNA-seqを実施できます。1細胞のシーケンスコストは、わずか76円程度になりました。

論文の preprint を bioRxiv で公開しています。

Quartz-Seq2: a high-throughput single-cell RNA-sequencing method that effectively uses limited sequence reads

国際学術誌への投稿を済ませており、現在、査読・改訂が行われています。

RNA-seq blogで取り上げられました。

[追記]
Quartz-Seq2の論文が出版されました。

NGS現場の会第五回研究会での発表

NGS現場の会第五回研究会にて、我々のラボから複数の発表があります。ぜひお立ち寄りください。

口頭発表

  1. 團野宏樹. 高出力1細胞トランスクリプトーム解析と多細胞生物学
  2. 笹川洋平. Flow cytometryを用いた高出力1細胞RNA-seq 法Quartz-Seq2の開発とそれを支えるKAPA Hyper Prep

ポスター発表 (ライトニングトーク)

  1. 1細胞RNA-seqの実験手法に関する発表
    1. 林哲太郎. 完全長を捉える新規1細胞トータルRNAシーケンス法の開発
    2. 梅田茉奈. RamDA-seq法を用いた1細胞完全⻑トータルRNAシーケンスのライブラリー作製ワークフロー
  2.  NGSデータ解析手法に関する発表
    1. 尾崎遼. ⼀細胞エンハンサーRNA解析でエンハンサーのゆらぎを捉える
    2. 露崎弘毅. 超大規模1細胞RNA-Seqデータ解析のためのオンライン型主成分分析法の開発
    3. 松本拡高. 空間、1細胞RNA-seq、重ねて
    4. 芳村美佳. コンテナ仮想とデータ解析フレームワークを用いた
柔軟で再現性のある1細胞RNA‒Seqデータ解析環境の構築
  3. NGSデータ解析インフラに関する発表
    1. 石井学. パブリッククラウドを利用した容易で再現性のあるNGSデータ解析環境構築
    2. 松嶋明宏. コンテナ型仮想化技術を用いたNGSデータ解析環境の構築と運用
  4. 我々が実験やデータ解析の協力をした共同研究者の発表
    1. 森田梨津子. 毛包幹細胞の起源と誘導メカニズムの解明を目指して
    2. 岩本 一成. スーパーエンハンサーを介した転写因子NF-κBの遺伝子発現制御機構の解明