ゲノム科学研究に必要とされる事前知識

我々のラボに見学を希望される方や配属される方から、事前にどのような勉強をすればよいか、とよく聞かれます。ここでは我々のラボで研究するうえで役に立つ知識を自習できる教材について書きます。

大学の教養で習う程度の分子生物学・細胞生物学・計算科学・情報科学・統計科学のいずれか1つを身につけていることが前提です。

統計科学については、ウェットメインのテーマで研究するには統計検定2級程度、ドライのテーマで研究するには統計検定準1級、または、ディープラーニング検定E資格程度の知識・スキルが必要になります(資格そのものが必須なわけではありません)。

計算機

  • Linux標準教科書: 無料のLinuxの教科書。ゲノム科学のデータ解析はLinux/Unixで行います。基本的なLinuxの知識が勉強できます。
  • Linuxサーバー構築標準教科書: 6.3 「sshによるリモートログイン」と1.6「RAID」のみ読んでください
  • Linuxセキュリティ標準教科書: windowsのかたのみ6.3 サーバへの接続(Windows+Tera Term)を読んでください。Macの場合はOSに含まれている terminal.appを利用してください
  • 高信頼システム構築標準教科書 (以下の部分だけ)
    • 4.3 サーバ間のデータの同期(rsync)
    • 4.4 NAS 共有ストレージ(NFS)
    • 7章 システム監視の7.1から7.2まで
    • 10章 サーバの仮想化
    • 11章 仮想サーバを構築する(Xen 編)の11.1のみ
    • 12章 仮想サーバを構築する(KVM 編)の12.1のみ
  • HPC (high-performance computing) / Cloud Computing / 仮想計算機
    • Univa Grid Engine (UGE) 利用法: 共用計算機でのジョブ管理システムの利用法。我々のラボではOGSやSlurmを使っていますが参考になります。
    • AWSによるクラウド入門: クラウドやコンテナ、サーバレスなどが学べます。機械学習が例になっておりデータ解析のためにクラウドを利用する方法が理解できます。
    • プログラマのためのDocker教科書: 解析ソフトウェアはホストOSに直接インストールせずにdockerで実行します。そのための知識が得られる本です。

これらの教材は読むだけでなく実際に手元の計算機で再現してみることが重要です。うまくいかない場合はよく調べたあと、SNSに著者らがいますので質問してみましょう。

プレゼンテーション

必須ではありませんがおすすめする書籍はこちらからみれます。

有用な教材を提供して頂いているみなさまに感謝します。