mdxについて


データ利活用やその社会実装においては複数の分野、複数のセクターでの共同が不可欠です。データを保有・提供できる団体(特に企業や特定分野の研究機関)、課題解決のための個々の分野の専門的知見・蓄積、プログラミング、アルゴリズム、機械学習などの情報科学・データ科学の知見などが、これまで以上に広範に、密に合わさることが必要になっています。

mdxはそのための大きな一歩となるべく、研究機関(大学や研究所; アカデミア)、産業界、自治体などが、分野を越え、データ科学や情報科学の知見、それぞれの分野の知見や文化、データやソフトウェア、それを動かす計算基盤を共有することで、迅速に、密に、効率的に連携できるようにすることをミッションとします。

そのためにまず、NII、AIST、全国の11大学が、これまでの情報科学や情報基盤分野における密な連携体制を基礎として取り組み始めたのがmdxです。

mdxの特徴

mdx1

データ活用社会創成プラットフォーム

「データ活用社会創成プラットフォーム」は、用途に応じてオンデマンドで短時間に構築・拡張・融合できるデータ収集・集積・解析機能を提供するプラットホームを目指します。

  1. SINETを活かし、遠隔地のセンサーやストレージ、データプラットフォームの計算資源、ストレージをつないで、リアルタイムに入力から出力を得られるアプリケーションごとの収集・集積・解析環境を使いたいときに即時に構築します。
  2. 高性能計算環境を整備することでデータ科学、計算科学の手法を融合し、さらに国内最高の計算環境を用いて他に無い高精度の予測をおこなえるようにします。
  3. 様々な分野のデータ保持者、解析者、利用者が産学にまたがって連携するコミュニティーを形成し、新たな価値創造につなげ、データ活用を目指す利用者へのコンサルティングや開発支援を実施します。


mdx2

mdxの構成

mdxでは、仮想化技術を用いてプロジェクトごとに分離された、プライベート環境(仮想プラットフォーム)を提供します。 プライベート環境はプロジェクトごとに柔軟に環境構築・設定が可能で、各プロジェクトに必要なソフトウェアスタックを導入できます。

また、mdx上で、分野データプラットフォームサービスなど、連続稼働が必要なサービスを運用することが可能です。 共通データやオープンデータのmdx上への整備や、有償データの一括契約などを促進し、機械学習やデータマイニングが即座に行える環境を継続的に構築します。


mdx3

SINET5、モバイルSINET

mdxは、SINET L2VPN/VPLSとの連携することで、公共のネットワークを通らずに遠隔の計算機と接続することが可能です。 また、モバイルSINET (SINET広域データ収集基盤)との連携で、遠隔の観測機器、モバイルデバイスとmdxをインターネットを介さずに接続することが可能です。


mdx4

mdx 高性能計算環境

mdxは、データ処理、機械学習、シミュレーションなどでの大規模計算を可能にします。 さらに、ABCIを始めとする超高性能計算機とも連携し、国内トップクラスの高性能計算環境を利用可能にします。 仮想化、ネットワークスイッチでのトラフィックの分離などを併用して、システム及びプロジェクトを多重に保護します。


想定する利用方法

稼働後に想定している利用方法として以下があります。

データレポジトリとして利用

  • 高性能計算環境は用いず、分野データプラットフォームや、共通データを閲覧、検索、ダウンロードする。

大規模データ処理・高性能計算機として利用

  • 分野データプラットフォームが提供するデータ、共通データ、自分で持ち込んだデータを高性能計算環境を用いて処理し、データマイニング、機械学習、シミュレーションなどを行う。大規模データセットを用いた機械学習や多数のデータセットを連携したデータ処理を促進する。

プラットフォームホスティング環境として利用

  • 分野データ整備やそのためのデータプラットフォーム構築をmdx上で行う。分野データプラットフォームの将来に渡る継続性とスケーラビリティを確保する、複数のデータを連携させた処理を促進する。