人文学デジタルデータの長期保存プロセスを自動化する
mdx利用事例 CASE 8

人文学デジタルデータの
長期保存プロセスを自動化する

研究の現場では日々大量のデータが生み出され、所蔵史料などのデジタル化も進んでいます。データをデジタルアーカイブで公開する動きも盛んになってきました。しかし短期間で公開が中止される場合もあり、デジタルデータを長期にわたって利用可能な状態で保存することが、重要な課題となっています。
そこで、東京大学史料編纂所の中村 覚 助教らは、mdxを活用してデジタルデータの長期保存プロセスを自動化するシステムの開発に取り組んでいます。デジタルデータの長期保存に関する現状と課題、mdxを選んだ理由などについて、システム開発に携わる皆さんにお話を伺いました。
中村 覚 氏 中村 覚
NAKAMURA Satoru
東京大学 史料編纂所 助教 

専門は人文情報学。博士(環境学)。東京大学大学院新領域創成科学研究科人間環境学専攻博士課程修了。東京大学情報基盤センター助教などを経て、2020年より現職。
金 甫榮 氏 金 甫榮
KIM Boyoung
(取材時)渋沢栄一記念財団  デジタルキュレーターアーキビスト 

専門はアーカイブズ学。修士(アーカイブズ学)。学習院大学大学院人文科学研究科アーカイブズ学専攻博士前期課程修了。東芝未来科学館広報アーカイブズを経て、2015年より渋沢栄一記念財団。現在は、立教大学兼任講師、東京大学史料編纂所共同研究員。東京大学大学院学際情報学府博士後期課程に在籍。
南山 泰之 氏 南山 泰之
MINAMIYAMA Yasuyuki
情報・システム研究機構 国立情報学研究所 
オープンサイエンス基盤研究センター 特任助教

専門は図書館情報学、知能情報学。博士(情報学)。総合研究大学院大学複合科学研究科情報学専攻博士課程修了。情報・システム研究機構国立極地研究所情報図書室、東京財団政策研究所政策データラボデータ・ライブラリアンなどを経て、2022年より現職。

デジタルデータを100年後も使えるように保存する


── 人文学デジタルデータの長期保存プロセスの自動化に取り組んだ背景を教えていただけますか。

中村:私が所属している東京大学史料編纂所では、古代から明治維新期に至る前近代日本史関係の史料を収集し、研究しています。また、史料集の編纂や出版も行っています。収集した史料をデジタル化して保存する取り組みも進行中です。これまでにデジタル化した史料は2000万件を超えています図1。それらはデジタルアーカイブとして公開していますが、100年後も研究対象として利用できるデータとして保存する必要があります。そのため、デジタルデータをどのように長期保存すればよいのか、その方法を検討する必要がありました。

図1 東京大学史料編纂所のデータベース
図1 東京大学史料編纂所のデータベース
南山:私は国立情報学研究所で研究データ管理の基盤づくりに携わっています。デジタルデータを大学や研究機関が適切に管理し、長期保存しなければいけないという流れは、人文学に限らずアカデミア全体に広がっています。しかし、その実務的な方法については、国内での議論がまだ少なく、各機関とも手探りで行っている状況です。人文学デジタルデータにおける取り組みを汎用化していくことで、大学や研究機関における実践の確立につなげたいと考えています。

金:私はアーカイブズ学が専門で、博物館や図書館、アーカイブズ機関に関連する仕事をしています。これまで、博物館や図書館では紙などの物理的な資料を保存してきましたが、保存の対象がデジタルデータに変わり、それをどのように長期保存するかが大きな課題となっています。

デジタルデータを長期保存するための国際標準の一つにOAIS参照モデルがあります。これは、デジタルデータを長期保存するシステムに必要な機能と情報を概念的なレベルで定義するものです。しかし、OAIS参照モデルに準拠したシステムを構築するには専門知識が必要となり、容易には実現できません。

中村:そうした状況を踏まえ、私たちが注目したのは、Archivematica(アーカイブマティカ) ※1 ※1 Archivematica
デジタル資産の長期保存を目的としたオープンソースのソフトウェア。国際標準(OAIS、PREMIS、METSなど)に基づき、デジタル資料の取り込み、フォーマット変換、メタデータ管理、保存を自動化する。図書館・文書館・博物館・研究機関で活用され、AtoM(Access to Memory)などのリポジトリと連携して、デジタルアーカイブの管理・公開を支援する。
https://www.archivematica.org/
というオープンソースのソフトウエアです。Archivematicaを使用すれば、OAIS参照モデルに従ったデジタルデータの長期保存と管理が可能です。私たちは、Archivematicaをmdxで動かし、人文学デジタルデータの長期保存プロセスの自動化を目指しました。

自動で長期保存のための情報パッケージを作成


── どのようなシステムを構築したのですか。

中村:使いやすいシステムにするには、入り口が重要です。試行錯誤の末、国立情報学研究所が提供しているGakuNin RDMを利用することにしました。GakuNin RDMは、研究者が研究データや関連資料を管理・共有するための研究データ管理サービスです。ユーザーは保存したいデジタルデータをGakuNin RDMにアップロードします。アップロードされたデータは、mdxのオブジェクトストレージに保存されます。図2

次に、オブジェクトストレージに保存されたデジタルデータに対してArchivematicaの処理を実行します。すると、mdxの仮想マシンで処理が進行し、長期保存に必要な情報パッケージが作成され、mdxのオブジェクトストレージに格納されるという流れになっています。作成された情報パッケージは、mdxのオブジェクトストレージにそのまま保存することも、ダウンロードして別のストレージに長期保存することも可能です。

図2 人文学デジタルデータの長期保存プロセス自動化システムの流れ
図2 人文学デジタルデータの長期保存プロセス自動化システムの流れ
金:Archivematicaでは、データのフォーマットを識別し、長期保存に適したフォーマットに変換したり、ファイル名を変更したり、ウイルスチェックを実施するなど、データを長期にわたり使用できるようにするためのさまざまな処理が行われます。その処理過程は全て記録されます。デジタルデータの長期保存においては、データの真正性と完全性を維持しなければなりません。どのような処理が行われたかを記録することは、データの真正性と完全性を証明するために不可欠です。

Archivematicaは、デジタルデータの長期保存と管理を行うソフトウエアとしてメジャーなものですが、複雑な設定が必要で、実際に使用するには専門知識が求められます。私たちのシステムでは、Archivematicaの設定が自動で行われるようにしました。ユーザーは、オブジェクトストレージや仮想マシンにアクセスする必要もなく、GakuNin RDMにアクセスするだけで、専門知識がなくてもデジタルデータの長期保存に必要な情報パッケージを自動で作成できるのです。

中村:情報パッケージを自動で作成できることは大きなメリットですが、パッケージの中身がどのようになっているのか気になる場合もあるでしょう。そのため、GakuNin RDMの解析機能を利用し、パッケージに含まれるファイルの種類や、作成過程で行った処理内容を可視化できる機能も構築しています。

日本の大学・研究機関ではデジタルデータの長期保存はまだあまり行われていません。GakuNin RDMとmdxを利用した長期保存プロセスの自動化システムは画期的な試みです。
── 南山泰之 氏
南山泰之 氏

長期保存に関する活動の裾野を広げる


── このシステムの開発は、現在どのような段階ですか。

金:現在はプロトタイプの段階で、東京大学史料編纂所のデータを用いて検証を進めています。具体的には、Archivematicaが作成した情報パッケージの中身を分析し、長期保存に適した情報が全て含まれているかを確認しました。その結果、いくつかの課題が明らかになりました。

情報パッケージにどの情報を入れるかによって、長期保存されるデータの質が大きく変わります。パッケージに入れる情報の選択が一番難しいのが、人文学データです。

いつ、どこで、どのような条件で作成されたかといったデータに関する情報を、メタデータと呼びます。データを長期保存する際にはメタデータも一緒に保存する必要があります。しかし、人文学データには、公開を前提としないで作成されたものが多く、例えば日記や手紙などには、いつ、どこで、なぜ作成されたかといった情報が残っていなかったり、公開できない情報が多く含まれていたりします。そうしたデータを100年後にも研究に使えるようにするには、どの情報をパッケージに入れるべきか、その選択が重要になります。現在は人が判断するしかなく、時間と手間がかかっているため、その解決が課題の一つです。

── 人文学系と理工学系では、データの長期保存に違いがあるのでしょうか。

中村:人文学のデータは、可能な限り元の形を維持して保存することが求められます。特に歴史研究などの分野では、例えば100年前の史料をもとに研究を行うことがあります。このような史料は一度失われると復元が困難であり、原本または忠実なデジタルコピーの保存が重要です。デジタルデータの長期保存は、人文学系・理工学系を問わず重要ですが、人文学では研究対象そのものがデータとして残る必要があるため、その課題がより顕著になる傾向があります。

南山:人文学系のデータは、古い一点物の史料も多く、研究対象にできる現物の数は限られているため、それをいかに正確かつ精緻にデータ化して保存するかが重要です。一方、理工系のデータは測定対象が現物に限られないため、データの取り方が変わってきます。例えば自然現象の観測では、1秒ごとの時系列データが大量に出てきます。1つのファイルサイズがGB、TB単位になることもあり、長期保存の際には処理速度やストレージ先の検討も必要です。

── 人文学デジタルデータの長期保存プロセスを自動化するシステムの構築には、どのような意義があるとお考えですか。

南山:海外の大規模大学では、デジタルデータの長期保存のためのシステムが整備されています。一方、日本では、整備の必要性は以前から指摘されていましたが、コストや労力の問題から、手が付けられていませんでした。システム化によって、長期保存プロセスが自動化されれば、デジタルデータの長期保存体制を整備するきっかけになるかもしれません。

金:どの組織でも、日々大量のデータが生成され、それらの長期保存が求められています。しかし、長期保存のための専門知識と技術を持つ人材が、組織にいるとは限りません。その環境で長期保存のためのシステムを独自に構築・運用するのは、とても無理です。もし私たちが試みたような自動化が実践レベルで可能になれば、多くの組織が助かるのではないでしょうか。

中村:スタート時は史料編纂所のデータを対象にしていましたが、このシステムを汎用化すれば、人文学系のほかの機関のデータ、さらには理工学系のデータにも応用できる部分があると思います。また、情報パッケージを作成するソフトウエアをArchivematica以外に置き換えても、ワークフローは使えるでしょう。そうした点でも、このシステムの構築は長期保存に関する活動の裾野を広げるのに役立つと考えています。

人文学系のデータからスタートしましたが、理工学系も含めてあらゆるデータの長期保存に応用できることを目指しています。
── 中村 覚 氏
中村 覚 氏

データ長期保存にとってコストは最重要


── 仮想マシンやオブジェクトストレージに、なぜmdxを選択したのでしょうか。

中村:最初はAmazonのクラウドサービスであるAWSを利用していました。mdxのことは知っていましたが、民間のサービスの方がドキュメントが充実しており使い始めやすかったためです。しかし、データの管理主体が国内にあり、しかも東京大学史料編纂所なので東京大学が運営に携わっているサービスを利用したいと考え、mdxを選びました。

── mdxの利点は、どのようなところだと思われますか。

中村:さまざまな利点がありますが、特に民間サービスと比べて安価に利用できる点が大きな魅力だと感じています。

金:1年や3年といった短期間の利用であれば、多少高くても予算を捻出できるかもしれません。しかし、私たちが想定しているのは50年、100年です。コストが安いことは、非常に重要です。

南山:研究段階では、実運用で想定される可能な限り全てのケースを試し、問題が発生しないかを検証する必要があります。その際も仮想マシンやオブジェクトストレージを使用します。料金が高いからと検証を省いてしまうと、実運用でトラブルが発生する危険性があります。mdxは安価なので、十分な検証を行うことができます。これは、システムの開発において大事なポイントです。

国内にあって、ローコスト。
デジタルデータの長期保存のストレージ先として
mdxの大きな強みだと思います。

── 金 甫榮 氏
金 甫榮 氏
中村:システムを簡単に拡張できる点も、mdxの大きな利点だと思います。人文学系のデータはメタデータを付けるのに労力がかかるという話がありましたが、AIを活用することで一部のプロセスを自動化できるのではないかと考えています。mdxは、その実現に必要な十分な計算能力を備えています。

── mdxを使用した感想や意見をお聞かせください。

中村:私は、くずし字OCRの開発でmdxの仮想マシン(GPUパック)を、またデジタルアーカイブにおける画像公開でmdxのオブジェクトストレージを利用しています。小規模から利用できますし、私にとってmdxはとても使いやすいです。しかし、計算機に詳しくない人にとっては、使い方が分かりにくいかもしれません。

南山:計算速度が速いと言われても、具体的に実現できるサービスをイメージしにくい方が多いのではないかと思います。mdxを利用したサービスが分かりやすい名前で出ていると、mdxを使ってみようと思う人が増えるのではないでしょうか。

金:「デジタルデータ長期保存サービス by mdx」とか、どうでしょう。

中村:その実現のためにも、mdxにはぜひ長く運用を続けていただきたいと思います。
取材・構成:鈴木志乃/フォトンクリエイト
撮影:石渡菜々子/STUDIO CAC
※1Archivematica
デジタル資産の長期保存を目的としたオープンソースのソフトウェア。国際標準(OAIS、PREMIS、METSなど)に基づき、デジタル資料の取り込み、フォーマット変換、メタデータ管理、保存を自動化する。図書館・文書館・博物館・研究機関で活用され、AtoM(Access to Memory)などのリポジトリと連携して、デジタルアーカイブの管理・公開を支援する。
https://www.archivematica.org/