── 人文学デジタルデータの長期保存プロセスの自動化に取り組んだ背景を教えていただけますか。
中村:私が所属している東京大学史料編纂所では、古代から明治維新期に至る前近代日本史関係の史料を収集し、研究しています。また、史料集の編纂や出版も行っています。収集した史料をデジタル化して保存する取り組みも進行中です。これまでにデジタル化した史料は2000万件を超えています
図1。それらはデジタルアーカイブとして公開していますが、100年後も研究対象として利用できるデータとして保存する必要があります。そのため、デジタルデータをどのように長期保存すればよいのか、その方法を検討する必要がありました。
図1 東京大学史料編纂所のデータベース
南山:私は国立情報学研究所で研究データ管理の基盤づくりに携わっています。デジタルデータを大学や研究機関が適切に管理し、長期保存しなければいけないという流れは、人文学に限らずアカデミア全体に広がっています。しかし、その実務的な方法については、国内での議論がまだ少なく、各機関とも手探りで行っている状況です。人文学デジタルデータにおける取り組みを汎用化していくことで、大学や研究機関における実践の確立につなげたいと考えています。
金:私はアーカイブズ学が専門で、博物館や図書館、アーカイブズ機関に関連する仕事をしています。これまで、博物館や図書館では紙などの物理的な資料を保存してきましたが、保存の対象がデジタルデータに変わり、それをどのように長期保存するかが大きな課題となっています。
デジタルデータを長期保存するための国際標準の一つにOAIS参照モデルがあります。これは、デジタルデータを長期保存するシステムに必要な機能と情報を概念的なレベルで定義するものです。しかし、OAIS参照モデルに準拠したシステムを構築するには専門知識が必要となり、容易には実現できません。
中村:そうした状況を踏まえ、私たちが注目したのは、Archivematica(アーカイブマティカ)
※1
というオープンソースのソフトウエアです。Archivematicaを使用すれば、OAIS参照モデルに従ったデジタルデータの長期保存と管理が可能です。私たちは、Archivematicaをmdxで動かし、人文学デジタルデータの長期保存プロセスの自動化を目指しました。
── どのようなシステムを構築したのですか。
中村:使いやすいシステムにするには、入り口が重要です。試行錯誤の末、国立情報学研究所が提供しているGakuNin RDMを利用することにしました。GakuNin RDMは、研究者が研究データや関連資料を管理・共有するための研究データ管理サービスです。ユーザーは保存したいデジタルデータをGakuNin RDMにアップロードします。アップロードされたデータは、mdxのオブジェクトストレージに保存されます。
図2
次に、オブジェクトストレージに保存されたデジタルデータに対してArchivematicaの処理を実行します。すると、mdxの仮想マシンで処理が進行し、長期保存に必要な情報パッケージが作成され、mdxのオブジェクトストレージに格納されるという流れになっています。作成された情報パッケージは、mdxのオブジェクトストレージにそのまま保存することも、ダウンロードして別のストレージに長期保存することも可能です。
図2 人文学デジタルデータの長期保存プロセス自動化システムの流れ
金:Archivematicaでは、データのフォーマットを識別し、長期保存に適したフォーマットに変換したり、ファイル名を変更したり、ウイルスチェックを実施するなど、データを長期にわたり使用できるようにするためのさまざまな処理が行われます。その処理過程は全て記録されます。デジタルデータの長期保存においては、データの真正性と完全性を維持しなければなりません。どのような処理が行われたかを記録することは、データの真正性と完全性を証明するために不可欠です。
Archivematicaは、デジタルデータの長期保存と管理を行うソフトウエアとしてメジャーなものですが、複雑な設定が必要で、実際に使用するには専門知識が求められます。私たちのシステムでは、Archivematicaの設定が自動で行われるようにしました。ユーザーは、オブジェクトストレージや仮想マシンにアクセスする必要もなく、GakuNin RDMにアクセスするだけで、専門知識がなくてもデジタルデータの長期保存に必要な情報パッケージを自動で作成できるのです。
中村:情報パッケージを自動で作成できることは大きなメリットですが、パッケージの中身がどのようになっているのか気になる場合もあるでしょう。そのため、GakuNin RDMの解析機能を利用し、パッケージに含まれるファイルの種類や、作成過程で行った処理内容を可視化できる機能も構築しています。