メタデータとは?
FAIR原則とメタデータ
オープンサイエンスとデータ駆動型研究の進展により注目が高まっているのが、研究データのFAIR原則です。これは、Findable、Accessible、Interoperable、Reusableの4つの言葉の頭字語です。データサービスはこれら4つの基準を高いレベルで満たすことが望ましいということが共通理解になりつつあるため、DIASでもFAIR原則を参考にしながらデータサービスの価値を高めることを重要な課題と認識しています。
メタデータは、データをFindableにするための重要な情報となります。このデータは何に関するものか、いつどのように取得されたものか、誰がまたはどんな組織が主体となっているのか、どのような前処理や後処理を加えたものか、どのような形式で提供されるのか。こうした情報を活用すれば、だれでもデータを検索し、選別し、利用できるようになります。つまりメタデータとは、データ作成者や提供者自身のためというより、データ利用者という「他者」のために作成するものです。どのようにメタデータを作れば、データの内容を他者に理解してもらえるでしょうか。DIASでは、メタデータの入力を支援するDIASメタデータ管理システムを提供するとともに、データキュレーターがメタデータのレビューを行うことで、データのFindabilityの向上に努めています。
さらにDIASでは、以下の様な外部サービスとのメタデータの共有を進めることで、データのFindabilityを高めています。
- 第一に、DIASで作成されたメタデータを外部サービスにも提供することで、外部サービスからもDIASのデータセットをFindableにしています。
- 第二に、DIAS外部で作成されたメタデータを収集することで、DIASデータ俯瞰・検索システムからDIAS外部のデータセットをFindableにしています。
- 第三に、DIASメタデータインフラの活用により、DIAS外部のデータセットに関するメタデータをDIAS上で作成・提供しFindableにすることも可能です。
DIASは様々な地球環境データセットをFindableにするためのインフラとして、データセットと紐づけるメタデータというコンテンツを、データ作成者と協力しながら公開しています。
DIASメタデータの外部サービス提供
DIASで作成したメタデータをDIAS外部のサービスに提供し、DIASデータセットをFindableにするための取り組みとして、3つのサービスを紹介します。
GEOSS Platformへのメタデータ提供
GEOSS(全球地球観測システム)は、GEO(Group on Earth Observations)が運営する、地球観測データを社会課題の解決に広く活用するための国際的な取り組みです。GEOSS Platformは各国の組織が公開する地球観測データのメタデータを自動的に収集(ハーベスト)するシステムであり、DIASのメタデータも収集対象に含まれています。GEOSS Platformが収集したメタデータはGEOSS Portalで検索できるため、国際的な研究者コミュニティからもDIASのデータセットがFindableとなります。
DOI(Digital Object Identifier)の活用
オープンサイエンスにおいては、論文やデータセットを含むあらゆる学術資源に識別子(identifier)を付与する動きが進んでいます。学術論文においては、論文の引用にDOIを含めることでアクセスの持続性を高めるという考え方が、すでに多くの学術分野で一般的になっています。今後はデータセットについても、データセットの引用にDOIを含めることが一般的になるでしょう。引用にDOIを含めることは、様々な研究活動の貢献を引用関係として可視化する際に重要な役割を果たします。したがってDIASでも積極的にデータセットにDOIを付与しています。DIASはDataCite DOIを付与するために、提供者が付与を希望するデータセットのメタデータをDataCiteに提供しており、このメタデータはDOIを軸とする様々なサービスで活用されています。例えば、ORCIDやresearchmapのような研究業績管理サービスや、CiNii Researchのような研究業績検索サービスなどが代表的です。さらにDIASでは、DOIを活用したサービスとしてMahalo Buttonを開発しており、DOIを用いたデータセット利用状況の把握から、データ作成者の貢献度を可視化するサービスへの展開を進めています。
Google Dataset Searchへの対応
Googleのデータセット検索サービス Google Dataset Search は、データセット公開ページに適切なメタデータを埋め込み、そのページをGoogleのクローラーが読み込むことで、検索エンジンにメタデータが取り込まれるという仕組みになっています。既にGoogleデータセット検索からDIASデータセットが検索可能となっているため、分野を超えた幅広い利用が期待できます。
メタデータのライセンス
最後に、メタデータを外部サービスに提供する際に重要な、メタデータのライセンスに触れておきます。既に紹介した外部サービスからもわかるように、メタデータはデータセットをFindableにするための素材であり、外部サービスでの自由な利用を保証することが不可欠です。そこでDIASでは、メタデータのライセンスをクリエイティブ・コモンズ・ライセンスのCC0としています。CC0はパブリックドメインに可能な限り近い条件で利用を許諾するライセンスであり、これによりメタデータの利用が進むことが期待できます。ただし、メタデータの利用促進はデータセットをFindableにすることが目的であり、データセット公開ページから先のデータセットのダウンロードについては、データ提供者が設定するライセンスや利用条件が適用されます。
DIAS外部のメタデータ収集
DIASは外部サービスにメタデータを提供するだけでなく、外部サービスと連携してメタデータを収集するサービスも運営しています。現在のところ、以下の4つのサービスと連携しています。
これらのサービスから収集したメタデータがDIASデータ俯瞰・検索システムで検索できます。検索結果では連携システムに由来するデータセットであることを明示し、連携元のデータセット公開ページへのリンクを表示しています。新たに連携を検討している機関は、DIASまでご連絡ください。
DIASメタデータインフラの活用事例
これまで紹介したようなDIAS内外のサービスを連携させる事例だけでなく、DIASが外部のデータセットに関するメタデータを提供する拠点となった事例もあります。文部科学省 科学技術・学術審議会 研究計画・評価分科会 地球観測推進部会が取りまとめた「我が国における地球観測の実施計画」に記載された事業のデータセットについては、DIAS上でメタデータの作成と公開を行いました。
このように、DIASがこれまで構築してきたメタデータインフラは、メタデータの作成・収集・流通などに関する多くの機能を備えているため、地球環境分野におけるメタデータの流通拠点としても活用できます。
こうした様々なサービス連携やメタデータインフラの活用について、もし新たなご要望がございましたら、DIAS事務局までご相談ください。