データ統合・解析システム(DIAS)におけるDOI付与の開始
~地球環境データへのアクセス向上によりデータの公開と利活用を推進~
DIASは公開データに対するDOI(デジタルオブジェクト識別子)の付与を開始しました。DOIは、論文や研究データなど様々な学術情報への永続的なアクセスを支援する識別子システムとして、世界的に利用が拡大しています。DIASでもDOIを活用したデータ利活用を促進するために、DOIを付与するための体制を整え、このたびDOI登録第一号データ「GAME-Tibet POP/IOP Dataset」の公開に至りました。データへの永続的アクセスと利活用促進を通して、DIASは今後も地球環境情報の分野におけるオープンサイエンスを推進していく計画です。
DOIとは?
DOI(デジタルオブジェクト識別子)とは、国際DOI財団 (The International DOI Foundation)が運営する世界的な識別子システムです。当初の目的は、出版社がウェブサイトで公開する学術論文の所在情報として、リンク切れになりうるURLよりも安定したIDシステムを構築する点にありました。そして現在では、学術論文情報にDOIを付記することは標準的な慣習となり、それが引用指標や研究評価などのシステムにも使われるようになりました。この成功を受けて、同様のモデルを他の学術情報にも適用する機運が高まりました。中でも研究データは、DOIの活用に向けた研究開発が最も活発な領域です。
世界的に見れば、2009年に設立されたDataCiteが、研究データへのDOI付与に中心的な役割を果たしています。日本では国内学術機関の4機関が共同運営するジャパンリンクセンター(JaLC)が中心的な役割を果たしており、2014年10月に始まった「研究データへのDOI登録実験プロジェクト」の成果として、2015年10月に「研究データへの DOI 登録ガイドライン」を取りまとめています。DIASもこのプロジェクトに参画し、ガイドラインに対する我々の意見を積極的に提案しました。ガイドラインの公表を受けて、日本国内ではいくつかの学術機関が研究データへのDOI付与を開始し、DIASでもDOI付与を開始するための体制の整備とシステムの改修を進め、このたびDOI登録第一号データの公開に至りました。
DOI登録第一号データ「GAME-Tibet POP/IOP Dataset」
DIASでのDOI登録第一号データは「GAME-Tibet POP/IOP Dataset」(10.20783/DIAS.496)です。このデータは、国際的な気象・水循環研究プロジェクトGAME(GEWEX Asia Monsoon Experiment) の枠組みのもと、チベット高原における水・エネルギー循環の定量的評価や大気加熱メカニズムを解明するために観測した気象データです。中国の研究機関協力の下、日本から機材を持ち込んで観測を実施しました。
なぜチベット高原の観測データが重要なのでしょうか。アジア域ではモンスーン(季節風)が気候に大きな影響を与えており、例えば日本の梅雨などもモンスーンの影響が大きいことが知られていますが、そのメカニズムを調べるにはチベット高原上の定量的なデータが不可欠です。大気(対流圏)の厚さはおよそ10,000m程度ですが、チベット高原は平均標高5,000mを超えるため、チベット高原が太陽で暖まるとそのエネルギーは直接大気の上層にも伝わり、その影響が非常に大きくなります。しかし、チベット高原は厳しい自然条件にあるため、現地観測データが乏しく信頼できるデータに基づく研究は困難でした。
そこで各種の気象観測装置(図1)を現地に設置し、1997年に予備観測、1998年に集中観測を行って精度の高い観測を行いました。その結果、アジアモンスーン地域の水循環の変動などに対する知見を得ることができました。
DOIの付与によって、研究者から見れば永続的なアクセスが期待できるデータという安心感が得られるため、アジアモンスーンのメカニズムを正確に理解し予測するための研究に資する観測データとして、様々な水循環変動の研究などへの活用がいっそう拡大していくと考えられます。さらに、このデータを用いた研究成果にDOIを明記することで、どの研究にこのデータが利用されてどんな成果が得られたのか、データから生まれた知見を集約することも将来的には可能になるでしょう。
図1:チベットにおける観測機器の写真
DOIとオープンサイエンス
研究データへのDOI付与は、あらゆる人々が容易にアクセスできるデータ・情報の提供を目指すというオープンサイエンスの基盤となるものです。
第一に、データの所在情報をDOIで示すことは、データの利活用につながります。インターネット上の所在情報としてはURLが広く使われていますが、システムの変更やサーバの移転などで所在不明となりうるURLは永続的な所在情報とは言えません。一方DOIでは、DOIのシステムが所在情報を一元的に管理するため変更に強く、データが将来もアクセスできることを期待しつつ安心してデータを活用できるようになります。
第二に、論文等にデータのDOIを明記することは、データの評価につながります。DOIの文字列によって論文等の利用データを特定できるため、出現回数をカウントすればデータの利用状況を追跡できます。これによって、需要が大きいデータを公開した人の評価を高めるなど、データ公開に関わるインセンティブを高めることで、地球環境情報の専門家となる人材育成にもつながることが期待できます。
機械学習や人工知能などのデータ駆動型研究を推進するには、良質なデータのオープン化やステークホルダー間での共有を進めることが鍵を握ることは世界的にも認識されています。それにも関わらず日本では、オープンなデータ基盤を持続的に成長させるためには人材と資金の確保が不可欠であることがまだ十分に理解されていません。研究データへのDOI付与は、こうしたデータ基盤を高度化するための出発点となるものです。まず、既にDIASに収録されているデータに対して、DOIを付与する条件に該当するデータを対象として遡及的にDOIを付与します。次に、地球環境情報分野において価値が高いデータを発掘して収録し、それにもDOIを付与して公開を促進します。データ論文への投稿などでもDOIが必要となるため、DIASで審査を受けてDOI付与済みデータを公開したいという研究者も出てくるでしょう。
最終的には、データのオープン化を通して利用が広がり、データ公開者の評価が高まり、データを取り巻くエコシステムが永続的に回っていく環境を作り出すことが目標です。とはいえ、まだ長い道のりが残っています。DIASは地球環境情報分野における中核的プラットフォームとして、学理の深化と新産業の創出の両面から、地球環境情報のための研究開発と利用促進の活動を継続していく計画です。
担当
■DIASオープンサイエンス分科会
北本 朝展(国立情報学研究所)
絹谷 弘子、小野 雅史(東京大学)
清水 敏之、中原 陽子、吉川 正俊(京都大学)
■「GAME-Tibet POP/IOP Dataset」データセット 資料提供
玉川 勝徳(東京大学)
■執筆
北本 朝展(国立情報学研究所)
国立情報学研究所の活動