附属資料
B. TR原案


標準情報(TR)  TR X 000x:1998

メタデータ統合化体系: ワーウィクフレームワーク

Metadata Integration Architecture: Warwick Framework



序文

この標準情報(TR)は, 1997年度の電子商取引消費者インタフェース調査研究をもとに, 英国Warwickで1996年4月に行われた第2回メタデータ研究会の報告を翻訳し, 規定部分を抽出して標準情報(TR)の様式にまとめ, 標準情報(TR)タイプIIとして公表するものである。

1. 適用範囲

Warwick Frameworkと呼ぶコンテナ・アーキテクチャを規定する。この枠組は, 異なるメタデータのパッケージを, 論理的に(特定のデータ構造の利用を通して)具体的に集めるメカニズムであって, メタデータの問題をいくつかのモジュールに分解する。 この枠組は, 次に示す顕著な特徴をもつ。

メタデータ集合のパッケージへの分割は, パッケージが完全にセマンティクス的に別々の ものとなることを意味しない。Warwick Frameworkは, 個々のコンテナが, 別々のグループによって管理・維持されている, 複雑なセマンティクスのオーバラップを伴った, これらの範囲の問題の現実を認識させるパッケージをもてることを, その一つの特徴とする。
 

2. 引用規格

次の規格及び標準情報(TR)に含まれる規定内容は, この標準情報(TR)の文中での引用によって, この標準情報(TR)の規定となる。表示された版は, この標準情報(TR)の出版の際に有効であったものである。

Internet Draft, HyperText Markup Language Specification version 3.0
RFC-1522, MIME
Dublin Workshop Report
ISO 8879:1986 Standard Generalized Markup Language (SGML)
備考 JIS X 4151-1992 文書記述言語 SGMLが,ISO 8879:1986及びISO 8879/Amendment 1:1988の内容に, 技術的追加及び編集上の変更を加えたものである。

3. 定義

TBD

4. メタデータに対する要件

4.1 メタデータの形成の多様性: 特殊化及び一般化

記述的分類はメタデータの分類分けのひとつにすぎない。しかし, たとえわれわれがこの 分類に自分たちを制限しても, 多様な分類手法と交換フォーマットは存在し, その正当な 理由も存在する。

完成度の高いAnglo-American分類規則(AACR2)とMARC交換フォーマット(そ の数多くのバリエーションも含む)は既存のすべての電子図書館システムの基礎になって おり, 非常に多くの種類の内容を記述する創造性と符号化の点で効率が良いことが証明さ れている。しかしながら, 非常に複雑な規則は円滑に適応を行なうための熟練した分類担 当者を必要とする。また, MARCレコードの隠された構造は複雑で, 記録と交換のための特 別なシステムを必要とする。Dublin Coreのような単純化された記述的規則では, 大半の著作者にとって簡便であるが, 図書館 の分類の特徴である検索精度, 類別区分や系統化についてはそこまでの段階にいたってい ない。"Computer Science Technical Reports"などの計画によれば, 簡潔な記述的規則は, ごく普 通のテキストエディタによってさえ作られ得る簡単な交換フォーマットと合わせることで , 訓練されていない著作者や編集スタッフにも, 記述的な記録を充分なレベルで作ること を可能にすることが証明されているという。Dublin Coreはこの経験に基づいて設計されたものである。最終的には, Federal Geographic Data Committee(FGDC)の成果である"Content Standard for Degital Geospatial Metadata(CSDGM)フォーマット"のような, ドメイン特化のフォー マットや, 数学ソフトウェアパッケージを表記するためのスキーム, または保健科学にお ける類別区分と表記のためのスキームが存在することになる。これらのスキームはかなり の程度の記述的な分類を含み, そしてMARCやAACR2よりも複雑なものであるならば, 特定 の利用者の共同体や特定のソフトウェア環境(ともに記録も検索も)の複雑なデータ群を 正確に表記するために, 補完的な存在としてではなく, 提供されることになる。

しかし, 実際の世界で応用するには記述的な分類よりもより広い範囲のメタデータを 使用する必要性がある。すべてを網羅していることはないと断りをつけた上で, この範囲 の意味を提供する他のメタデータの種類を以下に列挙する。

4.2 ネットワーク情報通信基盤の発達としての新しいメタデータ集合の発展

オブジェクトを記述し, 管理するために必要なメタデータの範囲は, われわれがより洗練 された方法でオブジェクトを特徴付け, 検索していくこと, またネットワーク情報オブジ ェクトの使用を管理をする要求が高まることにともなって, 拡大しつづけていく傾向があ る。マルチメディアWWWそしてあらゆる所でアクセス可能(つまりは子供も家庭でアクセ ス可能)なインターネットの時代である今日に至るまでに, 内容評価の必要性を誰が考え たというのだろうか?例が示すように, グローバルインターネットにおいて所有権のかか わるコンテンツが多く入手可能になるほど, 利用条件の定義などがネットワーク化された 情報市場を作るための必要条件として強調されることになる。このためのアーキテクチャ は十分に柔軟性をもち, 既存の集合を書き換えることなく, 新しい分類のセマンティクを 含み込むことができなくてはならない(メタデータを書き換えるためにネット上を走り回 らなければならないことを考えてほしい)。

4.3 異なる共同体が異なる型のメタデータを提案し, デザインし, 責任をもつこと

それぞれ論理的に異なるメタデータ集合は, 特定の共同体の専門知識についての利益や分 野を表している。たとえば精巧な記述的分類集合は図書館司書, 特にその中の分類専門家 によって最もよく作成され, 維持されている。利用条件のメタデータ集合の内容は, ビジ ネスや法律の専門知識をもち, 知的財産権問題の背景をもつ人々によって最もよく理解さ れる。それぞれの共同体は独立して"その影響下"にあるべきメタデータをつくりだし, 維持することが可能でなければならない。いくつかのメタデータ分類は, 特定の法的な, または規制的な必要性を満たすために存在する。たとえば, そのようなメタデータの一部 で行なわれる主張には, その共同体に関係する特定の法的責任が存在することがある。

異なるメタデータ集合についての異なる起源や管理は, 非常に多様なシンタクスと記 法をもたらす。たとえば記述的分類データなど, いくつかの型のメタデータでは, 静的な テキスト表現で必要が満たされる。他の種類のメタデータは, 実行可能な(または解釈可 能な)プログラムのような, より強力な方法によってのみ表現される。これは特に, クラ イアントとエージェント, 外部サービス(認証サービスや支払いサービス)の間での交渉 を明確化するような, 利用条件を符号化するようなメタデータに該当する。

4.4 メタデータの多くの"利用者"

メタデータの情報ソースがさまざまに異なるのと同様, 異なるメタデータ集合は別々の共 同体に属する利用者とエージェントに利用され, そのような共同体に制限されうる。機械 解読性がある型のメタデータにとっては重要であるが, 別の型のメタデータでは人間にと っての解読性が重要な場合もある。ある型のメタデータ集合の用語法は分野に特化してい るかもしれない。それぞれのメタデータ“利用者”は関連するメタデータに直接アクセス できることが必要である。逆の視点から眺めてみれば, 特定の共同体の利用者とエージェ ントに関係した一定の種類のメタデータへのアクセスを選択的に制限する理由がある場合 もある。特定のメタデータ集合を, システムがその内容にアクセスすることなく, システ ム間を横断して搬送できる必要性が生ずるだろう。

4.5 メタデータとデータの類似的な振る舞い及び特徴

厳密に, また杓子定規に"情報"をデータとメタデータに区分けすることは正しくない。 ある文脈でメタデータと見えるものも, 他の文脈ではデータに思われることがある。たと えば評論家の映画評論が, 映画というコンテンツを記述するとして, メタデータとして分 類されることがある。しかし, 評論自体は知的コンテンツであって, 多くの場合, データ とみなされる。他のデータのように, その評論はメタデータや, 特に, 知的財産としてそ れを保護する利用条件と関連しうる。このデータとメタデータの再帰的な関係は, 恣意的 に深いレベルにその根をもっている。

4.6 物理的に配置された又は間接的に参照されたオブジェクトとメタデータ集合との関係

もしもわれわれが本当の意味で分散情報通信基盤を想像するとすれば, われわれの分散の 概念はオブジェクト間だけに関わるのではなく, オブジェクト内に関わるものでもあるは ずである。つまり, オブジェクトのためのメタデータは, 複数の独立して管理されている メタデータ集合の集合体であり, それぞれのメタデータ集合はネットワークで別々に維持 される。物理的に離れた集合への参照は, Universal Resource Names(URNs)やHandlesとして提案されているような, 信頼 できる永続的な名の通ったスキームで行なわれるべきである。

メタデータ集合への間接的参照はメタデータ集合の共有によって協力しておこなわれ る。たとえば, 多くのコンテンツオブジェクトをともなったレポジトリを仮定したときに , それらのうちの数多くが同じアクセスのための利用条件をもっている(たとえば定期刊 行物の集合のためのサイトライセンスをともなった大学電子図書館など)。われわれはこ のことを, 名前の参照を使い, オブジェクトの集合を利用条件を符号化したものにリンク させることで表現できるはずである。したがって, われわれは, その共有された符号化を 変更することによって, オブジェクト集合のための利用条件を修正することができなけれ ばならない。共有された利用条件メタデータは, 逆に知的財産管理を専門にする外部提供 者によって管理されるレポジトリの中に存在することもある。
 

5. Warwick Framework体系

Warwick研究会における, これまでに述べた分析の結果として生まれたものが, 複数のメ タデータ集合を総合化するためのアーキテクチャ, すなわちWarwick Frameworkである。Warwick Frameworkの基本的な構成要素は二つある。ひとつは型付けら れたメタデータ集合, すなわち"パッケージ"であり, もうひとつはパッケージを総合化 するための単位, すなわち"コンテナ"である。

コンテナは一時的でもあり, 永続的でもある。一時的な形式においては, コンテナは レポジトリとクライアント, エージェント間の交換オブジェクトとして存在する。永続的 な形式では, 情報通信基盤の第一級オブジェクトとして存在する。つまりコンテナはひと つ以上のサーバに貯められ, それらのサーバからグローバルなアクセス識別子(URI)を 使ってアクセスすることができる。コンテナが他のオブジェクト内でもラップされること がある(つまりあるオブジェクトがデータとメタデータ双方のラッパーになっている)こ とには留意する必要がある(これは後に提案されている分散オブジェクト実装の部分で示 される)。この場合, ラップするオブジェクトは, メタデータコンテナそのものでなく, またはそれに加えて, URIをもつ。

実装から独立して定義されたコンテナの唯一の操作は, コンテナ中のパッケージの連 鎖を返す操作である。この連鎖の成員を順序立てるための規定は, この操作にはない。そ のため, クライアントが, あるパッケージが, 他のパッケージよりも重要なのか, よいの かを想定する方法はない。

コンテナレベルでは, パッケージは不透明なビットのストリームである。これらの特 性から示されることの一つは, コンテナのためのどのような符号化(交換シンタクス)で あっても, コンテナの受容者が, コンテナ内の未知のパッケージをスキップできるという ことである(換言すれば, パッケージの大きさはコンテナレベルで自己で記述していなけ ればならないことになる)。この特性は, 個々のパッケージの内容が暗号化され, 特定の 集合へのアクセスを必要としない, 又はそのようなアクセスを入手する(つまり, 購 入する)必要がある, メタデータの搬送をシステム間で許容する。この文書で後に提案さ れるHTMLの例のように, これらの含意は, コンテナの抽象的な特性を充分に主張するだけ の力を欠いている。

パッケージは型付けられたオブジェクトである。パッケージの型はクライアントとエ ージェントによるアクセスのあとで決定されるもので, 次の三つの種類がある。

図2はWarwick Frameworkコンテナの単純な例を示したものである。この例では, コンテナ は三つのメタデータの論理パッケージをもつ。最初の二つはDublin CoreレコードとMARCレコードであり, コンテナに二つのパッケージの組として含まれてい る。三つめのメタデータ集合は, コンテンツオブジェクトへのアクセスのための利用条件 を定義していて, コンテナ内のURIから間接的に参照される。利用条件のメタデータと管 理用のメタデータのためのシンタクスはまだ定義されていないことに注意すべきである。
 
 
figure 2

図2 三つのパッケージ(一つはインダイレクト)を内包したメタデータコンテナ
 

コンテンツオブジェクト(つまり文書)をWarwick Frameworkコンテナに関連づけるた めの機構は, Warwick Frameworkの実装に依存する。この文書で提案される実装については後述されるが, そこ にはいくつかの選択肢が挙げられている。たとえば, 単純なWarwick Frameworkコンテナは, HTML実装提案で示されているように, 文書内に埋め込むことがで きる。または, HTML文書は別のファイルとして記憶されたコンテナにリンクを張ることが できる。一方では, 分散オブジェクトに関する提案で示されたように, コンテナは, ネッ トワーク化されたオブジェクトを表すデータ構造ともいえる, いわゆるデジタルオブジェ クトの論理的な部品として存在する可能性もある。

コンテナを知的コンテンツの部分と結び付ける, 逆のリンケ付けも関連する。実際, 情報源の所有者や管理者の許可もなく, 彼らに知らせることもなく, 誰でもネットワーク 情報ソースのために記述的なデータをつくりだすことができる。このメタデータは, 本質 的に, ある情報ソースの所有者がその情報ソースからリンクを張るメタデータや, オブェ クト内に埋め込むメタデータとは異なるものである。そのため, われわれは同じ実装の手 法を用いるとしても, 非公式ながら二つのカテゴリのメタデータコンテナに分けなければ ならない。
 

 figure 3

図3 コンテンツとメタデータとの関係
 

図3はコンテンツとメタデータの関係を示したものである。三つのメタデータコンテナ が描かれており, ひとつは内部から参照されるメタデータコンテナで, コンテンツオブジ ェクトに埋め込まれている(URIをもたない。またコンテンツへの参照のためのリンク付 けパッケージも存在しない)。二つの外部から参照されるメタデータコンテナは独立のオ ブジェクトである。これらはURIをもち, URIを通じてコンテンツオブジェクトを参照する 。

内部から参照されるメタデータコンテナは, この図では間接的にコンテンツによって 参照されることも可能である。この場合には, 独自のURI(URI4と呼んでおく)をもち, U RI3(コンテンツ)を参照するリンク付けパッケージが存在する。
 

附属書 A. HTMLによる実装

もしも初期の実装が, 現存するWWWのソフトウェアに何の修正も要求しないのでなければ , Warwick Frameworkの素早い普及はみられないだろう。このセクションでは, HTML 2.0に適合したW arwick Frameworkの実装について説明するが, これは, 現存するブラウザや検索エンジン, HTML オーサリングツールで使用可能である。OCLCのEric Millerがこの実装の最初の提案者である。この提案は, 1996年5月に行われたW3C が資金提供したDistributed Indexing/Searching Workshopにおいてなされた。後に述べるシンタクスは, メ タデータ集合への間接的参照に対する対応を視野にいれつつ, 研究会においてなされたこ の提案を拡張したものである。

この実装はHTML2.0の二つのタグを使用する。
 

 

A.1 METAタグ

HTML2.0のMETAタグは, 名前と値の組み合わせを特定する役割を持つ。この組み合わせはN AME属性とCONTENT属性を使用して符合化してある。HTML文書のHEAD部は複数のMETA要素を 含むことがある。METAタグの簡単な例としては, 次のようなものがあげられる。

<META NAME="title" CONTENT="Gone With the Wind">

複数のMETAタグを一つのメタデータ集合にまとめるNAME属性の値のための符合化につ いて説明する。その符合化は次のようなものである。

<META NAME="<schema_name>.<element_name>" CONTENT="string data">

この符合化においては, <schema_name>テンプレートはそれぞれの相当するメタデ ータ集合の一意の接頭辞によって置き換えられる。また, <element_name>はメタデー タ集合の中の属性名によって置き換えられる。一意の<scema_name>符合化の登録は, 現時点ではなされないままである。もし<schema_name> DCがDublin Coreの要素に適用可能であるならば, 部分的なDublin Coreメタデータ集合は 次のように符合化できる。

<META NAME="DC.Title" CONTENT="HTML 2.0 Specification">
<META NAME="DC.Author" CONTENT="Tim Berners-Lee">
<META NAME="DC.Author" CONTENT=Dan Connolly">

この同じHTML文書は<schema_name>接頭辞を持つ他のメタデータの集合を含むかも しれない。例えば, ADM集合と呼ばれるであろう管理用メタデータの基準, といったもの が挙げられる。ADM集合は次のように符合化される。

<META NAME="ADM.Administrator" CONTENT="Bill Clinton">
<META NAME="ADM.Modified_Date" CONTENT="050696">
 

A.2 LINKタグ

次にあげるLINKのためのシンタクスは, <schema_name>型のメタデータを含むドキュメ ントが<URL>に存在することを示すために用いられる。

<LINK REL=META.<schema_name> HREF="<URL>">

例えば, <schema_name>CSDGMを用いた地理空間的メタデータ集合への間接リンクは 次のようになる。

<LINK REL="META.CSDGM" "HREF=http://meta_repo.ukp.edu/geometa">

LINKタグには, 他にも人間可読なメタデータスキーマの参照定義へのポインタを与え る, という機能がある。この符合化はメタデータスキーマの中心レジストリがないことに よって動機づけられる。次に挙げるLINKタグのシンタクスは, メタデータスキームの参照 定義<schema_name>は<URL>にある, ということを指し示している。

<LINK REL=SCHEMA.<schema_name> HREF="<URL>">

すなわち, Dublin Coreのメタデータスキーマの参照定義は, 次の符合化によって示さ れる。

<LINK REL=SCHEMA.dc HREF="http://purl.org/metadata/dublin_core">

HTML文書の中にあるこれらの要素の組合せは図4を参照。
 

<HTML>
<HEAD>
<TITLE>A Sample Document with Mixed Metadata</TITLE>
<META NAME="DC.Title" CONTENT="Sample Document">
<META NAME="DC.Author" CONTENT="Bob Dole">
<META NAME="DC.Author" Content=Bill Clinton">
<META NAME="ADM.Administrator" CONTENT="Bill Clinton">
<META NAME="ADM.Modified_Date" CONTENT="050696">
<LINK REL="SCHEMA.DC" HREF="http://meta.org/meta-reg/Dublin-Core.html ">
<LINK REL="META.CSDGM" HREF="http://meta_repo.ukp.edu/geometa">
</HEAD>

<BODY>
This is the body of the sample document
</BODY>

</HTML>

図4 メタデータが埋め込まれたHTML文書
 

Warwick FrameworkにおけるHTMLの実装は現存するブラウザとの下位互換性(backward compatibility)があるが, コンテナ/パッケージ構造を定義するという甚大な作業を必 要とする。HTMLにおいてWarwick Frameworkを充分実装することは難しい。なぜなら, META要素によって出された簡単な名 前と価値の組み合わせにおいて複雑に絡み合ったコンテナを扱うのが困難であるからであ る。

ブラウザがWarwick Frameworkの充分な能力を実装するためには少なくとも二つの潜在 的な抜け道がある。MIMEとSGMLである。MIME(多目的インターネットメール拡張)は, 電 子メールが豊富なデータフォーマットや構造を含むことができるように開発された一連の インターネット規格である。ブラウザはすでにMIMEに対するサポートを制限してきたが, 時が経てばサポートのレベルは上昇するであろう。SGML(文書マーク付け言語)は, HTML を定義するのに使われてきたメタ言語である。すでにSGMLドキュメントを閲覧するための ブラウザの拡張製品は存在するし, ブラウザがもともとSGML機能を持つものとして発展さ せることも可能である。次の二つのセクションでは, MIMEとSGMLにおいて, Warwick Frameworkがどのように実装されるか説明する。続いて, 分散して存在するオブジェクト を使うWarwick Frameworkの実装について説明する。これは, 現存するWWWとは全く異なる情報通信基盤を 想定したものである。
 

附属書 B. MIMEによる実装

既に述べたように, そもそもMIMEは電子メールメッセージに様々な内容を入れることを可 能にするために作られた標準(RFC-1522他)の集合である。RFC-822のような初期の標準 は, メールヘッダの標準化を扱ったが, メールのメッセージ自体の構造については扱わな かった。MIMEは, メッセージの構造を, バイナリデータと複数の構成要素または添付ファ イルをメッセージに含むことができるものとした。これらの能力は, Warwick Frameworkのコンテナ/パッケージアーキテクチャの実装に用いることができる。このセ クションでは, MIMEの概要を簡単に説明し, その後, Warwick Frameworkにおけるパッケージの三つの型(コンテナ, インダイレクト, メタデータ集合 )がMIMEの構成によってどのように表されるかについて言及する。MIMEによるWarwick Frameworkの実装についてのより詳しい報告は, Jon KnightとMartin Tomlinsonによって 現在準備中である。
 

B.1 MIMEの概要

MIMEは単純な2段階の型付けスキームを定義する。全てのMIMEメッセージはcontent-type フィールドにおいてこの型を特定する。その型には, text, audio, video, image, appli cation, multipart, messageという七つの主要なものがある。このような型は拡張可能な 下位型の集合を持つ。例えば, text型は, text/plain, text/sgml, text/html などといった下位型を持つ。image型は, 異なる画像フォーマット を扱うために image/gif, image/jpag, image/tiff などの下位型の集合を持つ。

multipart型は, 複数の構成要素を含むメッセージに使用されるが, それぞれの構成要 素は異なる型を持ちうる。multipartメッセージの一般的な例はスプレッドシートやグラ フィックなどを添付されたASCII電子メールメッセージである。multipartメッセージはbo dyパートより構成されるが, その境界は, 境界文字列によって示される。bodyパートは, それぞれ関連するcontent-typeを持つ。multipartメッセージは入り組んだmutlipart bodyパートを含むこともあり得る。

multipart型の下位型はいくつかある。
 

 

B.2 MIMEによるWarwick Frameworkの符合化

MIME複数パートメッセージのbodyパートは, Warwick Frameworkコンテナのパッケージと 直接対応している。これは, 図5の例で示されるとおり, MIMEメッセージとしてのメタデ ータパッケージの符合化を可能にする。図5の例は, 二つのパッケージと一つのコンテナ を表しているが, これらはそれぞれ, 既に定義したメタデータ集合である。コンテナは, multipart/alternative と型付けされるが, これは, 包含された二つのパッケージが似たような意味を持つことを 表す。コンテナの最初にあるboundary="#####"というテキストは, 複数パートメッセージ のパッケージの境界を定めるために一意の境界文字列を定義する。最初のパッケージは, SGMLによって符号化されたDublin Core記述であるり, 二つめのパッケージは, application/usmarcという型をもつMARCレコ ードである。USMARCが使えるシステムではDublin Coreよりもそれを使った方が良い。しかし, より単純なシステムのための代替物として, Dublin Coreがある。USMARCは  Content-Transfer-Encodingのためのヘッダを持つ。これは , 特殊文字が7ビット文字のみを扱うメールシステムを通して安全に送信されることを可 能にする。
 

MIME-Version: 1.0
Content-type: multipart/alternative; boundary="######"

--######
Content-type: text/sgml

<!DOCTYPE dublinCore PUBLIC '-//OCLC//DTD Dublin core v.1//EN'>
<dublinCore>
  <title>On the Pulse of Morning</title>
  <author>Maya Angelou</author>
...
</dublinCore>
--######
Content-type: application/usmarc
Content-Transfer-Encoding: Quoted-Printable

... USMARC record appears in here, a quoted-printable
    encoding is used to handle special characters ...
--######

図5 MIME 複数パートメッセージとして符合化されたWarwick Frameworkコンテナ
 

message/external-bodyというMIME内容型は, Warwick Frameworkにおける, コンテナ の外にあるパッケージを定義するインダイレクトパッケージを実装するのに使用できる。 図6の例は, URIを用いてMARCパッケージへの間接的参照を行なっている。IESG(Internet Steering Group)は最近, 外部のbodyパートのためのaccess-typeとしてURLを使用するこ とを可能にした標準原案を承認した。

Content-type: message/external-body; access-type=URI;
               name="http://www.foo.bar.com/path/huh.marc"
 
図6 URIを用いるMARCパッケージへの間接的参照
 
 

附属書 C. SGMLによる実装

前述したとおり, SGMLは, HTMLを定義するのに用いられるメタ言語である。 このことは, SGMLが他の言語を定義するのに用いられる言語であり, 典型的には, テキス トドキュメントにマーク付けするものである, ということを意味する。こうした言語, 例 えばHTMLは, 文書型定義(DTD)を用意することによって定義される。DTDは, 大筋では, 関係データベースにおけるスキーマ定義に類似している。それらは, ドキュメントにおい て, どのような構造やその組合せが可能であるかを定義する。SGMLにおけるWarwick Frameworkの実装に関する詳細な論文は, Lou Burnard, C.M.Sperberg-McQueen, Liam Quin, Eric Millerによって準備されている。このセクションでは, この論文の草稿段階 で考案した, SGMLによるWarwick Frameworkの実装の一つの方法を述べる。

SGMLによるWarwick Frameworkの実装の際には, コンテナ/パッケージ構造を扱うこと ができ, 間接的パッケージやメタデータ集合も扱えうことのできるDTDが要求される。こ のDTDは, 独自のDTDをもつパッケージを含むことができなければならない。例えば, Warw ick研究会の成果のうちの一つとして準備されているDublin Core DTDである。また, Warwick FrameworkのDTDは, どんなDTDとも適合しないようなメ タデータパッケージを包み込むこともできなければならない。この問題が生じるのは, 非 SGML表記, 例えば, USMARCフォーマットのような表記を使うパッケージを実装する場合で ある。最後に, SGMLによってメタデータ要素を表現する, 迅速かつ簡便な方法がなければ ならないが, それは, 一つの文書に多くのDTDを集める際に生じる, 要素名の間で重複が 起こらないものでなければならない。

図7におけるDTDは, そうした要求を満たしている。コンテナ/パッケージ階層は, < ;container>要素と, %PackageTypesパラメタによって実装される。パラメタ実体は, 本質 的には, DTDの一部分の, テキスト置換マクロである。固有のDTDを持っているパッケージ は, %md-setパラメタ実体の定義を上書きするSGML慣用句を使用し, また, 文書の宣言部 分集合で要求されたDTDを供給することによって, 容易に包含される。非SGMLフォーマッ トのパッケージは, <package>要素にあるNOTATION属性を使用することによって合致さ せることができる。NOTATION属性の使用についての例は, 図8に示してある。例の中では 行なっていないが, 非SGMLデータは実体参照によって包含されるようにすることを推奨す る。これは, パッケージ内に文字“<”が現われると, 解析の際に抵触するためである 。図8は, 文字“<”がデータの中に現われないと保証できる場合には適切である。外 部実体への参照は, 本質的にはインダイレクトパッケージであるということは, 注意する べきである。そうすれば, ほとんどの非SGMLデータがインダイレクトパッケージとして扱 われるべきだということになるかもしれない。最後に, <matagroup>要素と<metadata>要素は, 新規の要素がDTD定義を増やすことなく取り込む可能にする。

DTDがあることで, SGMLは強く型付けされたパッケージに対する要求に答えられる。し かし, 要素のレジストリに対する用意は何もない。このため, 異なるDTDにおける要素名 は, 潜在的に対立する可能性がある。この問題の対処法として, 本当に満足できるものは 存在しない。SGMLのSUBDOC機能は, 名前空間の重複を避けることができるが, 広くは実装 されていない。前の段落で記述した<matadata>要素は, 同じ要素を定義しているDTDを 結合する際に生じる玉恵空間の衝突を避けるためには, 適当な方法になりうる。しかし, これを応用するには, 複数の<metadata>要素がNAME属性に対して同じ値を持っている 場合の処理について知る責任がともなう。

図7のDTDに合致するドキュメントは, 外側の<container>要素を持っているが, そ れは既知の型のパッケージの, 一つかそれ以上の要素を包含していなければならない。パ ッケージは他のコンテナ, indirectパッケージやmd-setでもありうる。md-setはパラメタ 実体であり, 固有のDTDをもつパッケージが収容されなければならないときに, その定義 を用意に変更することができる。パッケージ型のリストはまた, 似たような理由で, パラ メタ実体としても定義される。
 

<!--  Warwick Framework DTD -->
<!-- Override this entity definition to add other metadata packages
     that follow their own DTDs. -->
<!ENTITY % md-set 'DublinCore | package'>

<!-- Override this entity to add other notations for non-SGML data. -->
<!ENTITY % notations 'SGML | USMARC | MIME | RFC-822'>
<!NOTATION SGML    SYSTEM "" -- Default value for package notation -->
<!NOTATION USMARC  SYSTEM "" -- Some known encoding of US MARC -->
<!NOTATION MIME    SYSTEM "" -- An IETF MIME message -- >
<!NOTATION RFC-822 SYSTEM "" -- Simple attribute: value pairs -->

<!ENTITY % PackageTypes  'container | indirect | %md-set'>

<!ELEMENT  container - - (%PackageTypes)+>
<!ATTLIST  container
  Name     CDATA  #REQUIRED  -- Name of container schema --
  Schema   CDATA  #IMPLIED   -- URI for container schema def.--
  Version  CDATA  #IMPLIED   -- Version of the package schema -->

<!-- The <indirect> element refers to packages of metadata held
     externally. The URI attribute specifies the remote package.
-->
<!ELEMENT indirect  - O EMPTY>
<!ATTLIST indirect
  URI      CDATA  #REQUIRED -- The reference to the data --
  Name     CDATA  #IMPLIED  -- Name of ext. package schema --
  Version  CDATA  #IMPLIED  -- Version of the package schema -->

<!-- The MD-SET parameter entity should be overridden when people
     wish to add packages with known DTDs. For now it mentions DublinCore
     and Package. DublinCore has its own DTD, but for this example we
     take the easy way out by declaring its content as #PCDATA.
     The NOTATION attribute allows the Package element to include a
     metadata package that is in a non-SGML format. If people do not
     want to follw a package-specific DTD, they may use the metadata
     and metagrou elements inside a package.
-->

<!ELEMENT DublinCore - - (#PCDATA) -- deal w/ this later -->
<!ELEMENT package  - - (#PCDATA | metadata | metagroup)+ >
<!ATTLIST package
  Name     CDATA     & nbsp;           #REQUIRED -- Name of package schema --
  Schema   CDATA        ;          #IMPLIED  -- URI of schema definition --
  Version  CDATA       &nbs p;         #IMPLIED  -- Version of package schema --
  Notation NOTATION (%notations) SGML      -- non-SGML formats allowed,
                          &n bsp;            &nbs p;       but SGML is the default -->
<!ELEMENT metagroup - - (metadata | metagroup)+ >
<!ATTLIST metagroup
    Name   CDATA  #Required  -- Name of the metadata grouping --
    Type   CDATA  #IMPLIED   -- Categorization of metadata --
    Scheme CDATA  #IMPLIED   -- Reference to controlled vocabulary -->
<!ELEMENT metadata - - (#PCDATA) >
<!ATTLIST metadata
    Name   CDATA  #Required  -- Name of the metadata field --
    Type   CDATA  #IMPLIED   -- Categorization of metadata --
    Scheme CDATA  #IMPLIED   -- Reference to controlled vocabulary -->

図7 Warwick Framework DTD
 

<container>要素及び<package>要素は, 同一の属性リストを持っており, そ れによってパッケージの名前, バージョン及びURIを特定し, パッケージの型に関する 更なる情報を引き出すことが可能になる。<indirect>パッケージ要素は, URI属性が, どのパッケージデータを引き出すのかを特定するという点で, 若干異なる。われわれが解 決しなければならない問題は, どのくらいの情報が, インダイレクトパッケージに関して 供給されねばならないか, ということである。われわれはそのデータ型を提示するべきな のだろうか。

図7のDTDにおいては, <DublinCore>要素はテキストを保存しておくためにだけ定義 されていることに注意すること。これによって, 例はより簡潔になるが, 現実にはDTDを 現在開発中のDublinCoreのために使用することになるだろう。

Warwick DTDの使用例を, 図8に示す。
 

<!DOCTYPE container system "warwick.dtd">
<container name="example">
<indirect uri="http://foo.bar.com/huh">
<package name="admin">
<metadata Name="date-created">12/31/95</metadata>
<metadata Name="last-revised">4/5/96</metadata>
</package>
<DublinCore>
  For this example, just some text. A DTD for Dublin
  core is being developed, and the content here should conform
  to it in real use.
</DublinCore>
<package name="misc" notation="RFC-822">
From: daniel@acl.lanl.gov (Ron Daniel)
Subject: Metadata tagging schemes
</package>
</container>

図8 SGMLに符合化されたWarwick Frameworkコンテナ
 
 

附属書 D. 分散オブジェクトによる実装

Warwick Frameworkのオブジェクト指向の実装は, いくつかの理由で適当である。
 

分散オブジェクト技術はオブジェクトの抽象性を, オブジェクトへの非局所的アクセスを 可能にすることで拡大する --- オブジェクトのクライアントは, オブジェクトの実際の実装を含むサーバとは別のア ドレス空間内や別の端末上に存在するかもしれない。分散オブジェクトの実装の例として は, Object Management GroupのCORBA仕様, ILU(CORBAと似たXeroxによる 実装)そしてMicrosoftによって提案されているOLEへのDCOM拡張がある。

これらの実装は, それぞれ拡張可能なセキュリティ枠組みを提案し, またはその予備 的実装を行なっており, これによって実装者やサーバ管理者はオブジェクトへのアクセス やオブジェクト内での方法を制御することができる。このことは, 特に, Warwick Frameworkの実装と関連し, 特に, 実際上は, 知的コンテンツへのアクセスが, 認可され た者に, 及びオブジェクトに関連した利用条件(メタデータなど)の下に限定されなけ ればいけないという, 情報通信の基盤構造と関連している。

CORBAの仕様は, いくつかの高次のサービスについての提案を含んでいる。そのうち二 つはこの文書で説明されたメタデータとコンテンツの問題に関連する。インタフェースレ ポジトリサービスは, プロバイダが新しいオブジェクト型を登録することを可能 にする。クライアントは, それらの型にアクセスするためにレジストリの情報を用いるこ とができる。動的呼び出しインタフェースサービスは, クライアントがそれらの 新しい型のために定義された操作へのメソッド呼び出しを収集することを可能にする。

ただし, Warwick Frameworkの分散オブジェクト実装は, 現存するものとはかなり異な る情報通信基盤構造を前提としていることを断っておかねばならない。そのような基盤構 造を構築するいくつかの試みは現在進行中である。その試みの中には例えば, Stanford Universityの電子図書館プロジェクトや, 1996年6月にW3CとOMGが合同で行ったW 3C/OMG Workshop on Distributed Objects and Mobile Codeのようなものがある。

図9は, オブジェクト指向のWarwick Frameworkの実装のための型の階層構造を示して いる。

 figure 9

図9 メタデータのための型の階層構造
 

この型の階層構造におけるメタデータのクラスは次の通りである。
 

The Kahn/Wilensky Frameworkは, DARPAの資金提供によって行われたComputer Science Technical Reports Projectの成果の一つであるが, Warwick Frameworkにおけるオブジェクト実装がその中に当てはまる分散情報通信基盤を提案して いる。Kahn/Wilensky Frameworkとは, 簡潔にまとめるとおよそ次のようなものである。すなわち, 枠組みが提 案している情報通信基盤とは, 情報の保管, 記憶, 配布, 管理をデジタル形式で支援する オープンアーキテクチャだということである。そのシステム内部において, 情報は, デジ タルオブジェクト, つまり, 知的コンテンツをカプセル化するコンテンツ非依存なパッケ ージや, オブジェクトのデータ, 及びその他に関連するもの(すなわち, この文書の主 題である目メタデータ)という形式で記憶される。このような情報通信基盤の重要な側面 は, デジタルオブジェクトのレベルにおけるコンテンツ非依存の問題と, データのレベル でのコンテンツ依存的な問題を, 厳格に区別したところにある。


図10 MetaDataSetのための型の階層構造
 

The Kahn/Wilensky文書は, デジタルオブジェクトと結びついたメタデータについての 定義を厳密にしているわけではないが, 情報通信基盤にとって欠かせない二つの型のメタ データについて記述している。
 

デジタルオブジェクトは, レポジトリにおいて論理的に記憶される。KahnとWilenskyは, 基本的なRepository Access Protocol (RAP)の機能を, 以下のような下位レベルでの操作をもって記述してい る。 レポジトリは, そのレポジトリ及び操作の対象となるデジタルオブジェクトのために定 義された利用条件にもとづいた操作にアクセスを制限する重要な役割を担っている。

Kahn/Wilenskyの研究に続くものとしては, Cornell Digital Library Research GroupやCNRI, NCSAなどの研究者が, Kahn/Wilensky Frameworkを実装する際の問 題について検討し, また, その枠組みにおける分散オブジェクトを実装するため の設計を作成している。後者の論文は, さらに分散オブジェクトの実装において 利用条件を強制することに関連した問題についても検討している。

ILUを用いた分散オブジェクトの実装についての研究は, 現在Cornell大学において進 められている。この研究は, Warwick Frameworkの概念をKahn/Wilensky Frameworkに統合するものである。そこでの実装におい ては, デジタルオブジェクトは三つの型のオブジェクトにわけて考えられる。

一つのデジタルオブジェクトの中に, 二つのメタデータコンテナの集合が含まれるという ことには注意しておく必要がある。そのうちの一つは, オブジェクトのレベルのものであ って, 全体としてそのデジタルオブジェクトに関連するメタデータを保持しておくもので ある。他方は, 個々のコンテンツ要素に添付されるものであり, 特定のコンテンツに関連 したメタデータを保持しておくものである。ディジタルオブジェクトのデータ構造を, 図11 に示す。

figure 11

図11 Warwick Frameworkのコンテナを含むディジタルオブジェクト
 

この図では説明していないが, クラス階層構造のもう一つの特徴として, 次のことを 追加しておく。それは, メタデータとデータの区別は, ある“コンテンツ”がどのように してデジタルオブジェクトの中に収められたかについての恣意的なものだということであ る。MetaDataContainerとContentContainerは両方とも, “コンテンツ”をその末節にも った階層構造の集合体なのである。例えばMARCレコードなどといったコンテンツの型は, あるデジタルオブジェクトのMetaDataContainerに由来するものとしても, または他のオ ブジェクトのContentContainerに由来するものとしても存在しうるのである。このことは , 本当のところ何がメタデータで何がデータかを分かつ絶対的な境界はなく, 両者の区別 は, 使用される文脈によるのだという, われわれの今まで行ってきた考察とも矛盾しない 。

まとめていうと, このデジタルオブジェクトのデザインは, 第一級(名前のついた) オブジェクトの範囲の中での, メタデータとコンテンツの恣意的な集合体を許容している 。集合体の個々の要素自体が, 独立した管理, 記述的データ, そしてアクセスのためのル ールを備えた第一級のオブジェクトになり得るということである。
 

附属書 E. Dublin Coreの概要

Dublin Coreに関する詳細に関心のある読者の方は完全版のDublin Workshop Reportを読まれることを勧める。このセクションは, Dublinでのメタデータ研究会で定義され たDublin Coreメタデータ集合の要約を目的としている。この文章の残りの部分の文脈はそれによっ ている。

読者は, Dublin Coreを理解するには用語法上の問題があることに注意されたい。Warw ick研究会の作業の一つは, Dublin Coreをここで述べるより大きな文脈の中で検証するとともに, Dublin Coreそれ自体を再 評価することであった。研究会報告の中には, Warwickでの会合の成果としてのDublin Coreの定義に対する変化と改善について議論がなされるものも含まれている。さらには, この論文で後ほど言及する未解決の問題は, Dublin Coreの定義の中での潜在的な変化の追加的領域を指し示している。このセクションと次の セクションの焦点は, Warwickでの会合に先行して存在していたものとして, Dublin Coreの状況を記述・評価することである。

Dublin Coreの目的は, ドキュメントライクなネットワークオブジェクトの記述及び 自動化されたインデックス作成を容易にする, 記述的要素の最小限度の集合を提供するこ とである。加えて, Dublin Coreは, インターネットに情報を提供してくれる作者や形式的な出版者のかなりの部分が 理解し, 利用するのに充分な程度に簡単であることが意味されている。先ほど述べたよう に, もともとのDublin Coreの提案は意図的にシンタクスの問題を避けたのである。

Dublin Coreの13の要素が図1に示されている。
 

図1 Dublin Coreのフィールド

これらのデータ要素を列挙することに加えて, Dublin研究会報告は中核をなすメタデ ータ集合全体に適用される数多くの基底となる原理を明確にしている。

・コア・メタデータ集合はサイト特有又はドメイン特有の追加的データ要素の包 含を認めるために, 拡張可能である。

・コア・メタデータ集合のすべての要素は, コアを利用するオブジェクトのどの特定 の記述においてもオプションである。この理由は二つある。一つは, コアの要素の中には ある一定のドキュメントに対してのみ意味を持つものがあるということである。たとえば , coverageフィールドは主に空間的なリソースに対し有用である。第二は, 不完全な記述 はどうしても, 確実に, Dublin Coreが扱うことを意図されたこれらの使用法のシナリオの下にあるということである。つ まり, プロの分類者やインデックス作成者というよりも, 作者やサイトの管理者, プロで ない出版者や情報提供者によるドキュメントの記述のことである。

もともとのDublin Core文書においては, これらの拡張のレジストリや, それらの相互運 用性や拡張性に対する意味付け, 又は実際, 典型的な使用法のシナリオの文脈におけ る修飾語の使用に関しては, 何の考慮もなされていない。
 

附属書 F. Dublin Coreの評価

1995年のDublinメタデータ研究会の成果は, 記述的メタデータ集合の完全な定義ではなく , 中核をなす記述的メタデータ集合へ向けての最初の一歩となることを目指していた。Wa rwick研究会において前進するためには, Dublin Coreの定義の評価と実装のためのプラットフォームを提供するのに必要な作業を決定する ことが必要となった。このセクションではその評価についての要約を述べる。ここで述べ られている問題の中には, Warwick Frameworkによって扱われたものもある。また, Dublin Coreの要素のためのシンタクスや 著者のためのガイドラインといった問題は, Warwick研究会から生まれた他の文書で扱わ れている。将来の作業のために残っているのはあまりないといってもよいだろう。

ここでなされている批判の多くが実際上の意味においては不公平であると認めること は重要である。Dublin研究会は, 充分に定義された最終的な生産物を作ることではなく, むしろ最終的な生産物の究極的な定義に向けて発展し, コンセンサスを築くことを, 意図 的にその目的としている。
 

F.1 Dublin Coreの定義は緩い

Dublin Coreの著者たちは, その定義が極めて緩いことをたやすく認める。シンタクスに ついての定義もなく, すべてがオプションで, すべてが拡張可能で, すべてが変更可能で あるという原理を持っているため, Dublin Coreの定義は相互運用性の基準にさえ到達していない。専門化することは, Dublin Coreをリソース発見とインデックス作成のもととして利用する可能性のあるシステム・デ ザイナや検索エンジン("web crawlers and spiders")のためのガイダンスを提供しない。このレベルの正確さと具体 性に到達することはDublin研究会の範囲を超えたものではあるが, 将来の発展にとって欠 かせないものである。
 

ネットワーク上のリソースの作者及び出版者はコア情報を提供しないかもしれない

Dublin Coreの単純さは, WWW上の一般的な, 多くの専門家でない作者や出版者のために役 立てるという希望がもとになっている。しかし, この層の情報提供者は, 最も簡単な記述 的情報すら提供しないという経験的証拠がある。さらに, ただ非常にあいまいなセマンテ ィクスで, 統制のない語句使用がなされ, Dublin Coreの領域内での適切なシンタクスの定義もないために, 提供されたいかなる情報も疑問 点を有する, 又は意味がないという可能性すらあるのである。少なくとも, アルゴリ ズムに従って処理することは不可能かもしれない。Dublin Coreのデータの要素は, 実際上は, エンドユーザである人間に対して示される情報のため の輸送メカニズムとか分類メカニズムとして役立っている。つまり, せいぜい, ヒューリ スティクスを発展させる際にタグをつけていくDublin Coreを少々考慮して, ヒューリスティックに処理されるだけである。

このことは, Dublin Core自体の批判というよりも, むしろ作者から提供される記述的 メタデータの要素を含む実装シナリオを発展させる際の問題認識であると認識することが 重要である。著述やネットワーク"出版"の一部としてこのような情報をつくりだすこと を促進することは発展への鍵である。Warwickでの会合の主な焦点は, 作者や管理者がDub lin Coreのデータの要素を提供できるようにするための実践的メカニズムの発展であった。
 

F.3 Dublin Coreは機能的で管理的なメタデータの問題を避け, 記述的分類の優越性を提示

Dublin Coreは, 省略された記述的分類のための手段以上のものではないということを明 示している。しかし, この問題には後でまた戻るが, 記述的分類はネットワーク・オブジ ェクトに関連する可能性のある多くの異なったメタデータ集合のうちの一つの集合に過ぎ ないことに注意しておくことは大切である。オブジェクトの管理と関係するものなど, こ れら他の多くのメタデータ集合も同じように重要であり, 明記する必要がある。Warwick での会合における実装経験に関する議論において, ほとんどすべての実装が, 記述的分類 に加え別のタイプのメタデータとともに作業することが必要であると分かり, 異なったタ イプのメタデータを首尾一貫して扱えるようにするパッケージ化と搬送及び組織化戦略 を発展させることが得策であると分かったということに注意することが大切である。
 

F.4 Dublin Coreは一般的な記述的分類の要素に集中するが, 幾つかのドメイン固有の要素も含む

繰り返すが, 達成したコンセンサスの重要な点は, Dublin Coreは一般的目的の実行から 記述的分類を明白に分離する数多くの要素を含んでいたということである。たとえば, カ バー範囲という要素は空間的, 時間的データに特有であり, ソースという要素は一般にも ともとデジタル形式でない資料にとって意味がある。関連という要素は極端にドメインに 依存している, 独特の疑わしさと不明確をもったセマンティクスを有している。その他の 専門化された要素もコアに含めるべきという議論もあるかもしれないが, そのことは, す べての種類の新しいメタデータに関する定義を爆発的に増やす恐れがある。
 

F.5 Dublin Coreはメタデータにおけるコンセンサスの発展に向けての重要なステップ

これらの批判の多くは当たっているけれども, Dublin Coreは, 少なくとも, 重要な分野 における将来の議論のためのしっかりした基盤である。完全なライブラリ・スタイルの記 述的分類はただ単に, 圧倒的大多数のネットワーク上のドキュメントにとってあまりにも 高くつくだけであり, より安い代替策への必要性は明白である。Dublin Coreは少なくともこの問題を扱っており, それを作り上げる努力はより長いプロセスの中 での最初の一歩として価値のあるものであったといえよう。

加えて, 限られたコンテクストにおけるDublin Coreの使用は非常に有用な結果を作っ たかもしれない。たとえば, 保全性の高いサイトの集合を想定してみよう。そのようなサ イトの管理者は, 相対的に統制のとれた語彙と規則的なシンタクスを含んだ非常に特定化 された実践の集合を利用して, こういったサイトのドキュメントをDublin Coreのメタデータ要素を用いてタグ付けするかもしれない。このような 保全性の高いサ イトを通しての情報検索効果は, おそらくLycosやAlta Vistaを通して現在利用可能な構造化されていない検索に比べて(メタデータを利用する 情報の獲得・検索のツールを想定すれば)非常によいものとなるであろう。 われわれは, これらのサイトが有料で検索サービスプロバイダを記載し, ユーザが検索を このようなサイトに限って行なうことが可能となるような市場構造を想像することができ るのである。
 

標準情報 TR X 000x-1998

メタデータ統合化体系: ワーウィクフレームワーク 解説



1. 公表の趣旨及び経緯

1995年のDublinメタデータ研究会の主催者たちは, 研究会の報告書にも"情報源の記述問 題の大きさと複雑さを避けて"とあるように, 意図的にその範囲を狭めていた。この制限 は研究会において何らかの具体的な成果を出すためには不可欠であると思われた。

Warwick研究会の初日が終わるまでには, この"制限を設けるという"戦略が以前に達 成されてきたものを越えるには障害であることが明らかになった。三つの問題が表面化し , それぞれわれわれの視野を広げる必要性を明確にした。

a) Dublin Coreの要素の数は拡大されるべきか? または減らすべきなのか?

研究会参加者の中には, 著作者の道具としてコアが成功するために, 記述要素は最低限の 基本的なものに限定すべきであると感じるものがいた。また一方で, 利用条件, 管理者の ための新しいフィールドを追加する必要を主張する向きもあった。

b) コアのシンタクスは厳密に定義されるべきか? またはそのままに残されるべきか?

多くの参加者が, 標準化の作業に加わった者はなら直面したことのある, 厳しい"シンタ クスをめぐる戦争"を回避したいと考えていた。しかし, シンタクスのより具体的な定義 がなければ, Dublin Coreは期待されるレベルの相互運用性を提供できない。

c) コアは既存のWWW構造のみを射程に入れるべきなのか? または構造を広げるべきか?

ウェブ環境の上で最近の実践とより緊密に合わせた, また簡単に既存のWWWフレームワー ク(ブラウザ, サーバ, HTML仕様など)の中で実装されることの可能な, メタデータ基準 の特定化によって簡単に採用をすすめる議論が根強く存在する。しかしながら, ウェブは 明らかに有限のネットワーク化された情報提供媒体であり, 多くのウェブの欠点がIEFT, W3Cや他の場所で活発に議論されている。多くの研究会参加者は, 彼らが記述するメタデ ータフレームワークが, 一方で, 既存のWWWの技術を拡大させ, FTPアーカイブのような, 古いもののいまだに重要であるネットワーク情報モデルを収容するだけの十分な柔軟性を 維持すること, しかし他方で, 分散オブジェクトシステムのように新しい情報提供環境へ と拡張可能であることが重要であると感じていた。

われわれは, コアメタデータ要素から焦点を外し, メタデータの一般的な原則を検討 することで, これらの問題にこたえることができる。
 

2. 未解決の課題

Warwick研究会における時間的な制約により, 提案されたフレームワークの全ての問題を 十全に解決することはできなかった。フレームワークを仕上げる前により細かな拡大され た考察を緊急に要するいくつかの項目がある。当然, Warwick Frameworkにおける最も根本的な問題は, コンテナの中で起こりうる, 多くのメタデータ 集合の間のセマンティクスの相互作用とオーバーラップである。パッケージはそれぞれあ る程度論理的に区別できるが, それらはいくつかの仕方でオーバーラップする可能性のあ るセマンティクスを持つ。

このオーバーラップは様々なレベルで起こりうる。まず, 一つのコンテナ内の二つの メタデータ集合の間で起こりうるセマンティクスの水平的なオーバーラップがある。その 一例は, 二つの記述的分類レコードを持つコンテナであり, 一つがMARC, もう一つがDubl in Coreである場合。また, 一方がコンテナの中にあり, 一方がそのコンテナに由来する任意 の再帰レベルにある二つのメタデータ集合の間に起こるセマンティクスの垂直的なオーバ ーラップの可能性もある(コンテナは別のコンテナを含んだり, 間接的に他のコンテナを 参照することがある)。一例は, オブジェクトの構造を下るに従って多様な利用条件を持 つ複雑なオブジェクトである。ここでの問題は, 複合的オブジェクトの中のパッケージに 含まれるメタデータがそれに当てはまるであろう, 一つまたは複数のオブジェクトの範囲 である。

最後に, オブジェクトに関連したメタデータのセマンティクスはメタデータの"消費 者"によって理解される必要がある。つまり, オブジェクトにアクセスするクライアント やエージェント, そしてこれらのクライアントやエージェントを形成するユーザーである 。われわれはWarwick Frameworkの完全な表現をする際に, メタデータを使いものにならないほどに複雑なもの にしてしまうという危険を冒している。適当なバランスを見つけることはデザインの中心 的問題である。

例えば, 普通のメタデータの消費者 --- 記述的データやネットワーク化されたオブジ ェクトを集めてそれを検索可能な目次に編集しようとする検索エンジンのことを考えると よい。このエージェントの設計は, 記述的分類のメタデータが, 関連性や一貫性なしにそ れぞれのオブジェクトごとに異なるいくつかのメタデータ集合に入っていたならば難しい だろう。この恣意的に混ぜられたメタデータから使用可能な目次をつくるルールはどうな るか? 複数のメタデータ集合間でどのようなセマンティクスの変形が可能だろうか?

われわれは, より複雑ではないにせよ類似の問題を, オーバーラップするオブジェク トのアクセス規則や利用条件を説明するメタデータに見出すことができる。マルチメディ ア文書のような複雑なオブジェクトへのクライアントアクセスの際には, いくつかの利用 条件を文書の複数のレベルで交渉する必要があるかもしれない(ある利用条件をテキスト のある節に, 他の利用条件ををフルモーションビデオの一部分, というように)。しかし まず第一に, クライアントに関係があるのは, オブジェクトがアクセス可能かどうか, そ してどれだけのコストがかかるかということである。これは, 特にコンテナ間の恣意的に 深い再帰や循環参照の可能性を考えると計算は困難である。われわれは, オブジェクトを クライアントやエージェントにアクセスできるように強く促す市場の力が, この性質の最 も複雑な問題を回避すると考える。

Warwick研究会で表面的にしか議論されなかった提案が, Dublin Coreの関係性要素を 外部化・一般化する関係性メタデータパッケージを開発することの可能性であった。もし この方法が採用されれば, 改訂Dublin Coreからは関係性要素は取り除かれ, 複合オブジェクトについての曖昧さの一因が消える ことになる。しかし, Dublin Coreだけでなく多くのメタデータ計画が, 関係性や階層構造の概念を含むため, これは問 題を完全には解決しない。

この根本的な問題に加えて, Warwick Frameworkを実装する上で検討が必要ないくつか の実装の問題を次に掲げる。
 

2.1 型レジストリ

Warwick Frameworkの設計は, パッケージが強く型付けられることを要求する。これは, エージェントやクライアントがパッケージの中のメタデータの型を特定できるということ を意味する。メタデータ集合の定義者は, 一連の操作やその操作のセマンティクスがパッ ケージ毎に厳密に定義されているようにしなければいけないということである。われわれ はメタデータの型の限られた集合が広く使われ, エージェントやブラウザやクライアント はこれらのメタデータの型を加工するように設定されていくことを期待する。これは既存 のWWWブラウザが内部的にMIME型の文書を加工することができることと類似である。

後述するように, 新しいメタデータ集合や既存の集合のバリエーションが現われるこ とにそなえて, 型システムは拡張可能でなければならない。既存のクライアントやブラウ ザはこの新しい型をどのように扱うのだろうか? 最も単純な解決法は, 新しいメタデータ型が現れるたびに既存のソフトウェアがアップグ レードされるべきである, というものである。そのアップグレードが行なわれるまでは, コンテナ構造は少なくとも, ソフトウェアが新しい未知のパッケージ型を飛ばし, ユーザ にそのことを伝えることを許可するものになっていなければならない。このような解決法 は新しい型がしばしば現れると対応できない。よりよい解決は, ネットワークを基にした ソフトウェアによって問い合わせ可能な型レジストリサービスである。このサービスは, クライアントにそれ自身を新しい型を処理できるように再設定することや, 新しい型を処 理するためにネットワークでアクセスできるアプレットまたはヘルパーアプリケーション のダウンロードを可能にする情報を提供することができる。

しかし, この方法にも限界は存在するが, 十分理解されていない。型のシステムは処 理アプリケーションに, 新しい型のある種の意味を伝達する必要がある。これは, アプリ ケーションにまず, その新しい型を知らないことが果たして問題なのかどうかを最初に判 断することを可能にするかもしれない。この回答に基づいて, アプリケーションは機能拡 張やヘルパーアプリケーションをダウンロードする必要があるかを判断することができる 。例えば, 現在のブラウザは起源についての情報を処理しないし, 多くのユーザは起源に ついて理解しも気にもしない。

階層構造や, もしかしたらある種の継承が, 型システムに必要かどうかの問題もある 。例えば, われわれは, 権利と許可のメタデータについての一般的なクラスが, このメタ データの型に使われている多様な"方言", 及び転送シンタクスならびに表現を理解す ることを望むだろうか。
 

2.2 データの符号化

Warwick Frameworkは, データ符号化に関して二つの問題を持っている。コンテナのレベ ルでは, パッケージの集合を転送するためのシンタクスは何かという問題である。転送シ ンタクスは, コンテナのレベルでは内容が不明であるパッケージのシンタクスからそれ自 体独立である必要がある(パッケージそのものが符号化されることさえあるかもしれない )。それは型の情報を持っている必要がある。理想的には, われわれはそのシンタクスが 比較的単純になることを信じている。われわれはこのコンテナのシンタクスについての提 案を後続の実装の節に含めることにする。

データ符号化に関するより困難な問題はパッケージのレベルにある。ここにはただ一 つの正解は存在しない。いくつかのメタデータ集合はASCII文字で属性と値の組として適 切に表現されうる。他のメタデータ集合のデザイナはSGML, HTML, ASN.1といった他の構 造を好むかもしれない。このシンタクスに含まれるフィールドは, 単なる文字列や整数よ りも遥かに複雑かもしれない。例えば, オブジェクトへアクセスするための利用条件を説 明したルールを考えるとよい。最も単純な場合には, このルールはオペレーティングシス テムの世界でよく確立されているようなアクセス制御リストによって表現されるだろう。 しかしながら, デジタル分野における現在の法律とビジネスの枠組みの完全な表現の為に は, 交渉, 挑戦と応答, 第三者サービス(支払いサービス, 認証サービスなど)との相互 作用などに対応するルールも必要となる。この型の適応的・相互作用的メタデータは実行 可能なプログラムやエージェントを通じて最もよく表現される。

メタデータをそれぞれ独立したシンタクスを持つ分離したパッケージに分節化すると いうわれわれの方法は, この問題において少なくとも進歩をもたらす。単純なクラスのメ タデータは単純なシンタクスを使用できるし, より複雑な要求を含むクラスはより複雑で 強力なシンタクスを得ることができる。しかし, Warwick研究会を動機づけた中心的な問 題に立ち帰ると, Dublin Coreのデータ要素それ自身のための一つ以上のシンタクスについての合意が必要である。
 

2.3 効率性

Warwick Frameworkの力は, その再帰的で, 分散的な特質に求められる。このことはモデ ルに大きな力を与えるが, 実際の実装においては非効率になる恐れがある。比較的単純な World Wide Webにおいても, インターネットはしばしば耐え難く遅く, 信頼性に欠ける。接続は , しばしば過負荷, サーバの失敗, その他によって失敗したりタイムアウトに陥ったりす る。Warwick Frameworkの完全な実装においては, "文書"へのアクセスは, 分散されたレポジトリ間 での複雑な交渉を必要とするかもしれない。この分散アーキテクチャのパフォーマンスは 予測不可能で, 複数の場所での失敗の可能性を秘めている。この分散アーキテクチャにお ける効率的な操作は, キャッシュ, データやオブジェクトの複製, 動的な負荷の均衡化や 分散システム研究で検討されているその他の方法を用いて改良されたネットワークの情報 通信基盤に依存することになる。
 

2.4 レポジトリアクセス

コンテナやパッケージの交換と検索のために, いくつかのプロトコル作業が必要であるこ とは明白である。われわれは, 検索の為の多様な形式の必要性を予想する。単純な場合は , オブジェクトの為のコンテナの検索である。より複雑なケースは, 特定の型の集合を持 つパッケージを含むコンテナだけを検索する場合である。このプロトコルへの要求の詳細 は全く研究されていない。Warwick Frameworkとレポジトリ構造における現在進行中の作業との間の関係性の調査は有意義な ものとなるだろう。
 

3. 懸案事項

TBD

4. 参考文献

5. 原案作成委員会

この標準情報(TR)原案を作成した国際大学グローバルコミュニケーションセンターの電子商取引消費者インタフェース委員会の委員構成を次に示す。

氏名所属
(主査)小町 祐史松下電送株式会社
(幹事)山内 康英国際大学グローバルコミュニケーションセンター
大久保 彰徳株式会社リコー
奥井 康弘株式会社日本ユニテック
上村 圭介国際大学グローバルコミュニケーションセンター
檜山 正幸檜山オフィス
古瀬 幸広立教大学
堀越 裕太郎通商産業省工業技術院標準部
(事務局)森光 裕行国際大学グローバルコミュニケーションセンター


[目次に戻る]