6.1 複数のラベリング分類枠とフレームワーク

ラベリングの分類枠、すなわち属性の組がいくつか提案されたとき、それら複数の分類枠に共通点が見いだされることがある。積極的に共通性を持たせるためのガイドラインがフレームワークである。なお、分類枠を属性辞書とも呼ぶ。

複数の属性辞書の共通性、あるいは相互運用性を確立するには(本質的には同等な)2つの方法しかない。標準辞書を定め、個別の辞書の項目を標準辞書に対応させるか、問題となる複数の辞書間の関係を直接記述するかである。

標準辞書には次の問題がある。

直接対応でもほぼ同じ問題がある。 これらの困難を減少させるため、フレームワークでは次の点を定義するのが望ましい。

6.2 相互運用のために

単一の属性辞書で、全ての分野のラベリングをカバーすることは困難である。 製品分野、業界、業種などにより、それぞれの辞書を準備する必要がある。し かし、非常に汎用的なラベル項目は、共通辞書としてまとめることが望ましい。

例えば、"値段"、"価格"、"料金"などと名付けられるラベル項目は意味的には 同じ(少なくとも類似の概念)である。"使用料"、"プレイフィー"、"単価"など も同じ概念を表す。よって、属性の名前、概念、構造を定式化しておく必要が ある。例えば、SGML(またはXML)の要素型定義構文を使うなら次のようになる。

<!ELEMENT 価格 (金額, 単位?, 備考?) >
<!ELEMENT 金額 EMPTY>
<!ATTLIST 金額
    値       NUMBER #REQUIRED
    通貨単位 NAME   #IMPLIED -- 円、ドルなどの標準化された名前 --
>
<!ELEMENT 単位 (#PCDATA) -- 記述 -->
<!ELEMENT 備考 (#PCDATA|%phrases;)* -- 注意事項など -->

インスタンス例:
<価格>
  <金額 値="980" 通貨単位="YEN"/>
  <単位>1ダースセットあたり</単位>
  <備考>ばら売りは不可</備考>
</価格>

個別の辞書は、共通に定義されたラベル定義を適宜参照しながら、独自の分野 のラベルを追加することによって作成すべきである。そのためにも、辞書の公 開と辞書作成者間の密な調整が必須となる。

6.3 シソーラスの例(参考)

現在、ラベリングを目的に作られた本格的な属性辞書は存在しない。しかし、 商品分類の試みや、検索用のシソーラスは既に実例が多く存在する。これらの 先例は、標準辞書を考えるに当たって参考となる。そこで、シソーラスを作成 する立場、商用データベースのシソーラスの利用、検索方法について述べる。

シソーラスで重要なのは、商品カテゴリごとの用語の統一である。用語の揺 れが大きいとシソーラスとしては使いにくいものになる。この用語の揺れにつ いては分析ツールを用いて解析を行い、実用になる範囲を見極めながらクラス タリングを行い、形式化する。

用語辞書→クラスタリング→かたまりを見つける→分析(知識ベース)→形式化

類似語については、

を見極めながらクラスタリングを行う。同義語・関連語については、ディスク リプタとして統一する。しかし現実には意味する範囲が広くかつ一様ではない ので、作業としてはかなり経験の必要なものになる。

次に商用データベースとして我が国で広く使われている日経シソーラスにつ いて調査を行った。この調査は、商用のシソーラスではどのような分類を行っ ているのかと、少し時間のたったシソーラスでどの程度カバーが可能なのかを 検討することの二つであり、1995年版を用いている。

分類は、22の大分類と151の小分類になっている。

大分類
 共通
 経済・産業
 経営・企業
 農林水産
 食品
 繊維・木材・紙パ
 資源・エネルギー
 金属・土石
 化学
 機械・器具・設備
 電子機器
 情報・通信
 建設
 流通・サービス・家庭用品
 環境・公害
 科学技術・文化
 自然界
 国際
 政治
 地方
 社会・家庭
 地域

小分類は、今回の対象となると考えられるもののうち、事務用機器を例に取る と次のようになっている。

事務用機器
 OA関連製品
 OA機器
  ワードプロセッサー
 黒板
  電子黒板
 自動製図器
 事務用家具
  OA用家具
  金庫
   耐火金庫
  事務用いす
  事務用机
  ファイリングキャビネット
  ロッカー
 シュレッダー
 タイプライター
  電子タイプライター
  電動タイプライター
  和文タイプライター
 タイムレコーダー
 ディスプレー用フィルター
 電子手帳
 電卓
  カード電卓
  関数電卓
  ゲーム電卓
  ソーラー電卓
  電卓ウオッチ
  プリンタ電卓
 複写機
  カラーコピー
   カラーPPC
  中古複写機
   PPC
  マイクロ写真装置
   マイクロリーダー

事務用機器という分類は、比較的商品の移り変わりは少ないと思われるが、実 際には数年単位でかなり実態とことなる面も見られる。たとえばタイプライター や電卓がかなり細かい分類になっているのに比べ、複写機はディジタル複写機 や多機能型の複写機がないなどがこの数年の動向を反映出来ていないことが分 かる。

商品に関するシソーラスは、商品の入れ替わりが激しいため固定した辞書を持っ て対応するのは、問題がある。一方ユーザにとっては、分類を変えること(特 に減らすこと)は混乱を招きかねない。しかし、このような分類体系を採用し た場合は、項目を減らすことを考えていかないと時間とともに使いにくいもの になっていくという問題もある。 

以上、主に分類の観点からシソーラスについて述べた。これらの例は、属性辞 書を用意すべき領域の選定、そして、"商品型"といった、カテゴリー自体を参 照する属性の値を決定するときに参考となろう。


[6.目次に戻る] [7.に移る]