7-6 JTC1/SC34 文書の処理と記述の言語

小町 祐史 (パナソニックコミュニケーションズ(株))

1. 担当範囲と組織構成

SC34(Document Processing and Description Languages)は, 広義の文書情報の交換に用いられる文書データの構造記述, ハイパリンク記述, スタイル指定, フォーマット済み文書記述およびそれらに必要なフォント情報に関する標準化を行う.議長は, J. Mason(US).9ヶ国のPメンバ(投票権のあるメンバ)と6ヶ国のOメンバ(投票権のないメンバ)が参加して, 次のWG(作業グループ)が組織されている.

WG1(マーク付け言語) -- コンビナ(作業グループの議長): M. Bryan(UK)
SGMLに代表される情報記述言語およびそれに関連するサブセット, API, 試験, 登録などの規格を担当する.

WG2(情報表示) -- コンビナ: 小町祐史(日本)
文書のフォーマティング, フォント情報交換, フォーマット済み文書記述およびそれらのAPIを規定する規格を担当する.

WG3(情報関連付け) -- コンビナ: S. Pepper(Norway)
文書情報のリンク付け, 番地付け, 時間依存情報表現, 知識処理および対話処理を規定する規格を担当する.

2. 主要プロジェクトの進展状況

2.1 WG1関連

2.1.1 文書スキーマ定義言語(DSDL, ISO/IEC 19757)

XML等で表現されるデータの構造, データ型, データ制約の定義を行うDSDLに関して, パート構成と担当のエディタが次のように変更された.

パート 1: Overview, G. Ken Holman (Canada)
パート 2: Regular-grammar-based validation - RELAX NG, James Clark (UK) and Makoto Murata (Japan)
パート 3: Rule-based validation - Schematron, Rick Jelliffe (Australia)
パート 4: Namespace-based Validation Dispatching Language, Makoto Murata (Japan)
パート 5: Datatypes, Alexander D. J. Brown (UK)
パート 6: Path-based integrity constraints, James Clark (UK)
パート 7: Character repertoire validation, Diederik Gerth van Wijk (Netherlands)
パート 8: Declarative document manipulation, Martin Bryan (UK)
パート 9: Datatype- and namespace-aware DTDs, Francis Cave (UK)
パート10: Validation framework, Eric van der Vlist (ISUG)

主なパートの動向を次に示す.

(1) パート1(Overview)

2002年度末の2回目のCD投票によって承認され, 2003年5月の会議で投票コメント対処を承認した.この会議で, 以前のパート0がこのパート1に改められ, それに対応して以前のパート1(Interoperability framework)がパート10(Validation management)に改められた.パート10の表題は, その後Validation frameworkに変更されている.CD投票コメント対処を反映したパート1の改訂テキストは, まだ配布されていない.

(2) パート2(Regular-grammar-based validation - RELAX NG)

2002年12月に作成されたFDISテキストに対する投票がなかなか開始されず, ITTF(ISO/IEC Information Technology Task Force)の事務処理が問題となったが, ようやく2003年10月を期限とするFDIS投票が行われた.11月のTable of replyで承認が示され, 12月に国際規格として出版された.

その後, 正規文法に基づく妥当性検証(regular-grammar-based validation)用の別の記法としてRELAX NGコンパクト構文を規定したいという要求が提出され, それを附属書(規定)としてパート2に追加するAmd.(追補)の開発が開始された.

(3) パート4(Namespace-based Validation Dispatching Language)

ISO/IEC TR 22250-2(RELAX Namespace)をDSDLの体系に整合させたこのパート4の内容に関するWG1での議論を反映したCDテキストは, 2002年度末のCD投票によって承認され, 2003年5月の会議で投票コメント対処を承認した.その後, 名前空間ルーティング言語をパート4に追加することが要求され, 2003年12月の会議でそれに合意して, 改訂文書を次の投票にかけることになった.

この間, このパート4は次のようにその表題を変えている.
- Selection of Validation Candidates [SC34 N415: Disposition of CD comments (2003-05-07)]
- Namespace-based Validation Candidate Selection [SC34 N464: WG1 recommendation (2003-12-7)]
- Namespace-based Validation Dispatching Language [Secretariat Manager's Report (2004-03-29)]

(4) パート5(Datatypes)

データ型(datatypes)に関する素案への反対意見が強く, 検討を継続している.日本は, エディタの素案とは独立に, 携帯端末用のデータ型の必要性を主張して, XMLスキーマのデータ型の部分集合を提案(SC34 N410)した.さらに日本からの関連活動として, パート2の検証器から利用するための和暦データ型を提案し, 実装例を公開した.

データ型に対する多様な要求に対応するため, データ型を登録するための登録手続きの標準化を日本は提案したが, 2003年12月の会議では, データ型ライブラリ言語を拡張可能なデータ型ライブラリを定義するための基礎として用いたパート5の編集をエディタに指示することになった.

(5) 2004年4月のWG1会議

DSDLのパート3(Rule-based validation: Schematron), パート4(Namespace-based Validation Dispatching Language), およびパート7(Character repertoire validation)の改訂案が2004年4月のWG1会議のわずか数日前に提出されたため, それらをレビューしコメントする時間的余裕がなかった.それでWG1は, 参加国に対して, これらの改訂案を電子的に非公式レビューすることを求めることにした.コメントをエディタに5月までに提出し, それを受けてエディタは, 投票用文書の最終版を6月はじめまでに用意することになった.

2.1.2 規格文書の構造記述とスタイル指定(ISO/IEC TR 9573-11 第2版)

2002年度末にジュネーブで開催されたエディタ会議で, このDTRコメント対処文書に従って出版用の最終文書が作成され,SC34セクレタリアート経由でJTC1からITTFに提出されたが, その後のISO/CSによる規定内容のレビューと修正に1年近くを要した.その間にさらに2回のエディタ会議をジュネーブで行い, 最終校正結果に対するISO/CSとエディタとの議論が終結したのは, 2004年3月であった.出版は, 2004年4月となつた.

多くの時間をかけた規定ではあるが, 必ずしも多くの規格文書データについて実際の処理系でこの規定内容を確認してはいないため, 今後は実際の処理系での検証結果をCor.(技術訂正)またはAmd.によって規定内容に反映していく必要があろう.

2.2 WG2関連

2.2.1 フォント情報交換(ISO/IEC 9541)

ISO/IEC 9541-3(グリフ形状表現の拡張)/PDAM1のテキストが作成され, 2004年4月のSC34総会でSC34 N508として受理され, PDAM処理のためにSC34セクレタリアートに送付されることになった.

注: このAmd.1は, ISO/IEC 10036登録機関によるビットマップフォントの形状表現の要求に基づく.

2.2.2 フォント関連オブジェクトの登録(ISO/IEC 10036)

フォント関連オブジェクトの登録手続きの電子化を目的とするCor.2の原案が, 2002年9月を期限とする投票によって承認され, 2002年末に発行された.

2.2.3 文書スタイル意味指定言語(DSSSL, ISO/IEC 10179)

Amd.1は, マルチメディア文書に対応して, DSSSLの流し込みオブジェクトクラスを拡張し, 領域(area)を拡張する.実装を容易にするために, グローブ設計, SGML特性集合などを整理して附属書として追加している.このFDAM1に対する投票は, 2003年7月を期限として行われた.

この投票の結果を待たずに, ITTFは5月にFDAMテキストの校正をエディタに求め, 出版作業の前倒しを要求してきたので, それへの対応を行った.FDAM投票結果は反対なしで承認となったが, カナダとUKからのコメントがあり, ITTFと相談の上, 最終テキストへの反映を行った.出版は, 2003年10月となった.

さらに複雑な文書スタイルおよび多言語文書への拡張をサポートするためのAmd.2については, 2003年5月の会議でプロジェクトが承認され, 2003年12月にPDAMテキストが提出された.これは2004年3月期限のPDAM投票で承認された.

2.2.4 DSSSLライブラリ(ISO/IEC TR 19758)

DSSSLライブラリは, 標準一般化マーク付け言語 SGML(ISO 8879)又はXMLで記述された複雑な構造化文書に対して, DSSSLを用いてフォーマット指定を行う場合に用いるDSSSLライブラリを提供する.このライブラリを用いることによって, DSSSL及び組版に関する専門的な知識を必要とせずに, フォーマットのDSSSL指定を行うことを可能にする.日本からのFast-track手続きによるこの原案は, 2002年5月を期限とするDTR投票によって承認され, 2003年4月にISO/IEC TR 19758:2003が出版された.

DTR投票に際してUKから提出されたTR 19758の適用範囲の拡大要求に関して, コメント対処は今後の課題としてAmd.等での検討を回答している.DSSSLライブラリの内容は, JTC1又はSC34のPメンバでない東南アジア諸国の文書にも密接な関係があるため, CICC(国際情報化協力センター)の主催で開催されているDocSII(Asian Document Style Standardization for Information Interchange)会議で紹介され, いくつかの拡張要求が提出されて, Amd.のための作業が開始された.

Amd.1は, 表組に関するスタイル指定ライブラリを追加し, 基本組体裁を拡張する.表組の規定内容は, 標準情報TR X 0010追補1に基づき, 基本組体裁の拡張は, 日本規格協会の情報技術標準化研究センター(INSTAC)における電子出版技術調査研究委員会の2002年度の調査研究に基づく.PDAM1テキストは, 2004年12月にSC34に提出され, 2004年3月期限のPDAM投票で承認された.

Amd.2は, 東南アジアの文書で用いられるスタイル要素をライブラリに追加する.これらのスタイル要素提案は, 国際情報化協力センター(CICC)のDocSIIプロジェクトの現地調査(主としてタイ, ラオス)によってその利用者要求が明らかにされ, INSTACにおける電子出版技術調査研究委員会の調査研究によって記述されたライブラリに基づく.PDAM2テキストは, 2004年12月にSC34に提出され, 2004年3月期限のPDAM投票で承認された.

Amd.3は, 南アジアおよび北アジアの文書で用いられるスタイル要素をライブラリに追加する.これらのスタイル要素提案は, 国際情報化協力センター(CICC)のDocSIIプロジェクトの現地調査(主としてモンゴル, スリランカ)によってその利用者要求が明らかにされ, INSTACにおける電子出版技術調査研究委員会の調査研究によって記述されたライブラリに基づく.PDAM3テキストは, 2004年4月にSC34に提出された.

2.3 WG3関連

2.3.1 トピックマップ(TM, ISO/IEC 13250)

(1) Cor.1

ISO/IEC 13250:2000に対する承認済みCor.1を含んだISO/IEC 13250 第2版のテキストが作成され, それの校正作業が2003年2月に行われて, 同年5月にISO/IEC 13250:2003として発行された.

(2) TMマルチパート

トピックマップの規格を再構成して次の機能を含め, TM規定のマルチパート化を図る新作業課題が提案され, 2003年3月にNP投票が行われた.

日本は賛成投票を行い, エディタ候補を推薦した.投票の結果, このNPは承認(SC34 N388rev)され, 2003年5月の会議で次の課題の作業内容が明らかにされた(SC34 N423).
パート1: Overview and Basic Concepts(概要および基本概念)
パート2: Data Model(データモデル)
パート3: XML Syntax(XML構文)

2003年12月の会議では, これまで独立した課題として議論されてきたCanonical XML Syntax(正準XML構文)をパート4に位置付け, 2004年4月の会議でReference Model(参照モデル)をパート5に位置付けた.

パート2は, 2004年1月を期限とするCD投票で承認された.2003年度末までにパート3および4に関して, CDテキストが配布され, 投票が開始されている.

2.3.2 トピックマップ問合せ言語(TMQL, ISO/IEC 18048)

利用者要求とuse caseに関する文書(それぞれSC34 N448, N449)が提出され, その改訂作業が行われた.問合せ言語として4案(AsTMa?, TMPath, tologおよびToma)が提案され, TMQLメーリングリスト上で検討の後, WG3の合意をSC34 N502にまとめた.

2.3.3 トピックマップ制約言語(TMCL, ISO/IEC 19756)

利用者要求がまとめられ(SC34 N405), 2003年12月の会議での議論を反映した新テキストの作成が進められている.

2.3.4 ハイパメディアマーク付け言語(HTML, ISO/IEC 15445)

Cor.1(2001年11月に承認)に基づいて進められていたISO/IEC 15445の修正作業は, このCor.1を含んだテキストISO/IEC 15445 corrected versionの作業に切替えられた.(SC34 N424に, エディタとISO/CSとの相談によってこの切替えが処理されたことが示されている.) その内容は, ISO/IEC 15445:2003として2003年5月に出版された.