標準情報 TR X 0008-1998

拡張可能なマーク付け言語(XML) 解説



1. 公表の趣旨及び経緯

XML(Extensible Markup Language)は, World Wide Web Consortium(W3C)によって1996年11月に最初の規定案が発表されて以来, それまでのHTML又はSGMLの多くのユーザの注目を集めると共に, その後の規定案の改訂によってユーザ要求の充足を積極的に続けている。(財)日本規格協会 情報技術標準化研究センター(INSTAC)のマルチメディア/ハイパメディア調査研究委員会は, 1996年度の活動においてこのXMLの急速な立上がりに着目し, その調査研究を行って, "技術標準等の早期公開によるJIS化の前提となるコンセンサスの形成を促進する" という標準情報(TR)によるXMLの公表の必要性を提言した。

マルチメディア/ハイパメディア調査研究委員会は, 通商産業省工業技術院からの委託を受けて1997年度の活動として, その作業グループ(WG4)の中にXML特別作業グループ(XML-SWG)を組織し, XMLの翻訳及びW3Cへのコメント提出を行ってきた。

翻訳作業は,

に対して行い, 1997年12月版の翻訳が標準情報(TR)原案として, 1998年2月6日に工業技術院に提出された。

XMLと並行してW3Cが開発しているXLL(リンク機構)及びXSL(スタイル指定)については, 1997年度始めのマルチメディア/ハイパメディア調査研究委員会の計画では, 1997年度にそれらの素訳が完成するはずであったが, W3Cでの作業の遅れにより, 実質的な翻訳作業は1998年度に延期された。

2. 審議中の主要検討課題

2.1 訳語

訳語選定に際しては,SGMLを規定しているJIS X 4151との整合を配慮した。しかしその後にJISとして出版されたSGML関連規格において,適切な理由に基づいてJIS X 4151の訳語を変更している用語については,なるべく新しいSGML関連JISの訳語を採用している。

この標準情報(TR)で採用した主な訳語の例を次に示す。

原語訳語
well-formed整形式
valid妥当
validity 妥当性
parsed entity 解析対象実体
unparsed entity 解析対象外実体
escape 別扱い
surrogate blocks サロゲートブロック
ideographic 統合漢字
markup マーク付け
left angle bracket 不等号(小なり)
right angle bracket 不等号(大なり)
adaptations annex 適用附属書
root ルート
base character 基底文字
diacritical mark 発音符(初出のとき"ダイアクリティカルマーク"を補う)
composed form 合成形式
validating 妥当性を検証する
content particle 内容素子
mixed content 混合内容
match マッチ
character value 文字番号
byte order mark バイト順マーク
bypass 処理しない
identify 特定する
token トークン
literal リテラル
extenderエクステンダ

2.2 章・節構成

W3Cの規定は, 必ずしもJIS又はTRの様式には整合していないため, 変更が必要である。しかしTRの読者が原規定を参照する際の便を考慮すると, 章・節構成はなるべく原規定のそれを保存することが望まれる。そこで, 次に示すだけの修正(章・節番号の変更なし)を施して, TR原案とした。

2.3 原案提出時期と記述内容との関係

この標準情報(TR)は, XMLの1997年12月版を翻訳したものであるが, 翻訳作業には有限の時間を伴い, 原案提出は1998年2月6日となった。その結果, 原規定の"Status of this document"に記されている次の記述が無意味となり, この標準情報(TR)にはその翻訳を含めなかった。

This document is currently undergoing review by the members of the World Wide Web Consortium.
The review period for this Proposed Recommendation will end on January 5, 1998. Within 14 days from that time, the document's disposition will be announced: it may become a W3C Recommendation (possibly with minor changes), or it may revert to Working Draft status, or it may be dropped as a W3C work item. This document does not at this time imply any endorsement by the Consortium's staff or member organizations.

その代わりに, 原案提出後に, 次の記述をこの標準情報(TR)の"まえがき"の最終段落に追加している。

原規定である勧告案のレビュー期間は1998年1月20日に終了し, 寄せられたコメントへの回答は1998年2月10日に公開された。原規定に軽微な変更[この技術標準(TR)には反映されていない]を加えたものがW3Cの勧告として1998年2月10日に発行されている。この勧告は, http://www.w3.org/TR/1998/REC-xml-19980210 から入手できる。

3. 日本語プロファイル

3.1 目的

日本語プロファイルは,XMLの枠組みの範囲のなかで文字の符号化方式についての明確化を行うことによって, 日本語で書かれたXML文書の交換性を高める。日本語以外の言語で書かれたXML文書については対象としない。

XMLは, Unicode 2.0が扱えるすべての言語を対象とし,UTF-8又はUTF-16で符号化された文書の交換性を保証する。しかし,日本語を用いて書かれるXML文書の交換性を充分に保証するわけではない。

シフトJIS, 日本語EUC, ISO-2022-JPなどの符号化方式は広く用いられているが,XMLにおいては単なるオプションの一つに過ぎず,厳密な定義はXMLでは与えられていない。SMTP, HTTPなどのプロトコルでどの符号化方式を用いるかについても, 特に定められてはいない。

日本語プロファイルは,UTF-8及びUTF-16以外にどんな符号化方式を使用するかを明確化することによって, XMLを補完する。日本語プロファイルとXMLとを組み合わせることによって,日本語XML文書についての交換性が保証される。日本語プロファイルの利用者は,日本人に限るわけでも,日本国内にいる人に限るわけでもない。日本国内にいる日本人が,日本語対応プロファイルを用いずにXML文書を作成することを排除するものでもない。日本語プロファイルに従っていれば, 交換性が高まるということだけが, 日本語プロファイルの効果である。たとえば, 日本語プロファイルに従わずに, EBCDICで符号化した日本語XML文書を送信することは可能であるが, 受信側で処理できる可能性は低い。

3.2 全角英数字及び半角片仮名

全角英数字(JIS X 0208のラテン文字用図形文字)及び半角片仮名(JIS X 0201の片仮名用図形文字)については, その使用を避ける。XMLの規定は,Unicode 2.0の互換性文字の使用を避けることを薦めている。

文字参照(番号による文字指定)又は実体参照によって,全角英数字又は半角片仮名を表現することができる。この方法を用いれば,どんな符号化方式でも,全角英数字又は半角片仮名を表現できる。

3.3 情報交換用ファイル中のXML文書

情報交換用ファイルに記憶されるXML文書については,BOM及び符号化宣言を付けることを原則とする。ただし,UTF-8の場合だけはこれらを省略できる。この原則は,この標準情報(TR)の附属書Fに示されている。

情報交換用ファイルに日本語XML文書を記憶するときの文字符号化方式としては,UTF-16, UTF-8, ISO-2022-JP, 日本語EUC(圧縮形式), シフトJISのいずれかを使う。これら以外の符号化方式は使用しない。

符号化宣言で指定する名前は,"UTF-16", "UTF-8", "ISO-2022-JP", "EUC-JP", "Shift_JIS"とする。これらの定義は,Internet Assigned Numbers Authority (IANA)から得られる。

XML文書を表現するオクテットデータストリームがアプリケーションの入出力となる場合も,情報交換用ファイルについての規定を適用することが望ましい。

XML専用の符号化方式変換プログラムの開発が望ましい。このプログラムは,コード変換だけではなく,BOM又は符号化宣言の書換えも行う。半角片仮名又は全角英数字が含まれている場合は,文字参照(番号による文字指定),実体,全角片仮名又は半角英数字のいずれかに変換する。

XML専用の符号化方式判定プログラムの開発が望ましい。ほかにも,XML文書先頭のBOM又は符号化宣言が文書の残りを構成するビット列と矛盾していないかどうかを判定するプログラム,BOM又は符号化宣言の修復を行うプログラムも考えられる。

3.4 HTTPによるXML文書の配送

HTTPによる配送では,メディアタイプtext/xmlを用い,charsetパラメタを必ず正しく付けることを原則とする。この原則は,この標準情報(TR)の附属書Fに示されている。

WebサーバからXML文書を配送するときの符号化方式は,UTF-16, UTF-8, ISO-2022-JP, 日本語EUC(圧縮形式)のいずれかとする。

Webサーバのコンフィギュレーションによって,xmlのファイルタイプと,

とを関係付ける。これらが, MIMEのcontent-typeパラメタ及びcharsetパラメタの値として用いられる。もし,charsetパラメタを付けなければ,ISO-8859-1と誤認されてWebクライアントで文字化けする可能性がきわめて高い。詳細は, HTTP1.1の規定を参照されたい。この標準情報(TR)の附属書Fにも同様の記述がある。

符号化方式を表す名前は,"UTF-16", "UTF-8", "ISO-2022-JP", "EUC-JP"とする。

Proxyサーバがコード変換を行う場合は,受け取ったcharsetパラメタだけに基づいて符号化方式を決定する。変換した後の符号化方式は,送り出すときのcharsetパラメタによって指定する。XML文書中の符号化宣言を書き直す必要はない。

Webクライアント(ブラウザなど)は,メディアタイプtext/xmlのcharsetパラメタに従って,符号化方式を決める。この標準情報(TR)の附属書Fにも同様の記述がある。

Webクライアントが,XML文書をファイルに記憶するときは,符号化宣言を付ける。ただし, UTF-8の場合だけは省略できる。記憶するときに, 符号化方式の変換を行ってもよい。

3.5 メールによるXML文書の配送

XML文書をメールの本文として送信する場合は,符号化方式としてUTF-16, UTF-8, ISO-2022-JPのいずれかを用いる。

UTF-16の場合は, メディアタイプapplication/xmlを用い, それ以外の場合はメディアタイプをtext/xmlとする。どの場合も, charsetパラメタを必ず付ける。符号化方式を表す名前は,"UTF-16", "UTF-8", "ISO-2022-JP"とする。

UTF-16又はUTF-8の場合は, 必要ならbase64を適用する。

3.6 参考文献

4. 懸案事項

この標準情報(TR)は, XML原規定の1998年12月版を翻訳したものであるが,1998年2月10日に, World Wide Web Consortiumがその改訂版を公表した。同様の改訂は, 今後もあり得る。そこで, この標準情報(TR)は, ウェブ版などによってきめ細かくこれらの原規格の改訂に対応していくことが望まれる。

5. 原案作成委員会

この標準情報(TR)原案を作成した(財)日本規格協会 情報技術標準化研究センター(INSTAC)のマルチメディア/ハイパメディア調査研究委員会, 作業グループ(WG4)及びXML特別作業グループ(XML-SWG)の委員構成を, その順に次に示す。

マルチメディア/ハイパメディア調査研究委員会
氏名所属
(委員長)池田 克夫京都大学
(幹事)鯵坂 恒夫和歌山大学
(幹事)小町 祐史松下電送株式会社
(幹事)藤村 是明電子技術総合研究所
内山 光一株式会社東芝
久保田 靖夫大日本印刷株式会社
黒川 利明日本アイ・ビー・エム株式会社
神野 俊昭株式会社日立製作所
斎藤 伸雄凸版印刷株式会社
澤田 位財団法人日本規格協会
滝川 啓NTTソフトウェア株式会社
田畑 孝一図書館情報大学
橋爪 邦隆通商産業省工業技術院標準部
長谷川 敬太日本電信電話株式会社
平山 亮ヒューレット・パッカード日本研究所
振角 秀行通商産業省機械情報産業局
古瀬 幸広国際大学グローバルコミュニケーションセンター
柳町 昭夫日本放送協会放送技術研究所
オブザーバ掘 純一郎日経BP社
(事務局)山中 正幸財団法人日本規格協会


作業グループ(WG4)
氏名所属
(主査)小町 祐史松下電送株式会社
(幹事)内山 光一株式会社東芝
上村 圭介国際大学グローバルコミュニケーションセンター
北野 敬介日本サン・マイクロシステムズ株式会社
黒川 利明日本アイ・ビー・エム株式会社
郡山 龍株式会社アプリックス
澤田 位財団法人日本規格協会
山東 滋株式会社日立製作所
田中 義之通商産業省機械情報産業局
仁保 信市株式会社東芝
乃木 篤株式会社CSK
湯原 孝志通商産業省工業技術院標準部
オブザーバ浅利 千鶴浅利会計事務所
オブザーバ滝川 啓NTTソフトウェア株式会社
オブザーバ塚本 享治電子技術総合研究所
オブザーバ古瀬 幸広立教大学
オブザーバ吉川 徹志通商産業省機械情報産業局
(事務局)山中 正幸財団法人日本規格協会


XML特別作業グループ(XML-SWG)
氏名所属
(主査)村田 真富士ゼロックス情報システム株式会社
内山 光一株式会社東芝
小町 祐史松下電送株式会社
檜山 正幸檜山オフィス
奥井 康弘株式会社日本ユニテック
高橋 亨株式会社日立製作所