<目次>
1. 情報処理技術の動向と問題
2. 多言語情報処理環境の目的及び目標
3. 多言語処理システムについて
4. 多言語情報処理環境の実現
4.1 国際的ネットワークの進展
4.2 多言語をサポートするということ
4.3 多言語情報処理環境の実現に向けて
4.4 多言語情報処理環境を構成する技術要素
4.5 アーキテクチャ・文字コードの考察
4.6 入力系・出力系の考察
5. 多言語情報処理環境の課題
6. あとがき
7. 参考文献
<本文>
近年の国際的なネットワーク・システムの普及により、多くの人が電子メールを利用するようになってきた。また、電子メールをいつでもどこででも使いたいというニーズが顕在化してきている。実際、海外出張した日本人が、日本語で電子メールを送受信することが普通となっている。
一方、世界中でWWWによる情報発信が行われるようになり、どこの国のホームページでも簡単にアクセスすることが可能となってきている。ホームページは、英語以外の言語で記述されている場合も多い。
このように国際的なネットワークに世界中のパソコン等の情報機器が接続できる環境が実現しつつあるが、そこで行われる電子メールやホームページによる情報交換は、基本的に英語(アスキー文字)が主流である。したがって、日本語や中国語のような英語以外の言語で情報交換を行なう場合には、パソコンやサーバに一定の要件を満たしていることが求められる。このことは、英語とそれ以外の言語で、情報処理環境が平等でないことを意味している。
本文書では、このように英語以外の言語による情報交換が英語と同等に行なえるような理想的な情報処理環境である「多言語情報処理環境」の背景、実現の方向、実現するための技術的課題、取り組み方策等について述べる。
1. 情報処理技術の動向と問題
近年の情報処理技術は、特に、パソコンの高性能化やソフトウェアの高度化が進み、また、これらが広く普及するとともに、国際的な情報ネットワークが展開され、こうした情報システムを誰でも比較的容易に利用できるようになってきたことに特徴付けられる。このような情報処理技術の進展・普及に対して、国家情報基盤(NII)や世界情報基盤(GII)の整備、さらに、世界情報化社会(GIS)の構築に向けての対応が急務となっている。
今日、一般的に利用されているパソコンやワークステーションは、英語(アスキーコード)をベースとしたシステムを各国語用に地域化(ローカライズ)させたいわゆる「バイリンガル・システム」である。個々のバイリンガル・システムは、それぞれの言語用に独自に開発されており、文字の符号化(コード化)の方法、入出力方法、内部処理等が異なっているとともに、それぞれ固有の問題を抱えている。例えば、日常使う文字や記号等がコード化されていないこと、使用できるソフトウェアが英語を対象としたシステムと比べて少ないこと、漢字圏においては漢字が不足していることなどが挙げられる。
こうした問題があるにもかかわらず、各国内ではバイリンガル・システムによる「自国語」情報処理が主流であり、国際的な情報交換においては「英語」が主流になりつつある。グローバル化が進展する中で、自国以外の国との間や自国以外の国においても、自国語による情報交換や情報処理のニーズが強まっている。英語中心の米国においても他の言語処理への配慮が求められており、また、ヨーロッパにおいてもEU各国の言語の使用を尊重し、実用的な取り組みが進められている。アジアでは、韓国、中国、タイのように情報関連の規格が整い、バイリンガル・システムが普及している国がある一方、バイリンガル・システムの確立に向けて取り組んでいる国も多い。
こうした状況では、例えば、日本人が海外で又は海外と日本語による電子メールの送受信を行う場合や日本語・中国語の混在するドキュメントを印刷するといった場合に、制約や問題が生じる。このような問題には、あるワープロの日本語版で作成した英語文書が、英語版では読めないといった「規格の実装上の不徹底や考慮不足で生じている問題」、OSレベルの言語の違いによりアプリケーションの互換性がなくなるといった「簡単には解決できないような構造的問題」、自国の文字も含めて、パソコン上で各国の文字が十分に表現できないといった「各国の国内規格と国際規格の整合化の問題」等が含まれている。
以上を集約すると、バイリンガル・システム中心の世界に国際的なネットワークが出現し、容易に利用できるようになった。しかし、各国語で情報交換を行おうとしたり、各国語を混在させる情報処理を行おうとすると様々な制約や問題があるということである。
2. 多言語情報処理環境の目的及び目標
「多言語情報処理環境」とは、世界中のどの国の人でも、それぞれの文化を背景としてそれぞれの言語を使って平等に情報処理ができる環境をいうこととする。具体的には、英語圏の人々がコンピュータを利用するのと同じように、英語圏以外の人々がそれぞれの言語で情報処理ができる環境を指すものとする。「多言語情報処理環境技術」とは、こうした環境の実現に寄与する又は関連する技術を意味し、関連する情報規格を含むこととする。
多言語情報処理環境の実現に向けての取り組みは、グローバルな情報基盤が世界の文化・経済活動の基盤として整備されたときに、世界の人々が平等にその成果(メリット)を享受できるようになることを目的としている。このような目的は、多様な言語、文化が混在するアジア各国においては特に重要である。また、情報技術の地域化に伴って現地文化が消滅することがないことや著しい変化を伴わないようにすることにも留意する必要がある。
このような目的を持って取り組む多言語情報処理環境としては、具体的には次のことを満足するような環境を実現することを目標とする。
b.アプリケーションが一定のルールに基づき、言語による制約を受けずに問題なく動作すること。読めなければ、自動翻訳などの需要が起こるが、これらのアプリケーションが一定のルールに基づき問題なく動作すること。???
c.双方が合意したある言語で電子媒体(通信も含む)に記録されたデータ(情報)の交換が合意したシステム間で可能であること。???
3. 多言語情報処理について
多言語情報処理環境を実現することに寄与する又は関連する技術が多言語情報処理環境技術である。こうした技術が具体化された多言語情報処理システムについては、さまざまな概念やアイディアがある。以下、こうしたいろいろな多言語情報処理システムについて記述する。
情報処理技術の観点からプラットフォームやアプリケーションが、ある言語をサポートするということは、次の3つの条件を満足する必要がある。
b.この文字セットでできた文字データを文化的に自然な形で文字処理ができること。例えば、照合順番、禁則処理などができること。
c.文化依存要素(cultural convention)である各種表示(日付、時間、金額値等)を、その文化にとって自然な形で取り扱えること。
(1)単文化システム
まず基本として、ある言語を表記するための文字セット一つと、その文化に応じた処理、そして文化依存要素のサポートが、最低限ある文化をサポートしている1言語システムがある。この意味では、ASCIIだけで、米国文化をサポートしている「いわゆる英語のシステム」も米国単文化システムといえる。 また、各文化ともに、最低これだけは必要だともいえるが、実際には米国以外需要はない。
(2)バイリンガル・システム
実際には、米国文化以外のところでは、その文化をサポートするための文字セット以外に、コンピュータを運用するための最低要件としてASCIIセットはその文字セット以外に必要になる。このASCIIは、英語も表現できるので、多くの場合、このようなシステムをバイリンガル・システムと呼ぶことが多い、しかし、実態は、二カ国のスクリプト(bi-script)を持つ単文化システム(single culture system)である。 現実には国際化の多様性とか多言語の要求とかと言っても、このシステムの要求が多く、大部分のユーザはこのような擬似多言語情報処理システムで満足している。
(3)単文化多言語システム
さて、このいわゆるバイリンガル・システムが実現して、母国語と英語の対応が可能になると、さらにスクリプト(script)や文字を追加して、第3の言葉への対応したいという要望が出る。例えば、日本で考えるならば、まず韓国語や中国語へ対応してみたくなるし、欧州では近隣諸国などが視野に入ることになる。この辺から、実は多言語情報処理という言葉がなんとなく使われ出すことになる。つまり、まず(2)からの流れで、単文化システムに多言語をという要求があがるが、欧州のように同じscriptに文字を追加して実現するものや、日韓システムのように追加のscriptが必要になるものがある。
(4)同時か切り替えか?
この時に話題になるのが、これらの様々な言語が同時に使える必要があるのか、あるいは切り替えで使用する形態で同時にはいわゆるバイリンガル(bi-lingual)で良いのかということであり、前者を「コンカレント多言語」、後者を「切り替え多言語」と呼んだりする。コンカレントの方がなんとなく高級そうなイメージがあるが、実際には切り替えで十分な応用例も多い。
(5)多文化多言語システム
使える言語を増やすと、今度は、文化依存部分も多くの文化に対応したいという要望が自然に出てくる。これも言語と同じようにコンカレントと切り替え方式がある。さらに複数文化依存処理をコンカレントにおこなうためには、どの文化を使うべきかの判断が必要になる。バイリンガル(bi-lingual)の時は、文字セットと言語(文化)が一体であったものが、その関係が切れるので、言語(文化)の判断を何でどうするかが(たとえばISO/IEC 10646などを多言語目的に使用した時の)問題点として話題になっている。 ある種の言語は独自のスクリプト(script)を持っているので、判断できる場合もあるが、スクリプト(script)を共用している複数言語もある、漢字のようにそれといっしょに使われているのが仮名かハングルかで判断がつくものもあるが、ペルシャ語と、アラビヤ語のような例(別言語であるが、同スクリプト)もある。 また、ある言語をそれが使われる文化で必ず処理されるとは限らないため、結局は何がしかの文化を識別方法がいるという声が大きい。
(6)世界統一文化志向
言語の問題はともかく、文化依存要素の差異が(たとえば日付の03/09が3月9日か、9月3日かのように)多文化処理をした場合に使用者に混乱を与える可能性がある。そこで、これを世界的に統一して、曖昧さを無くそうということを多言語化と呼ぶ人もいる。
(7)異文化対応
さらには、様々な言語のデータが予期しない形で受け取らざるを得なくなってしまったため、それらを、それぞれの文化で処理をすると、その文化の人は理解できるが、それ以外の人々(大多数)には理解できなくなる。そこで、その文化以外の人に解りやすい擬似文化要素の開発を行い、それを多言語への対応として提案している人もいる。
(8)最小システム型多言語
また、限定された文字(たとえばASCII)だけで、できるだけ多くの言語を表現しようと文字変換(transliteration)を多言語処理として提案する向きすらある。
このように、多言語といった場合でも、いろいろなことが考えられているので、多言語の議論というのは、認識の合意で終わってしまう場合もある。 なお、ISO/IEC TR 11017では、このようなレベルの多言語・国際化は、実際には、ほとんどおなじ実装上にデータの入れ替えで実現できるようなモデルを提案し、この種の路線闘争は、実は無意味だとしている。以上の多言語ということでは、派手にそれを宣伝しているプロジェクトはないが、色々なところで、必要に応じて作業が進んでいる。
(9) 多言語情報処理環境におけるアプリケーション
以上のようなシステムの他に、機械翻訳のようなものを利用して、色々な言語間相互のコミュニケーションなどを可能にしようというプロジェクトやシステムも数多く認められ、それらも多くの場合、多言語処理と呼ばれている。 あるいは、この方がむしろ多言語処理としては本流かも知れない。
この方向は、いろいろな方式の(文書を中心とした)機械翻訳が中心になっていると思われ、実用化されているものの、なんとなくおかしいものなどいろいろな成果が報告されているし、進行中のものも多い。またいろいろな方式の提案も多い。
この文書レベルの機械翻訳を進めてゆくと、あるレベルところから問題点に行き当たるらしい。話題や個性・個人の経験などの影響で翻訳が一筋縄ではいかなくなってくる。また、単語の一対一の対応がなく、日本には魚の名前は豊富だが、肉の部位による分類などが貧しいなど単語そのものが文化依存であることなどが問題になる。そこで、豊富なデータベースを構築し、なんとかこれを克服しようという方向の動きがあったり、 まったく逆に、特定の応用、たとえば株式情報、天気予報などを多くの言語で実現しようというプロジェクトを考える人達もでてくる。さらには、文書だけではなく、自動翻訳電話のように、即時性を要求されるもの、あるいは話者に似せた音声出力を作ろうなど。翻訳といっても多種多様な動きがある。不思議なことに、この機械翻訳の世界から、プラットフォームへの多言語処理の要求は少なく、また、プラットフォーム側も、あまり機械翻訳の要求を検討しているようには見えない。
また、Mule等、多言語文書処理アプリケーションのように、アプリケーションの中に多言語処理のためのメカニズムをもったものも主流の一つである。
4. 多言語情報処理環境の実現
ここまで、様々なプロジェクトにおいて、いろいろな種類の多言語情報処理の考え方やその具体化としてのシステムがあることを述べた。多言語情報処理や情報技術の国際化という話題は、過去をふりかえって見ると、数年おきに話題にのぼり、それぞれの歴史においてそれぞれの役割を果たしてきた。今回話題になる前は、ISO/IEC10646が発行された1993年頃に、ISO/IEC 10646がきっかけで国際化についての議論が華やかだった時期があったように思われる。そして、今回また、多言語情報処理がかなり広く話題になっているが、これは、今までとは多少異なる動機が存在する。今回の動機は、従来からの、「より多くの言語を現状の延長で処理しよう」と言うアプローチでは、その要求が満たされない可能性が高い。 つまり、今までの延長ではなく、多言語情報処理の原点に返って考える必要がありそうである。
本節では、多言語情報処理環境の実現にむけ、今一度、現状と動機を整理し、その多言語情報処理環境の技術的な要素を明らかにすることにより、取り組むべき課題に言及する。
4.1 国際的ネットワークの進展
今日のネットワークの普及により、電子メールのコミュニケーションが広く普及し、かつ、日常的になり、いつでもどこでも使いたいという要望が持ち上がって来た。この「どこでも」が海外にも拡大され、海外からも簡単な操作で電子メールを電話のように使いたいという要求が「多言語情報処理環境」をという声になっている。また、世界中どこのホームページでも簡単にアクセス可能になったが、意外に「文字化けして読めない」ものが多く、なんとかそれを読んでみたいという要望から「多言語情報処理環境」という声があがっている。これらの表面的な現象はともかくとして、実際世界的な規模のネットワークが完成し、それぞれ母国語ベースのパソコンを接続し、ネットワーク越しにコミュニケーションを開始した場合、新しい次元の多言語情報処理の必要性が出てきたことを認めざるを得ない状況にある。
4.2 多言語をサポートするということ
従来からの多言語情報処理は、ある程度閉じた世界においてではあっても、それなりに多言語情報処理が実現できれば良いというものが多かった。ところが、ネットワーク環境の広がりに伴い、今までとは基本的に違う要件が出てきた。たとえば、タイの日本の会社の出先は、「ASCIIとタイ語と日本語をサポートするシステム」が要求される。このシステムの日本語は日本にある「ASCIIと日本語をサポートするシステム」と日本語でコミュニケーションをする必要がある。と同時に、タイのシステムとタイ語でも情報交換ができることが要件である。もし、「ASCIIとタイ語と日本語をサポートするシステム」がASCIIとタイ語と日本語を共存させるために「ASCIIと日本語をサポートするシステム」にはない特別の処理をしたとすると、これと同じ構成のシステムとは日本語でデータを交換できるが、日本の普通の「ASCIIと日本語をサポートするシステム」とはデータ交換ができない可能性が出てくる。もしそうあれば、この「ASCIIとタイ語と日本語をサポートするシステム」の日本語は意味がないことになる。また、それと同じことがタイ語や英語についても言える。このことは、世界中のどんなシステムの日本語処理は、どのような言語構成であっても、日本の普通の「ASCIIと日本語をサポートするシステム」とデータの交換を期待されるということだから、それを予想して世界中の日本語対応のシステムに日本語を組み込む必要がある。
4.3 多言語情報処理環境の実現に向けて
このことはタイ語をはじめ全ての言語について言える。よって、予期できない相手とのデータ交換を前提とするとネットワークに接続するすべてのシステムは、それがサポートされている言語であるか否かにかかわらず、多言語情報処理を前提とした構成である必要がある。それは、たとえ実際に使える言語はその一部(あるいは一つ)でも、基本構成は多言語情報処理を考慮にいれた構成である必要が出るということであることを示す。
つまり、ネットワーク環境になると、すべての構成要素は、その必要の有無にかかわらず多言語対応である必要がある。これは、従来の、多言語がほしい人がそのための独自のシステムを作るということとは、多言語処理の状況が大きくかわったということであり、多言語情報処理システムが必要な理由が違ってきたということでもある。よって、今回の多言語情報処理への関心は慎重に対応し、また必ず実現する必要があると考える。そのためには、今まで蓄積してきた多言語情報処理技術の中で捨てなければならないものも出てくるはずである。多言語情報処理の議論は、今までの何を話題にしているかだけでも大変だったが、もう一つ議論の種が増えたように思える。しかし、このポイントを認識している人は現在少数派であるので、この問題を納得してもらうだけでも大仕事である。
ここまで、本当の意味で、今の時点で求められている多言語情報処理環境を実現するには、まだまだ克服すべき問題点があることを述べた。しかし、それらの問題点が存在し、かつ新しい多言語処理環境の要求の動機があるとはいったものの、それが、今までの多言語処理環境のニーズを全面的に否定するものではく、その実現のために過去の努力を否定するものでもない。
過去からのニーズは常に拡大はされても消えてなくなることはないので、これへの対応を怠ってはいけないし、その長期的には否定しなければ行けないようなアプローチも、現時点では容認する必要がある。例えば、現在日本で広く使われているShift-JISという実装方法は、その国際性の極端な欠如からは、当然否定されるべきものではある。しかし、情報処理技術を日本にここまで広めることにはたした役割は否定できないし、いますぐShift-JISをなにかに入れ替えるべきだという議論もするつもりはない。
しかし、この方法にこだわって、この方法に姑息なwork-aroundを追加し続け、それを技術の進歩と言い張るのは早々に止めべきだと考える。 つまり、現在の火急のニーズにあわせるための応急処置は、それがそれなりに役に立つならばそれなりにその有用性を認めて利用すべきであると考えるが、長期的な視野にたっての評価も必要であり、短期的な要求へのこだわりが将来へ禍根の種を残すようなことがないような配慮が必要である。
4.4 多言語情報処理環境を構成する技術要素
技術的には、文字コードを中心に、システムアーキテクチャ、入力、出力(表現)、内部処理、情報交換(通信)等の課題を、技術開発や関連規格の制定・見直し・導入(実装)により解決していくことが考えられる。例えば、入力、内部処理、出力、情報交換等の機能をシステム内で適正に分担することを考慮して、多言語情報処理に適して文字コードを設計することが考えられる。すなわち、システム側からみれば、多言語情報処理に適切な文字コードを採用するためのアーキテクチャを提案・実現することを意味する。
また、多言語情報処理においては、各国の文化的背景(文字、言語、国籍等)、が深く関与し、その要因の考慮が重要である。
(1)アーキテクチャ(文字コードとその入出力方式及び処理方式の枠組み)
文字コード、入力系、内部処理系、出力系等、多言語情報処理環境に関わる要素に関し、枠組みを規定する。入力、内部処理、出力における処理方式を勘案し、総合的な判断のもと、文字コードの関わりを考慮し、各系の切り分けと文字コードの関係を規定する。
多くのアジア圏の国々では、文字コード、入力系、出力系が分離されておらず、その関係をどのようにするかというこの技術は、多言語システムを構成する上で重要である。
(2)文字コード
文字コードには、データ構造(バイト長とシーケンス)、体系(コード表)等の規格票なり符号表が存在する。文字コードの単位をどうするか、また、内部処理系とのなじみはどうか等の問題がある。また、入力系のデバイスであるキーボードとの関係、あるいは出力系との関係があり、それらのバランスをとり文字コードを開発する必要がある。
アジア諸国においては、ラテン文字とは性質を異にする複雑かつ多様な文字を使用している言語を持つ国々が多く存在する。またそれぞれの国が多様な文字コードを使用しているという問題もある。
多言語処理における文字コードの問題は、この各国とも複雑な文字を持ち多様な文字コードを使用していることであり、その多様性が多言語処理システムの開発を困難にしている。アーキテクチャによって明確にされた考え方から、より良い文字コードの設計が可能となり、また、その多様性を吸収するアーキテクチャが望まれる。
(3)入力系
キーボードに振られたキーコードと文字コードの関係が問題になる。一般には一対一の関係があるものと、ないものに分類される。
アジア諸国では、教育で養われるであろう伝統的でその国固有の文字の書き方、または文章の作り方に対し、自然なものであるか否かが問題になり、キーボードレイアウトと入力操作の関係が深く関与する。
多言語処理においては、文字セットの切り換えにともなうモードの変更等が、アーキテクチャの制定により自然な形で共通化されることが期待される。
(4)内部処理系
内部処理系においては、ソーティングあるいはテキスト処理を行うときの問題である。たとえば、文字コードをそのままバイナリ・ソートしたものが、その言語にとって自然な並びであるか、あるいはそうでない場合それをどう解決するかといった問題あるいは、テキスト処理を行う際の文字区切りの問題やスペルチェック等が深く関与する。
アジア諸国においては、可変長文字処理など、処理系に負担をかけて解決している場合もあり、また、処理系に負担をかけないように、品質面で妥協するといった状態を回避する必要性がある。
多言語情報処理においては、各国の文字の多様性を吸収できるような仕組みが重要である。
(5)出力系(印刷・表示)
出力系においては、アルファベットや漢字のように単に文字を並べていけば良いものと、合成文字やPresentation Formのように文字を表示する時に特別な工夫が必要なものがある。
アジア諸国においては、アルファベットや漢字とは違い、文字の位置や文脈(??)により、同じ文字でも同一フォントでは表示できないといった文字もあり、その対応が現時点の印刷物と比較して、あるいは数年後を考えて十分な品質であるかといった問題がある。
多言語処理においては、文字を表示するときの基線の問題、サイズの問題、フォントの問題が挙げられる。
(6)情報交換(通信:インターネット上の、電子メール、ホームページによる情報交換、記録:ファイルによる情報交換)
自国以外の国々と情報を交換する際に、文字が表示されない、あるいは文字化
けが起こる等の現象が発生する。
これは、文字コードの問題にはじまり、フォントの持ち方、表示の仕方、ファイルの形式等さまざまな不統一性から発生する。
ここにおいて、多言語情報処理環境の要素技術を列挙したが、アーキテクチャと文字コードの重要性は高い。以下、その説明を試みる。
4.5 アーキテクチャ・文字コードの考察
すでに述べたように、色々な文化に対応するには文字そのものだけではなく、文化依存要素を含めての対応が必要であるが、現在の国際化の方向では、文化依存要素は、ほぼ同じ方法ですべての場合に対応できるので、実際に問題になるのは文字のサポートが中心になる。 一部にはISO/IEC 10646で多言語問題は解決したのではという声もあるが、現実にはまだまだそこまでには達していない。そこで、文字コードについて、その問題点の主なところを解説する。
(1)文字コードの構成要素: 文字コードは、文字を入れるいれもの(コード・スキーム)とその中に入る文字でできている。 入れ物は、その形態と大きさがあり、文字は、文字そのものと、選んだ文字の性格さらに文字の並び順の各要素がある。
(2)もし、入れ物と、文字の性質が同じ場合は、基本的には対応するフォントを入れ替えることで、その文字コードに対応することができる。 ほとんどの重要な7/8ビット文字コードは、この入れ物と文字の性質が同じであるため、フォントがあれば、異言語に対応できると広く信じられており、とくにホームページを読みたい人々がフォントさえあればと探し回っていることも事実である。
(3)漢字も文字の性質はASCIIと変わらないので、入れ物の性格を変えないで大きさを変えることで対応するのが普通であり、この辺は中国語も韓国語もかわりがない。よって、これらの言語間では多言語処理の対応は基本的には問題がない。 多くの日本の人々には信じてもらえないが、漢字は数が多いASCIIという見方もできるために、サポートは他の複雑な言語よりは簡単と言える。
(4)もっと大きな入れ物を用意して、性質の同じ色々な文字を全部その中にいれてしまえば、多言語処理用の文字コードになり、多言語処理を実現する一手段となる。 一般にISO/IEC 10646はそのような文字コードと信じられていることが多い。 現実に、日韓とギリシャ語システムが動いたと感激する向きもあるが、これらの文字の性質が同じであり、それを同じ符号表の中に取り込んであれば、簡単なテキストを表示することはさほど難しいことではない。ただし、入れ物の大きさを拡大するための、従来からの変更個所のサポートに留意する必要がある。
(5)しかし、現実には、東南アジアを中心に、"性質"の違う文字がコード化されている。 これらの文字は、この異なる性質の特殊性を吸収する必要から、単にフォントの入れ替えや、巨大符号表アプローチでは、現地語化や、むろん多言語化はできないことが多い。 (1言語位は我慢できる可能性が高い) 従って、既存の各国語の符号表を集めただけでは、数か国語対応は可能かも知れないが、多言語対応は困難であると考えた方が良い。
(6)さらに、ISO/IEC 10646の場合は、サイズの大きな符号表を作るために、今までとは違った形の入れ物を用意しているので、従来システムからの移行がスムーズにゆかないという問題がある。
(7) ISO/IEC 2022系での拡張も、そもそも基本的なstateful-encodeingという問題があり、(5)で説明した、"性質"の件は同じ問題をかかえているので根本的な解決にはならない。
4.6 入力系・出力系の考察
多言語処理要求の多様性と、最重要課題の文字コードに関わる部分を簡単に展望したが、当然、文字コード問題だけが多言語環境実現のための課題ではないことも付け加える。それらの全てにそれぞれの解決が求められるという意味で、そのバランスが重要であり、その中の代表的なものとして入出力に関することがあげられる。また、組み版規則などもある。実際の使用を考えると、入力は文化への依存性が高いし、他文化の人々には理解しがたいことが多いので、どうしても関心が集まるが、実際の応用例を考えると、それが思われているほど重要ではないようにも思われる。書けない文字を大量に効率よく入力したい人はあまりいない。それに対して出力は、フォントさえ現地から入手すれば何とかなると軽く考える向きも多いが、これは実際には大きな問題である。なぜなら、国によっては文化的には十分満足できるところまでのフォントを用意するにはいたっていなく、読めればそれで満足というレベルの国もあるからである。これは実は単に質の落ちるフォントしかないという場合は良いフォントを作れば良いのだが、多くの場合は、現存のASCII技術をそのまま利用するためにそのしわ寄せが出力周りに来て、フォントだけではその品質が限界である場合が多い。このような場合には、将来の本当に受け入れられるものを作るための大きな技術課題が残されていると考える方が妥当でり、これも多言語処理技術の挑戦すべきポイントである。
出力に関するもう一つの課題は各種の文字の混埴の問題がある。そもそも全く違う文字を美しく違和感なく並べるにはどうしたら良いのかということではまだまだ解決すべき課題が山積されている。
文字コードを含めて、これらのネットワーク時代の多言語問題はまだまだ十分顕在化しているとは言えない。まして前述のように問題意識すらまだ共有されている段階ではない。従って、これらの問題に挑戦することを直接の課題にしたようなプロジェクトは寡聞にしてまだ聞いたことがない。 また、一部のプロジェクトが一部の課題に偶然取り組んでも、全体のバランスが悪いとせっかくの成果を生かすことができないという結果にもなりかねない。 唯一通産省工技院の指導と委託で国際情報化協力センターのMLITシンポジュウムでその基本課題の実態調査などを開始している。 今後多くの方々のご協力をお願いしたい。
5. 多言語情報処理環境の課題
アジア地域における多言語情報処理環境技術に関する課題は、当該地域の文化の多様性とともに、漢字や音節文字といった言語の多様性をいかに多言語情報処理として実現するかにある。
各国とも、過去の歴史や各国語処理がそれぞれ独自に行われてきた経緯から、固有の文字コードを使用しており、その多様性が多言語処理を困難にしている。これは、多言語情報処理の観点から内部処理系、入力系及び出力系が分離されていないことが主要な原因である。
対象技術としては、入力系と内部処理系との切り分け及び内部処理系と出力系との切り分けを行うアーキテクチャの標準化が重要であり、これを踏まえたアジア圏での各国文字コードについて多言語情報処理に向けたハーモナイゼーションも今後必要である。加えて、アジア地域では、英語と現地語と利用可能とすべく、情報処理システムが技術的、経済的に最適化されているため、実際に必要な文字の欠落も見受けられるなど適正な多言語情報処理がされていないケースも見受けられる。また、漢字圏では、国際符号化文字集合(国際規格)において、字形の異なる日中韓の漢字の同一コード化等の問題もあり、文字コードの改善等も必要である。
文字コードについては、現在、国際符号化文字集合(ISO10646)が国際規格として制定されているが、日中韓の文字が同一コードに割り振られていることや、音節文字圏の国々で一部の文字の欠落が見受けられるなど問題点もあり、今後の当該規格の拡張とあわせて、漢字符号化領域の拡充も含め改善の取り組みが必要である。
また、入力系と内部処理系、及び内部処理系と出力系の切り分けに関しては、ラテン文字について、標準情報作成の動きはあるものの、国際規格は存在していない。
この他、符号化文字集合用の制御に関する国際規格は存在するが、アジア文字への配慮が不十分であること、8ビットの単一バイト符号化図形文字集合では、ラテン文字が規定されているもののアジア文字が規定されていない状況にある。また、フォント情報交換に関する国際規格では、漢字、アジア圏の文字の問題及び基線、サイズの問題に対する配慮が不十分の状況にある。
したがって、今後の取り組み方としては、次のようなことが想定される。
(1) 多言語情報処理のシステムアーキテクチャ
入力系、出力系、内部処理系に係わる標準案の検討作成を平成10年度、11年度、関係国と連携して国際提案を行う。これにより、文字コードの標準化を促進することが可能となる。
(2)文字表現
出力に係わるフォント情報交換に関し、漢字、アジア圏の文字の問題及び基線、サイズなどに係わる標準案の検討、作成を平成10年度に行い、関係各国と連携、協調して国際提案を行う。
(3)文字コード
国際符号化文字集合(国際規格)については、関係各国と連携、協調をとりつつ、アジア文字(漢字を含む)の追加など改善への取り組みを的確に図る。
(4)地域特有の環境整備
多言語情報処理の環境整備として、言語だけでなく地域特有の環境(書式、数値、日付、時間、通貨単位などの表記など)について、関係各国と連携、協調して検討、作成し、国際提案を目指す。
(5)JTC1 CAW(文化適応性ワークショップ)
多言語情報処理を情報技術標準化において考慮すべき重点課題とすべく、JTC1 CAW(文化適応性ワークショップ)などで働きかけを行う。
6. あとがき
○情報の発信
ホームページの立ち上げにより、本事業の活動を…
○国際連携
1998年1月20日〜22日のJTC1 CAWオタワ会議において、・担当分野として既存SCの活動分野の他にマルチリンガルが新TDの重要分野として認知された。
文化適応性の分野では、地域での規格開発が重要であり、地域活動とJTC1との連携を行っていくことが重要であると認識されたことなど、(財)国際情報化協力センターにおける多言語情報処理環境の取り組みを日本主導で採択することができた。
7. 参考文献