Webの功罪

Webがネットに与えた影響は良いものもあるが悪いものもある。Webは何故このような構成をとったのだろうか。
Keywords: [ WWW ]

どうしてWeb はアプリケーションとして現在のような構造をとったのだろう。勿論インターネットを非常に普及させた功績は認める。しかし二つの点において、Web は全く悪い設計だとしかいいようがない。

まず最初のまずい点を示そう。これはWeb自身がひらいた電子出版の未来に、大きなカセをはめようとしている。

Webがもたらしたものの一つとして、電子出版がある。広域に分散した、多くの作者による断片的なドキュメントの集成という新しいスタイルの実現である。これは従来的なDTPの延長にあるような電子出版モドキとは根本的に異なる、全く新しいものだ。（『PDFで電子出版?』も参照）
この新しい電子出版のために、Web はハイパーテキストを採用した。これによって断片的なテキストが連係されるだけでなく、文字情報以外のさまざまなオブジェクトをドキュメントに含めることが可能になった。これがマルチメディアと呼ばれる流行の時期と重なり、今の Web の流行を強く後押ししたことは記憶に新しい。
そしてWeb が採用したページ記述言語は SGML のアイディアに基づく HTML である。これによって分散した大量のドキュメントを機械が読みながら、人間に有用な二次情報を容易に生みWeb がハイパーテキストと SGML 的な HTML のペアを採用したことは先見の明に富む、素晴らしい判断だったと思う。しかしこれを成功させるために必要だった残りの部分を無視したために、その良さをほとんど失ってしまった。

まず多くの作り手による散在する細分化されたドキュメント群に対して、ハイパーテキストが有効に機能し続けるには、その出版（公開）と蓄積方法に一定の条件がつく。つまりドキュメントは一度書かれたら他のドキュメントからの参照を考慮に入れて、それ以後ずっと正しくアクセスできるように蓄積しなくてはいけないのだ。そうでなければ、ほとんどすべてのドキュメントは切れた、もしくは間違ったリンクだらけの利用価値の低いものになる。ネットには新しくて正しいものか、古いクズしか残らなくなるのだ。（『電子出版の出版と蓄積』も参照）
しかもWeb が採用したオブジェクトの識別子はドメイン名に依存しており、これは不変の識別子としては甚だ不都合な運用をされている。これ自体はWebが原因ではないが、この現象を引き起こした時点で、何らかの処置を講じなかったという点は残念だ。（『不変の識別子を持つ』も参照）

つまりこの種のハイパーテキスト・ドキュメントは Write Once then Read Only なアクセス形態をもつ必要があるのだ。テッド・ネルソンは初めからこの点を指摘していたのに、なぜ Web はそれを無視したのだろう。ドメイン名などに依存しない、Write Once で運用可能な名前空間を作るべきだったのだ。彼がXanaduでそうしていたように。
現在、Web が提供したハイパーテキスト空間は、この「不変の識別子をもつ永続オブジェクト」という運用ポリシーを持たなかったために、まさに新しくて価値のあるものと、古いゴミで埋め尽くされようとしている。これはWeb の罪だ。

そして SGML 的なアプローチを採用して、機械による二次情報の抽出を容易にしたくせに、Web はHTMLドキュメントを部分的に転送するという機能を持たなかった。そのために書き手はドキュメントを極端に細分化してしまい、SGML的な構造記述情報から有益な二次情報を作るチャンスを失なわせてしまう傾向にある。つまりドキュメントの書き手はWebの不器用さのために、人間が直接読む時の読みやすさを実現するべく、ドキュメントをわざわざ細分化しているのだ。
これは実にナンセンスな構図だ。しかもWebはそうやって細分化されたドキュメント間のリンクに、これらは元は一つのドキュメントであるというようなマークを付ける機能を持たない。（『HTMLの文書構造記述の価値』も参照）

これでWebドキュメントは機械的な再利用が困難な方向に向かわざるを得ない状況に置かれていることがわかるだろうか。その結末は現在のサーチエンジンが出す検索結果の無意味さに象徴されている。つまりまるで当て物のようで、そこには知性がない。
サーチエンジンは、散在する断片的なドキュメントから、人間にとって有用な二次情報を抽出するアプリケーションの、最初の、最も単純な例だ。そして恐らく非常に有効に機能するはずだったのに、WebドキュメントがSGML 的な文法を持ちながらそれを活かし得ない形でしか書かれてないせいで、今や非常に使いにくいものになっている。この先さらにソフトウェアに知性を与えたとしても、もとデータであるドキュメントがこのような状況では有効な二次情報を得るには多くの困難があるだろう。これはWebの罪だ。

次のまずい点を示そう。これはWeb自身がその普及を強く推進したインターネットの未来に、暗い影を落としている。

インターネットのバックボーンがそれほどバンド幅を持たない時、利用者は回線の無駄づかいを極力避けるように個々に努力した。インターネットにおけるトラフィックの主要な部分をFTPが占めていた時代である。
つまりエンドユーザは無駄な転送をしないために極力近隣のサイトからファイルを取得するよう教育されたし、システム管理者はよりローカルなミラーサイトを構築するよう努力した。特にミラーサイトの構築は世界的に行なわれており、主要な ftp サーバは各国にミラーサイトが存在した。

これは何を意味しているのだろう。つまりインターネットはすべてを分散させてしまったので、トラフィックをコントロールするために必要な管理・運営者も分散させてしまったのだ。つまりトラフィック抑制のための努力などは、分散したユーザやサイト管理者が独立して、しかし協調しながら行なう必要があるのだ。
ftp ミラーのアプローチは、極めて重要なことだ。すなわちインターネットにおけるコンテンツは、ネット全体で分散して持つという方法である。これは集中を避け、無駄な経路のバンド幅を消費しないという効果も生む。しかし Web はこれら ftp が行なってきた努力をすべて無視している。

例えばWeb はミラーのような仕掛けを基本的に持たない。キャッシュもそれほど設置されておらず、機能もしていない。ローカルコピーをうまく作る能力もクライアントにほとんど用意されていないので、多くのユーザは過去に見たページを再びネットに見に行ってしまう。
そうして www.microsoft.com はきっと毎日全く同じ内容をひたすら送り続けているのだろう。あなたがそのページを見た 30 秒後には、あなたの隣の席に座っている人が、全く同じ内容を同じ地球の果てから転送していることだろう。2日後のあなたも、全く同じ内容を地球の果てから転送するだろう。
PointCastを含むプッシュ系と呼ばれるサービスも同じだ。個人個人に違う内容を送っているというかも知れないが、全体として見たらほとんど同じ内容を何度も何度も同じ経路に送り出しているに違いないのだ。
つまり全体として最適化の努力が必要なのだ。そのための構造をWebが何も持っていないことは非常な驚きでもある。何故ftpから学ばなかったのだろう。これもWebの罪だ。

そして現在の Web の情勢はさらにまずい。さらなる集中を生もうとする傾向にあるからだ。広告収入を得るためのバナー広告がトラフィックの多くを占めがちなのは実に皮肉だ。エンドユーザは見たくもない広告を自分の回線費用で転送している。
トラフィックを集めることからビジネスチャンスを捜そうとするために、多くのサーチエンジンサイトはポータルサイトと呼ばれる状況を目指して努力中である。Geocitiesのようにひたすら集中する必要のないコンテンツを集めることでトラフィックを集めるところもある。いずれもバナーによる広告収入を狙っている。
また、広告収入がネットワーク全体の費用を払えないことにも注意が必要だ。いまのようにエンドユーザが自分の費用でバナー広告を黙って転送してくれる時代はそう長くは続かないだろう。構造的な問題だが、しかし確実に変化が必要だ。

Webは多くの主要なネットワークアプリケーションと同じように、非常に単純な技術で実現されている。しかしその技術によってインターネットの世界を大きく変えたことは事実だ。将来のために、やはりその技術によってこれらの問題を解決するべきだろう。
キャッシュは大きな目で見て、コンテンツはネット全体で少しずつ持つという解の一つである。他のアプローチも期待したい。

Yutaka Yasuda

1998.06.06