SewiGの日記
2006-01-19 [木] [長年日記]
■ [Network] 人間らしいウェブ巡回
- 人間になりすますウェブ巡回プログラム (hotwired)
ウェブを管理している人なら、アクセス解析でGoogle, Yahoo, MSNといったボットが定期的にアクセスしていることを知っていると思います。また、ウェブ自動巡回プログラムでアクセスが来ることもあると思います。一般的に“人間でない”アクセスは、アクセス解析が面倒になったり、行儀の悪いプログラムだとアクセスが短時間に集中してサーバに負荷が掛かるといった点で嫌われています。
行儀の良いプログラムであれば、robots.txtや、HTMLのmetaタグの記述に従いますし、User-Agentにボットらしい名前がついていますので簡単に人間と区別できます。行儀が悪いプログラムでもアクセスの傾向から人間でないと判断でき、簡単にアクセス制限ができました。
ところが、この記事では人間らしい挙動をするために、ページを訪問するだけでなく、画像、JavaScript、ActiveX、Flashなどページ内のあるものをダウンロードすると書いてあります。キャッシュを保存して、前回訪問時と違っている部分のみにダウンロード要求を送るなど細かい挙動もしっかりしています。これをランダムな間隔でランダムな順番で実行していくのだからおもしろいです。
このような人間らしいウェブ巡回プログラムでチューリングテストと表現しているのが興味深いです。
「ある意味で、これは非常に単純化されたチューリングテストだ。スレッド[プログラムの処理単位]ごとにさまざまな『性格』を設定できる。たとえば、あるクローラーはページ全体を時間をかけて読む、といった具合だ」
確かに状況は違うけど仕組みはチューリングテストそのまま。インターネットを介した、人間とコンピュータプログラムの識別。スパムに対抗する事の難しさを感じながらも人間らしさの重み付けとか面白そうだなと同時に考えてしまいました。