【PR】 IBMホームページ・ビルダー12 [発売記念通常版] バリューパック
【PR】 バイオ・リスニングなど英語教材比較
【PR】 ブロードバンド時代のプロバイダの選び方
【PR】 書籍・写真集をお探しならこちら
 

Googleの検索結果サマリーが「\」やフランス語のアクセント記号だらけ



【COREPRESS Cloud(コアプレスクラウド)】10日間お試し無料


のように、「\」や、「1/4」「1/2」などが一文字になったもの、また、フランス語のアクセント記号のようなものが大量出現する検索サマリーが存在します。また、原因はいまいち不明ですが、普通に日本語でGoogle検索しているのに、途中で入力したキーワードがこのような文字に化けてしまっている場合があります。

http://www.google.co.jp/search?sourceid=navclient&hl=ja&ie=UTF-8&oe=UTF-8
&q=%C2%A5%C3%AC%C2%A5%C2%AF%C2%A5%C3%AA%C2%A5%C2%A8%C2%A1%C2%BC%C2%A5%C2
%B7%C2%A5%C3%A7%C2%A5%C3%B3

約42万6千件(2003年6月28日現在) →約388,000件(2003年7月22日)約103万件(2004年3月11日現在)2,210万件(2006年6月15日)約53万件(2007年12月30日)→約 236,000,000 件(2億3千6百万件)

これらの「\」「1/2」などはなぜ出現するのでしょうか? 一つ一つのページを開き、ソースを確認してみます。すると、

  • EUC-JPのページなのに「ISO-8859-1」とメタタグを指定している
  • EUC-JPのページなのにメタタグを指定していない
  • 海外法人もしくは海外サイトの日本語Webに頻出
  • ブラウザでそのページを見ると、フランス語ではなく、半角カタカナが大量出現するケースも多い。
という特徴があることが分かります。ここでEUC-JPの存在領域を考えて見ますと、1バイト目・2バイト目とも0xA1〜0xFEでした(「0x」とはその後に続く文字列が16進数であることを示しています)。そして、ISO-8859-1の右半分(0x80〜0xFF)はこのフランス語のアクセント記号やドイツ語のウムラウト記号や、「1/2」などが出現します。 でご確認ください。

これで謎が解けました。EUC-JPのページなのに、メタタグの指定ミスでISO-8859-1の右半分の文字列であると解釈されるため、日本語のページなのに検索サマリーにフランス語のアクセント記号や「\」「1/2」「?が逆さになったもの」などが大量出現していたのです。あな、恐ろしや。

同じEUC-JPのページがShift_JISのページであると解釈されると、前のページで紹介したように、半角カタカナの大量出現となるのですが、このページの事例のように、EUC-JPのページがISO-8859-1と解釈されると、「\」やフランス語のアクセント記号の大量出現となったわけです。

ちなみに「」は「レクリエーション」が文字化けしたものです。「レクリエーション」での検索結果は112,000件でした。文字化けしたものの方が検索結果が4倍近くも多いなんて、びっくりですね。もちろん、文字化けしているものの方は必ずしもレクリエーションとは関係のないものも混じっているんですけど・・・。

次のページでは、英語のサイトなのに「痴」「稚」など漢字が大量出現する事例を取り上げます。これは、Googleの検索サマリーだけの問題でなく、一般ユーザーとして海外サイトの文献を見ているときにもよく出くわしますね。この原因を考えます。