【PR】 お手頃価格で機能充実!
さくらのレンタルサーバ ビジネスプロ

【PR】 ディズニーの英語システムなど英語教材比較
【PR】 DVDをお探しならamazon.co.jp
【PR】 独自ドメインを複数お持ちの方にお勧めのレンタルサーバー!
 

Googleの検索結果サマリーが半角カタカナだらけ



1時間単位から使えるWordPress専用高速サーバー 【Z.com】

ものの見事に全部文字化けしているでしょう。27,700件(2003年6月22日現在)26,000件(2003年7月21日現在)→34,000件(2004年3月11日現在)もあります。

これらの文字化けの原因解明は非常に簡単です。一つ一つのページを見てみると、

  • EUC-JPのページなのにShift_JISというメタタグを使用しているサイトが圧倒的。EUC-JPのJIS漢字の範囲は1バイト目・2バイト目とも「0xA1〜0xFE(「0x」とはその後に続く文字列が16進数であることを示しています。)」です。これはShift_JISの半角カタカナの範囲(「0xA1〜0xDF」)と大部分が重なっています。そのため、「半角カタカナの大量出現」で文字化けします。

    これらのGoogleの検索結果サマリーが文字化けするサイトも、IEなどのブラウザで表示させた場合は、IEなどが気を利かせて、EUC-JPのページだなとメタタグを無視してくれるので、文字化けしないことが多いです。そのため、非常に気がつきにくいのだと思います。秀丸エディタはその点、現在編集しているファイルの文字コード及び改行コードをウインドウ最上部に表示させることが可能なので便利です。

  • 原因不明なもの。ある大手サイトは大量ページが文字化けでインデックスされていましたが、確認した時点では少なくとも「EUC-JP」のメタタグが用いられていました。ただ、ヘッダー部分にまでタブを使った整形などがなされており、これが原因?とも思えるものもちらほら。
Googleにおけるメタタグの重要性が分かっていただける事例だと思います。

なお、この文字化けパターンがGeocities(ジオシティーズ)に多いのは、GeocitesではアドバンストHTMLエディターというツールを使って編集するとEUC-JPでサーバに保存されるにもかかわらず、メタタグでShift_JISなどと記述している人が多いためです。(自分で普通にテキストエディターで編集したり、ホームページ作成ソフトを使うのであれば、自由に文字コードは指定できます。)

▼ (参照)Yahoo! ヘルプ - ファイル転送とFTP「自分のページが真っ白になってしまうのは?」
http://help.yahoo.co.jp/help/jp/geo/gftp/gftp-08.html
※真っ白になってしまう原因としてtableタグの閉じタグ忘れとともに、文字コードの指定ミスが挙げられています。

▼ (参照)アドバンストHTMLエディタで編集したら文字化けしてしまった
http://help.yahoo.co.jp/help/jp/geo/editors/editors-06.html

ちなみに、2004年3月11日現在、Geocitiesにおけるこの種の文字化けは3,030件がGoogleに登録されていました(下記URL参照)。WEB全体で34,000件がこの種の文字化けでしたから、その約9%がGeocitiesのものとなります。

http://www.google.co.jp/search?q=site%3Ageocities.co.jp+%EF%BD%A5%EF%BE%9E%EF%BD%A5%EF%BD%B8%EF%BD%A5
%EF%BE%83%EF%BD%A5%EF%BD%AF%EF%BD%A5%E3%83%BB%EF%BD%B9%EF%BD%A5%EF%BE%8B%EF%BD%A5%3F%EF
%BD%B0&btnG=Google+%E6%A4%9C%E7%B4%A2&hl=ja&ie=UTF-8&oe=UTF-8

次のページで取り上げるのは、EUC-JPのページなのにISO-8859-1であると解釈された場合の文字化けについての解説です。って何だと思いますか?