忍者ブログ

インターネット番外地

忍者ブログを試したメモとか日記とか

[PR]
×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

忍者ブログの XML サイトマップ (sitemap.gz) を観察する

XML サイトマップとは

XML サイトマップとは XML (Extensible Markup Language) で記述されたサイトマップであり,human-readable にレンダリングして使うことが前提の HTML サイトマップに対比して言われる。XML サイトマップは,最も一般的には sitemap.xml というファイル名である。

これは,検索エンジンその他のクローラにサイトの更新情報を伝えるためのものである。HTML の内部リンク(だけ)から更新情報を伝えるのに比べ,迅速かつ確実に更新を通知することができる。

忍者ブログの XML サイトマップの中身

忍者ブログのサイトマップは /sitemap.gz にある。gz とは圧縮ファイルの一種である。

sitemap.gz の中には,sitemap というファイルひとつだけが入っている。

sitemap の内容は以下のようになっている。
<?xml version="1.0" encoding="UTF-8" ?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
    <loc>http://nil.blog.shinobi.jp/</loc>
    <priority>1.0</priority>
    <changefreq>daily</changefreq>
    <lastmod>2020-09-12T14:41:52+09:00</lastmod>
</url>
<url>
    <loc>http://nil.blog.shinobi.jp/articles/%E5%B9%B3%E5%9D%87%20ctr%E3%83%BB%E5%B9%B3%E5%9D%87%E6%8E%B2%E8%BC%89%E9%A0%86%E4%BD%8D%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6%E8%80%83%E3%81%88%E3%81%A6%E3%81%BF%E3%82%8B</loc>
    <priority>0.5</priority>
    <changefreq>monthly</changefreq>
    <lastmod>2020-09-12T14:41:52+09:00</lastmod>
</url>
<url>
    <loc>http://nil.blog.shinobi.jp/articles/%E3%83%91%E3%83%A9%E3%83%AC%E3%83%AB%E3%83%AF%E3%83%BC%E3%83%AB%E3%83%89%E3%81%AE%E8%87%AA%E5%88%86%E3%82%92%E8%A6%8B%E3%81%9F</loc>
    <priority>0.5</priority>
    <changefreq>monthly</changefreq>
    <lastmod>2020-09-12T14:34:20+09:00</lastmod>
</url>
(以下略)
</urlset>
<loc> は URL,<priority> はそのリソースの相対的な優先度,<changefreq> はページの更新頻度(すなわちどれぐらいの頻度でクロールしてもらいたいか),<lastmod> は最終更新日時である。Google は <priority> を無視するようである。<changefreq> もほとんど参考にされていないか,単に無視されているだろう。

あまりファンシーな構造化はされていないが,ちゃんと <lastmod> が送信されているあたりは,WordPress 標準の XML サイトマップ作成機能よりよい。

しかし問題は,非 TLS / SSL の URL ( http://~ ) が送信されていることである。実は,Google にインデックスされるようになったが http://~ の URL であったのでまさかと思って確認してみたというのが今回の記事である。

非 TLS / SSL の URL が送信されると何が問題なのか

TLS は SSL の後継技術で,これに対応した URL は SSL と同じく https://~ のスキームで示される。本稿では TLS / SSL として言及するが,現在使われているのは TLS だけであり,SSL という呼び方は不正確であることに留意されたい。

検索エンジンに認知される URL が TLS / SSL 非対応のものだと,いくつかの看過できないデメリットがある。

第一は TLS / SSL 非対応サイトそれ自体の SEO 上のデメリットである。Google は TLS / SSL 対応のサイトを優遇する。つまり,非 TLS / SSL の URL が送信されれば,TLS / SSL 非対応のサイトであると判断されて大きなハンディキャップを負うことになる。実際には対応しているにもかかわらずである。

第二に被リンクの分散がある。Google は HTTP サイトと HTTPS サイトを別サイトとみなすというのが定説になっており,これによれば,経路によりアクセスされる URL・被リンクがバラバラになることでページの評価が上がりにくくなってしまう。さらに,検索エンジン以外も HTTP と HTTPS を別扱いにしている場合が少なくない。はてなブックマークは両者をマージするようになったが,SNS では別扱いされている場合が多い。

第三に,もちろん,訪問者が TLS 接続を利用できないことである。ログインのあるサイトほど重大ではないとはいえ,TLS 接続はプライバシ・セキュリティの向上に資する。

どうやって対策すればいいのか

残念ながらこれについての設定は用意されていないようである。canonical にも対応していないので,対策のしようがない。

Javascript で自動リダイレクトすることは可能だが,不親切なのでやめたほうがいい。そういった疑わしい挙動は,場合によっては検索エンジンにペナルティを受けることも考えられる。

ただし,TLS / SSL 対応 の URL に被リンクを集めることで,TLS / SSL に対応していることとそれが正常に機能していることをアピールでき,検索エンジンがそちらを優先してくれる可能性もある。これについては少し試してみたい。

P.S. とりあえずブログランキングに登録してみた。被リンクとしての効果があるのかは議論があるけど,できるのはこれぐらいしかないので仕方ない。

忍者ブログの XML サイトマップ仕様を克服できるのか実験中です。よろしければ押していってください。

にほんブログ村 その他日記ブログ 雑感へ
PR

コメント

コメントを書く