robotsによるアクセス制限

使ったことないし使う予定もないけど、いつか使うかもなのでメモしとく。

robots.txtによるアクセス制限

robots.txtをルートに配置。 すべてのクローラ対象にすべてのページをアクセス制限するなら以下みたい。

User-Agent: *
Disallow: /

メタタグによるアクセス制限

<meta name="robots" content="noindex">

これだけ見ると、インデックスさせないってだけでスクレイピング禁止にはできなそうだけどどうなんだろう。