2020-06-20から1日間の記事一覧

XPath

DOMがHTML構造をツリー状で扱うのに対して「/」区切りで表すもの。 //*[@id='〜']/div/input みたいな感じ。

robotsによるアクセス制限

使ったことないし使う予定もないけど、いつか使うかもなのでメモしとく。 robots.txtによるアクセス制限 robots.txtをルートに配置。 すべてのクローラ対象にすべてのページをアクセス制限するなら以下みたい。 User-Agent: * Disallow: / メタタグによるア…