SemrushBot是什么蜘蛛,這個爬蟲怎么屏蔽
發(fā)布時間:2023-06-28 15:30:42
作者:超級管理員
來源:web
瀏覽量(354)
點贊(120)
摘要:SemrushBot是SEMrush的服務(wù)器搜索蜘蛛,SEMrush 是一個強大的、全面的在線營銷競爭情報平臺,其中包括 SEO、PPC、社交媒體和視頻廣告研究。機器人抓取你的網(wǎng)頁來解析你的網(wǎng)站內(nèi)容,所以相關(guān)的信息在你的網(wǎng)站很容易索引和更容易獲得用戶搜索內(nèi)容。可以看得出來,對我們中文網(wǎng)站來說一樣沒什么用,屬于營銷類的蜘蛛,可以選擇屏蔽掉。常規(guī)屏蔽方式就是寫一下robots規(guī)則來屏蔽它的爬取User-agent:SemrushBotDisallow:/User-agent:SemrushBot-SADisallow:/User-agent:SemrushBot-BADisallow:/User-agent:SemrushBot-SIDisallow:/User-agent:SemrushBot-SWADisallow:/User-agent:SemrushBot-CTDisallow:/User-agent:SemrushBot-BMDisallow:/User-agent:SemrushBot-SEOABDisallow:/這個這么長是我在網(wǎng)上找到的,我昨天只添加了第一條
SemrushBot是SEMrush的服務(wù)器搜索蜘蛛,SEMrush 是一個強大的、全面的在線營銷競爭情報平臺,其中包括 SEO、PPC、社交媒體和視頻廣告研究。機器人抓取你的網(wǎng)頁來解析你的網(wǎng)站內(nèi)容,所以相關(guān)的信息在你的網(wǎng)站很容易索引和更容易獲得用戶搜索內(nèi)容。
可以看得出來,對我們中文網(wǎng)站來說一樣沒什么用,屬于營銷類的蜘蛛,可以選擇屏蔽掉。
常規(guī)屏蔽方式就是寫一下robots規(guī)則來屏蔽它的爬取
User-agent: SemrushBot Disallow: / User-agent: SemrushBot-SA Disallow: / User-agent: SemrushBot-BA Disallow: / User-agent: SemrushBot-SI Disallow: / User-agent: SemrushBot-SWA Disallow: / User-agent: SemrushBot-CT Disallow: / User-agent: SemrushBot-BM Disallow: / User-agent: SemrushBot-SEOAB Disallow: /
這個這么長是我在網(wǎng)上找到的,我昨天只添加了第一條,今天他還在繼續(xù)爬,所以不知道是我自己寫的不夠全面,還是它壓根把robots協(xié)議當廁紙就不知道了。
為了防止他不講武德,直接服務(wù)器規(guī)則搞起,這次我們改進一下,畢竟這些蜘蛛是真的多,比如我們換個思路,只保留我們需要的蜘蛛,其他全部屏蔽:
if ($http_user_agent !~* "Baidu|Yisou|Sogou|360|Bytes|bing|Google") { return 403; }
就是除了百度,神馬、搜狗、360、頭條、bing、谷歌以外的蜘蛛,全部返回403狀態(tài)(沒有權(quán)限訪問本站),代碼來自網(wǎng)絡(luò),據(jù)發(fā)代碼的說是這樣簡寫也可以,不放心的話,可以把簡寫全部換成蜘蛛全名。
掃一掃,關(guān)注我們
120