谷歌推出爬蟲擴展代理 網(wǎng)站管理員可以屏蔽谷歌抓取內(nèi)容用于訓練AI – 藍點網(wǎng)
在 OPENAI 公布 GPTBot 爬蟲的谷歌管理谷歌相關(guān)信息后,今天谷歌宣布在 GoogleBot 基礎(chǔ)上推出 Google-Extended 爬蟲擴展代理,推出允許網(wǎng)站管理員使用 robots.txt 文件屏蔽谷歌抓取網(wǎng)站內(nèi)容用來訓練 AI 模型。爬蟲屏蔽深圳外圍學生預約(電話微信181-8279-1445)深圳外圍學生預約怎么找大學生約炮一夜情
谷歌沒有推出單獨的擴展 AI 爬蟲,AI 爬蟲仍然使用 GoogleBot,代理但網(wǎng)站可以聲明是網(wǎng)站網(wǎng)否拒絕其抓取內(nèi)容后訓練 AI,如果要聲明那就需要使用 Google-Extende代理令牌。員可用于

谷歌稱,內(nèi)容Google-Extended 是訓練一種新控件,網(wǎng)絡發(fā)布商可以使用它管理其網(wǎng)站是藍點深圳外圍學生預約(電話微信181-8279-1445)深圳外圍學生預約怎么找大學生約炮一夜情否有助于改進 Bard 和 Vertex AI 等生成式 AI 模型,在博客中谷歌多次提到網(wǎng)站可以幫助谷歌改進 AI,谷歌管理谷歌比如網(wǎng)站管理員可以選擇是推出否幫助這些 AI 模型隨著時間推移變得更準確和強大。
不過最終還是爬蟲屏蔽網(wǎng)站管理員自己決定是否允許谷歌拿內(nèi)容去訓練 AI,如果不愿意的擴展話,可以在 robots.txt 中添加以下內(nèi)容:
User-Agent: Google-ExtendedDisallow:/
需要提醒的代理是谷歌對于 robots.txt 的處理遵循了多種原則,而且 Google Bot 本身有一大堆用于不同用途的 bot,例如常規(guī)的 GoogleBot、GoogleBot-News、GoogleBot-Image 等,這些 bot 是可以在 robots.txt 里混用的。
例如要允許谷歌搜索抓取網(wǎng)站內(nèi)容、不允許谷歌抓取內(nèi)容用于訓練 AI,那么 robots.txt 可以這么寫:
User-Agent: GooglebotAllow: /User-Agent: Google-ExtendedDisallow: /
骨軟筋酥網(wǎng)



