市場如何避免及應對 ChatGPT 使用自己網站的內容做 AI 培訓?
今天想講一下如何避免 Chat GPT 或其他 AI 工具取得我們公司內容用來做訓練的一個步驟或部份。如果你使用的是 OpenAI 的 Chat GPT,它的網站也有提供相關資訊。Chat GPT 使用一個叫做 GPT Board 的 User Agent 來取得網站內容做訓練。
要避免這種情況發生,一般網站會在 robot.txt 檔案中設定一些規則,不允許特定的 Caller 或工具取得資料。
舉例來說,你可以給所有 User Agent 授權,包括 Chat GPT;但如果你不想讓某些 Crawler 或 Chat bot 這樣的工具取得資料,該怎麼辦呢?
一般來說,你肯定希望讓 Google 搜尋引擎的 Board 來取得你的資料,否則就沒有 SEO 流量了。但如果你不想讓 Chat GPT OpenAI 這樣的工具取得你的資料,你可以在 robot.txt 中設定一個名為 GPT bot 的 Disallow,然後加上斜線,表示從首頁到所有其他頁面都不允許取得。這是一個基本的步驟。
然而,除了 Chat GPT 之外,市場上還有許多其他的 Chat bot,這些網站上都有列舉。如果你不想讓其他工具如 Chat GPT User、CC bot 以及 Anthropic(Claude 母公司)等取得你的資料,你也可以進行相應的設定。另外,有一個名為 Claude 的 Web 也可以進行設定。
當你完成這些設定後,通常情況下工具就無法取得你公司的內容進行訓練了。
然而,在市場上究竟有多少網站已經杜絕了 Chat GPT 或其他 AI 的 Chat bot 取得資料呢?
有一個很有趣的發現來自一家名為 Originality 的 AI 公司,針對頭一千個網站,結果顯示超過二十多個百分比的網站已經限制了 Chat GPT。此外,研究還列舉了一些網址,特別是新聞媒體或其他原始網站。
他們注意到一些藝術家因為他們的照片被這些工具用來訓練,導致他們不開心。現在有一間公司提供了一個技術解決方案,除了不允許取得照片外,還給這些工具提供了一張假照片,以便訓練錯誤。這樣可以避免這些 AI 工具正確地生成圖像。
原本的圖片例子
改變後的圖片例子
這是一個有趣的方法,另一個提供者提供了解決方案,導致這些 AI 工具除了不能取得資料外,還會因為 AI 訓練錯誤而失效。
總之,如何避免 AI 工具取得公司內容並不容易,而且會有不同的方法出現。如果你的公司有一些內容不希望被取得用於訓練,你可以像之前提到的公司一樣封鎖相應的 User Agent,即將其列在 robot.txt 中,並設定 Disallow。
當然,如果你覺得公司的內容沒有那麼重要,或者你不希望限制取得資料的部分,你也可以不執行這些措施。