Chat GPT 會推出文字水印 (watermark) 功能,不過這個功能很容易被破解
而今天的題目是講 Chat GPT Watermarking,我們平時用 Chat GPT 會生成很多文字,其實那些文字有沒有辦法辨認到是人寫的還是AI寫出來的呢?
Chat GPT 與唯一的答案
如果你有用過 Chat GPT ,同一條問題,如果你不斷嘗試去問它的時候,有時候它的文法或答案的結構是很接近的
如果我們經常都問同一條問題,我們可能就會慢慢察覺到,因為它做這個 Data,它做 Training 的時候是用一大堆的 Data,然後 Train 一個答案出來
所以它每一次回答我們的時候,那個結構其實很接近的,它不會說答中去東然後無緣無故答中去西的,所以其實有一點點路可以抓到的
而越多人去用的時候,你會發現大家出來的答案可能很接近,因為對於它來說是一個 Single Source of Truth,那個是唯一的答案
就算你不斷去問它,可能它會有一些演變;但都不會是離經半導的,離不開都是圍繞著那個答案
影片解説
這個 Watermarking 其實有什麼特別呢?
其實如果以圖片來說,Watermarking 就不是一樣新鮮事
我們經常都會有見到的,譬如一些 Stock Photo 的網站,他們會加一些這樣的字眼,一些水印簡單來說或者是一些媒體的網站,它怕你盜用它的照片,於是乎它就會加一些水印下去做辨認
圖像就很簡單,你會見到一幅圖有水印的就知道原來這幅照片是別人的,而很多時候水印可能會標記在一個網站;或者是一個品牌的字眼讓你知道這個水印是屬於哪一個機構、或者是哪一個人,至於在 ChatGPT 文字又怎麼做水印呢?
圖就可以做水印,文字怎麼做水印呢?
我們聽聽這位仁兄說話,這位仁兄叫 Scott Aaronson,他是一個 Computer Scientist,他就是在 2022 年 6 月被 OpenAI 請他去做關於 AI 的 Safety 和 Alignment
最主要的工作就是如何可以令到 AI 不要傷害人類,他沒有詳細說很多,但我有興趣看的就是這個
他有再去解釋 ChatGPT 是文字如何可以做到水印
他說最主要做水印是想做什麼呢?
避免人們用來交功課,有一個方法可以找到原來他的來源原來是生成出來的,我就可能不計算你的功課這是其中一個用途
Aaronson 他講了很多關於水印的東西又講 Chat GPT 相關的東西,在這裡他有說過,如果文字來講 ChatGPT 可以怎樣做呢?
他都會有一些 Pattern,因為他是文字我可以 Copy & Paste 出來,你不是像一個圖像或者一個 NFT 一樣有一條特別的 Key 是屬於我的圖像,所以這個 NFT 是獨一無二的
文字沒有這個東西,因為我 Copy 出來用,如果我不是當它是一幅圖像或者一份文件,你根本沒有東西可以交給我,我是當整段文字抽出來 Copy 出來用,他想把水印這個 Watermarking 放在文字上的時候,他就要把一些特別的 Pattern 放在文字上
藏頭詩模式辨別
就是說我們古代就有一些叫藏頭詩,床頭絲的意思就是這樣,譬如我這個藏頭詩我寫我是大肥仔
我把它生成,你會看到藏頭,它不是藏中也不是藏尾(藏頭就是前面),我會看到打洞去讀的時候,就是我是大肥仔,但是每一行去讀的時候,就是一些詩,這些就是藏頭詩
究竟 ChatGPT 他要加這個 Watermark 下去的時候,他是好像床頭絲的形式這樣加了下去,還是中間還是尾、第幾段第幾句會加不同的語言,英文又不同中文、那個加法又如何呢、如果硬把這些水印加下去又會不會影響了內容的質素呢……
這些全部都是有可能發生的
打破文字内容水印
所以加 Watermarking 下去內容那裡其實是不容易的,還有如果我用過幾次之後發現某一些的字不是很通順在頭或尾那裡,可能有一些很聰明的Computer Scientist 他們會發現到原來你是用這些方法去做水印,他就拿走了那一部分的內容那就可以打破你的水印
再者阿倫他自己也有提過,其實有其他很多坊間的工具(這裡其中有另一個工具)他可以做 Rephrasing,我譬如用 Chat GPT 給了我一大段內容,因為他已經加了一些床頭絲的水印
我放進這些工具裡再把它做一個少量的、很輕的、不會改很大幅度的、改很小幅度、但是只要我這個小幅度一改了其實就已經沒有了藏頭詩或藏尾詩這些水印的情況出現
所以如果文字上的水印,其實是很容易可以避過了,所以 Aaronson也有說其實有這個方法去做水印;但是這個方法並不是說這麼穩陣,可以知道一定是那篇內容,是由機器去生產出來的