究竟 Visual GPT 是否有眼不識泰山
看到一個叫做 Visual GPT,想看看他是不是真的看到圖片,我找了泰山來給他看看,看看他是不是有眼不識泰山
Visual GPT
這個 Visual GPT 就在 Hugging Face 那裡,他說用了一些不同的 Visual 的 Foundation Model 和 GPT 檢查
意思就是他應該不是用 GPT-4 的 OCR 眼睛,他是用其他的 Foundation 去做的
Hugging Face
首先第一件事要用的,你要在 Hugging Face 那裡開個免費帳號,然後去搜尋這個叫做Visual 的 GPT 檢查
之後這個有一點點欺負人,就是你要有這個 OpenAI 的 API 你才可以用到它(它不是免費給你用的)
你用回自己那個然後你就可以上載一些照片,我會先上載一隻貓然後叫他去問一下他是什麼來的
影片示範
問 Visual GPT 關於圖片的資訊
其實可以問他很多東西,我可以叫他描述一下那幅圖裡面有什麼、去形容一下那個動作各樣(有很多東西可以做的)
那當然也可以很簡單地,就這樣對照片問一下他是什麼來的
剛剛對對貓貓的照片好像沒有反應;這次試試對照一隻狗,然後他就會用一點時間去查
我想他也會上載,應該正在上載我的圖,他現在收到我的圖了
然後之後再問他,那我就問一下這幅圖是什麼來的,按照現在應該他會回答我一隻狗,或者他再仔細一點那也可以叫他“Tell me more in detail”,就是可能在圖裡面,除了一隻狗在草叢那裡跑
“你會不會有多一點點的形容詞告訴我”
那他會跟我說
就是“它是一隻什麼顏色的狗、是很開心的,然後陽光是很好的”
他也會展示出來的
Visual GPT 是否有眼不識泰山
那我來看看測試我這次最主要想做的事情,我把泰山丟進去,看看他是不是有眼不識泰山
先問一問,看看他能不能上載照片(這是第一件事,因為剛剛好像不太行,又失敗了)
我丟第二張照片上去(我要先清除掉之前的上傳)
我丟第二張照片上去,他顯示出來了
那我問一下他是什麼來的,因為有了眼睛的話,你(接著)能夠做到的項目會多很多,因為有個 OCR ,然後他可以跟 Churchy PT 去溝通去做一些你想他做的事情
那他就說是一個 “Jungle Book”
然後,我問一下他“藍的是誰?”
看看他能不能說出是泰山
這個是不是泰山的名字(我真的不太懂),先看看或者他給了別人的名字(我也不確定),先看看他寫這個他是不是說了那個女人(不知道是誰)
這個是不是那個主角,那個主角是 Mowgli(我真的不認識那些人名)
那接著我再上載一張,看看這次會不會有不同,看看是不是一樣,如果是的話,純粹我不知道他的名字
他可能就真的認得到,剛才上面那幅圖是不是無記是那個女人
不過我是問那個藍的,現在所以剛才上面那幅圖,他是有眼不識泰山的,下面這個很清晰
他就會說是這個 Jungle Book 的主角,就是泰山,所以他也辨認得不錯
有這隻眼睛的時候,其實有什麼可以做呢?
如果以外國的其中一個我看到的項目就是這個,就是說他可以借一隻眼給一些視障人士去看看現在眼前有什麼
如果純粹看看路各樣這些,其實很多工具都可以做到;但是一些仔細的東西,譬如那盒奶後面有些文字(文字是說到了期末)
這些很多工具都未必做得到,現在如果可以利用到那個 GPT 的眼睛或者其他東西、或者其他模特兒的 OCR 應該會幫到
如果視障人士是一樣或者是其他不同的項目,你想得到只要有視覺的能力你就可以做到,現在就會容易很多
因為 API 剛才你看到我用去接駁(其實相對都簡單),當然如果你去一些複雜的圖或者是對比或者是動作不是很清晰的時候,可能他會認錯了
但是譬如這個比較清晰的他就會認得對