很多公司開始使用 OpenAI API 幫助他們的業務流程,但 Token 費用是如何計算?
由於我們多用了這個 OpenAI 的 API,多了朋友知道如何登記外國的信用卡或者找到朋友可以借信用卡然後去登記,多用了 API就是一個連接 OpenAI 去其他程式的方法……
Token 的使用
例如你用過 Google Sheet 現在可以用 OpenAI 的 API 去生成一些文字令到你的生意的一些操作會比純粹在 PoE 或 ChatGPT 一個對話形式去複製一些文字出來使用
因為那樣東西很有用;但是複製出來它未能夠融合很多不同的工具,於是我們就需要用 API 可能去接駁你的文件去生成字、可能在 Google Sheet 上又可以去生成字
但是有些朋友會有些疑問,其實什麼是 Token,因為用 API 的時候會計算一種東西叫做 Token
什麽是 Token
首先我們去 OpenAI 的網頁你會看到,這個就是屬於 ChatGPT 的(即是 3.5 版本的一個收費表)
你會看到裡面大概一千個 Token 左右會花你 0.002 美元,即是一千元,一毫子都不花你就可以用到一千個 Token;但是一千個 Token 又是多少呢
其實一千個 Token就大概英文來說是 750 個字,中文通常我們隨意就算了即是大概的數字;但如果你想知道多一點即是其實怎麼計算的
那麼 OpenAI 它的網頁有一個叫做 Tokenizer 的頁面,那麼裡面你可以放一些字進去,例如我在這裡當作 Copy 文章,現在Copy 少少放進去
其實它會跟你計算到大概這裡有 360 個 Character,這個是 Character即是 ABCD 是 Character,那些 Space 也是叫 Character
(影片)那麼總共是需要用 72 個 Token 那麼是那個意思
剛才那堆字其實真的有多少個字在裡面,因為它純粹是用 Character 嘛,那麼你看到其實大概是 54 個英文字就是 360 個 Character,即是這裡 360 個,即是 54 個字就需要用 72 個 Token 這樣
影片解説
計算 Token 使用例子
那麼如果我將整篇內容 Copy 進去比較多一點,那麼這個總數你會看到是大概用 3100 多個 Token 的,那麼 3100 多個 Token 即是多少字
大概是 2200 個字左右,那麼如果除以數的話就大概是 1000 個 Token 英文來說,那麼是屬於 750 個字的
好了,那麼如果中文又如何呢
那麼我將同一篇的內容叫它先轉成中文(繁體中文),那麼我們又可以用同樣的方法去試就是待會放回這個 Tokenizer 裡面
那麼我們就可以評估到究竟我們是要用多少 Token 是等於多少個字的一個概念
那麼這裡其實是不能全部出的(不過不要緊),我先將有的字放進去如果是中文你會看到它大概有 600 多個 Character,大概是 1100 多個 Token 那麼大概的數字就隨意
那麼如果我用另一個工具看純粹指數看看它能不能出
那麼其他工具它好像拆不到究竟有多少字
因為那些中文字可能黏在一起,所以我們純粹不是用工具來看就是看 Character,因為中文字有粒粒;但是它混合了英文大概 500 多個字
那麼 500 多個字就 1100 個 Token,那麼就是大概隨意的數字,所以就是說 1000 個 Token
如果以英文來說就是 750 個字;中文就是 500 個字
那麼如果你要寫一個內容大概 1000 字,那麼如果用中文的話那就是說要有 2000 個 Token,那就是說是 0.004,那麼都是一毫子不用你就可以寫到一個 1000 字的中文內容
這個是一個 3.5 個版本
那麼有些朋友可能覺得“喂 3.5 個版本呢,那個質素好像沒那麼高,我要用 4 這個版本”
GPT 4 的 Token 計算
好了 4 這個版本你看到它支援兩個 Token 的 Size,因為這些都有限的 Token Size,如果是出 GPT 大概你可以用到 4000 個 Token,那麼它陸續陸續在加緊,就是當你看到影片的時候可能又變了
那麼但是 GPT-4 是說可以有 8000 個 Token
那麼如果以剛才那個計算法那麼大概中文字是隨意的,就是你可以用 GPT-4 寫一篇大概 4000 字的內容
我試過很多次其實用 API 就未必會出到 4000 字(通常會少一點的),那麼但是如果同樣的計算法
這個出 500 字的中文內容的話就是一毫子都不用;那麼但是如果這個出 500 字的中文內容是大概 5 毫子的
這個一毫子都不用;這個 5 毫子,那麼所以那個價錢其實是差很遠;但是那個內容質素是會好一點
那麼還有 That’s why 它會貴一點,而有很少部分的用戶他們是可以 up to 大概 32000 個 Token
32000 個 Token 就是說寫 16000 字的長度;但是那個價錢又貴很多,如果寫 500 個字的中文是用這個叫做 32000 Token 的話
那麼正常你寫這麼少字,你就不會用 32000 了,假設你用 8K 了那麼就是你寫長文的時候,如果有機會你又能夠用 32000 那麼出 500 字那個價錢是多少,那麼這裡乘下去
大概是一塊錢左右就是 500 字的中文字
這個就是說 5 毫子這個就一塊錢左右;但是你用一塊錢這個和五毫子這個,其實這兩個的質素是一樣的
小結
因為都是 GPT4 唯一的分別是它的長度不同而已,所以如果你能夠這麼長你又要用它的話,那麼 500 字就一塊錢,那麼那個成本就很不一樣那麼當然 500 字一塊錢其實也是很便宜的一件事
如果重要的質素是挺好的,只不過是 GPT 那個版本是說一毫子都不用;但是如果是尋找一個高一點的質素,那就可以去參考就是用 GPT4 這樣,那麼這個就是你可以去這個叫 Tokenizer 的工具那裡去做
譬如現在這裡就會看到有 3000 個 Token 我再複製一次就 6000 了,再複製下去就 9000(再複製下去呢)
它本身這個 Tokenizer 我懷疑它應該去到一萬多個 Token 它應該就不會再 Detect 到版本雖然它支援
它這個位置支援是 32000 個;但是它讓你去測試這個位置反而是支持不了那麼多字,那麼我試一下繼續 Delete 這些字看看會不會可以查到(它的限制去到哪裡)
先看看 去到過萬的去到一萬一千多,我再複製下去看看它的限制去到多少(複製多一點)直到爆了
所以它的限制應該是一萬一千多
你現在還可以看到去到極限,去到這個位置一萬一千六百多,然後開始就去不到,我再試一下一萬一千七百多;然後開始在測試它的限制
在這裡一邊縮看到它的限制應該就是大概在一萬一千(11,716個 Token)
那麼它的 Character 數目我猜它應該是去到五萬(就是少於五萬,剛剛好五萬的限制),多於五萬的 Character 它的 Tokenizer 就試不到給你看(大概是 equivalent to那個 Token 的數目)
不過這個純粹是算數希望你看到這裏有多一點概念,如果你接下來要用 API 在你的Business Operation 上以及那個 Token 真正的計算模式是怎樣