距離上篇在 Early Access Playground 試用 o1 模型後又過了兩週,今天終於等到 API 開放使用啦!本篇將紀錄如何使用 Python SDK 存取 o1 模型。
系列文章
模型佈署
在先前開放的 Early Access Playground 中使用 o1 是不需要另外佈署模型的,不過回到使用 API 來存取 o1 模型,就需要像之前的模型一樣先進行佈署才能使用,相信大家都很熟悉了。
使用 Python SDK
一樣使用熟悉的 openai 套件:
2024-09-01-preview
初始化的方式與先前模型都一樣,需要注意的是 o1 模型目前只能使用最新的 API 版本 2024-09-01-preview 來訪問。
Chat Completions
將 model 填入 o1-preview,或是你的模型佈署名稱,messages 也一樣是歷史對話堆疊的 List。
回應如下:
查看 Token 使用量
內建 Chain of Thought 的 o1 比起過往的模型會消耗較多的 Token,因此我們特別把 Token 使用量拉出來看。
回應如下:
其中 prompt_tokens、completion_tokens、total_tokens 在先前的 API 就已經存在了,分別代表Token 的 Input、Output 與總使用量,而在新的 completion_tokens_details 中可以看到 reasoning_tokens 使用了 320 個 Tokens,居然佔了總輸出 Token 的 80% 以上!
控制 Token 成本
已往我們可以使用 max_tokens 參數來控制 Token 的用量,但在 o1 模型中棄用了 max_tokens,取而代之的是使用 max_completion_tokens 參數,來看看這段程式碼:
回應如下:
沒東西?那再看一次 Token 量。
回應如下:
Token 居然是有被使用的!
這表示 max_completion_tokens 並不像過往使用 max_tokens 這麼簡單,先前在回應遇到 max_tokens 限制時,雖然回應會被截斷也至少會得到部分的輸出,但在 o1 模型重複疊代思考,且未得到答案前就達到 max_completion_tokens 限制的話,是不會有任何輸出的,更慘的是我們還需要為這些已經使用的 Token 付費😭
結論
從這次試用 API 的實驗,我們確認了 Chain of Thought 所帶來的大量 Token 成本,o1 的 Reasoning 過程可能會佔總 Token 量的八成以上,同時還要針對案例找出適用的 max_completion_tokens,這些都顯示出使用 o1 API 可能會對於成本控制增加一定的複雜程度。
留言
張貼留言