大模型指標:RPM、TPM…這些“神秘代碼”到底是什么?
一、RPM:每分鐘能“說多少話”?
定義:RPM全稱是Requests Per Minute(每分鐘請求數(shù)),表示大模型每分鐘能處理的請求次數(shù)。比如,某模型設置RPM=300,就意味著每分鐘最多響應300次用戶提問。
為什么重要?
- 防“薅羊毛”:防止用戶瘋狂刷請求,導致服務器崩潰。
- 公平分配:像食堂打飯,先到先得,避免有人插隊占滿資源。
舉個??:假設你用AI寫文案,如果RPM限制是300,那么每分鐘最多提交300次請求。如果短時間內發(fā)太多,系統(tǒng)可能會提示“請求太頻繁”。
二、TPM:每分鐘能“寫多少字”?
定義:TPM全稱是Tokens Per Minute(每分鐘處理tokens數(shù)),衡量模型每分鐘能處理的文本量(包括輸入和輸出)。例如,TPM=30萬,意味著每分鐘最多處理30萬個“文字單位”(tokens)。
為什么關鍵?
- 長文本處理:輸入或輸出太長會占用更多tokens,可能觸發(fā)限額。比如寫一篇千字文章,可能比10條短消息更費“額度”。
- 計費依據(jù):很多平臺按TPM收費,控制成本的關鍵。
舉個??:如果某模型TPM=30萬,而每個漢字≈2個tokens,那么每分鐘最多能處理約15萬漢字的輸入或輸出。超過這個量,請求就會被“拒簽”。
三、對比“老朋友”QPS:從秒級到分鐘級
QPS(Queries Per Second):傳統(tǒng)指標,衡量每秒處理請求的能力。比如QPS=5,就是每秒處理5次請求。但大模型處理復雜任務(如邏輯推理、長文本生成)需要更多時間,所以逐漸轉向分鐘級指標(RPM/TPM)。
四、不同大模型的指標差異
廠商 | 模型 | 默認RPM | 默認TPM |
百度 | 文心3.5 | 300 | 30萬 |
百度 | 文心4.0 | 120 | 12萬 |
阿里云 | 千問-max | 1200 | 100萬 |
阿里云 | 千問-plus | 15000 | 120萬 |
火山引擎 | 豆包-pro-32k | 10000 | 800萬 |
數(shù)據(jù)來源:百度、阿里、火山引擎等廠商公開信息。
五、如何應對指標限制?
- 控制輸入長度:精簡問題,避免冗長文本。
- 錯峰使用:避開高峰期,分時段提交請求。
- 升級套餐:如果需求大,選擇高RPM/TPM的付費服務。
結語
RPM和TPM是大模型時代的“新語言”,理解它們就像掌握新工具的使用說明書。下次看到這些指標時,別慌!記?。?/span>RPM管次數(shù),TPM管字數(shù),合理規(guī)劃就能讓AI服務更順暢~
擴展知識:
- 首Token延時:從發(fā)送請求到收到第一個字的時間,直接影響用戶體驗。
- 每分鐘Token輸出:衡量模型生成效率,越高說明“打字越快”。
本文轉載自微信公眾號「碼上煙火」,可以通過以下二維碼關注。轉載本文請聯(lián)系碼上煙火公眾號。