Google 發表全新輕量化 AI 模型 Gemini 3.1 Flash-Lite,主打極致快與省,首字回應速度較前代提升 2.5 倍、輸出速度成長 45%,並導入「思考等級」功能讓開發者靈活控制算力成本。
在各個AI業者巨頭競相爭奪推論成本與速度優勢的當下,Google宣佈推出全新輕量化模型「Gemini 3.1 Flash-Lite」。這款主打「極致快與省」的新一代模型,被Google定位為Gemini 3系列中速度最快、性價比最高的選擇,更專為開發者的大規模、高吞吐量工作負載而生。憑藉著全面超越前代2.5 Flash的強悍效能與超低延遲特性,Gemini 3.1 Flash-Lite準備在企業級應用與API經濟市場掀起新一波的算力革命。
即日起,開發者可透過Google AI Studio的Gemini API取得3.1 Flash-Lite預覽版,企業用戶也能同步在Vertex AI平台上進行佈署與應用。
震撼市場的定價與有感提速
在商業應用落地上,「成本」與「延遲」往往是開發者最在意的兩大痛點。Gemini 3.1 Flash-Lite這次端出極具侵略性的定價策略:
• 輸入 (Input tokens):每百萬Token僅需0.25美元。
• 輸出 (Output tokens):每百萬Token僅需1.50美元。
除了價格親民,速度更是其最大賣點。根據Artificial Analysis的基準測試,在保持同等甚至更高生成品質的前提下,Gemini 3.1 Flash-Lite的首字回應速度 (Time to First Token, TTFT)比2.5 Flash大幅提升2.5倍,整體輸出速度也成長45%。
Google強調,這種超低延遲特性是高頻工作流程的必備條件,讓其成為打造「即時響應式體驗」的理想模型。
跨級距的推論與多模態能力
別以為掛上了「Lite」的後綴就代表不夠聰明。在權威排行榜Arena.ai上,Gemini 3.1 Flash-Lite獲得高達1432分的佳績。
更令人矚目的是,在多項考驗推論邏輯與多模態理解 (Multimodal understanding)的基準測試中,Gemini 3.1 Flash-Lite的表現均超越同級別對手,甚至「越級打怪」贏過了前幾代體量更大的模型 (如2.5 Flash)。
導入「思考等級」控制,彈性應對複雜任務
為了讓開發者能更精準地控制算力成本,Gemini 3.1 Flash-Lite在AI Studio和Vertex AI中標配一項極具實用性的新功能——「思考等級」 (Thinking Levels)。
這項機制允許開發者針對特定任務,靈活調整模型「思考的深度」。當面臨對成本極度敏感的大批量任務 (如海量文本翻譯、內容審核)時,可以調低思考層級以追求極致速度;而當需要處理複雜邏輯 (如生成UI介面、創建模擬環境、遵循複雜的多步驟指令)時,則可調高思考層級以確保精準度。包含Latitude、Cartwheel和Whering等早期測試企業均表示,Gemini 3.1 Flash-Lite能夠以接近大型模型的精準度處理複雜輸入,並展現出極高的指令遵循一致性。