SLM逆襲LLM？微軟下注更小、更便宜的“大模型”

发布时间：2024-01-24

在過去一年左右的時間裏，大模型（LLM）吸引了全球的註意力，從GPT3.5、GPT-4到LLaMA等開源模型。然而，種種跡象表明，小模型（SLM）如今越來越受到重視。

1月23日，媒體援引兩位知情人士透露，微軟已經組建了一個新團隊來開發對話式AI，與目前使用的OpenAI軟件相比，微軟開發的這種AI需要的計算資源更少。知情人士稱，微軟已將幾位頂尖AI開發人員，從其研究小組調至新的GenAI團隊。

上個月，微軟亮出了小模型大招，發布27億參數規模的小語言模型Phi-2，在部分基準測試中超過谷歌的Gemini Nano 2，可以在筆記本電腦、手機等移動設備上運行。

分析指出，微軟與OpenAI的緊密合作，使得GPT模型的表現在大模型市場一騎絕塵，再加上微軟參數規模更小的Phi系列，能進一步搶占開源模型長尾市場。

微軟大、小模型兩手抓

上述知情人士表示，GenAI團隊與微軟的另一個團隊Turing是分開的，Turing開發了大模型來改進Bing和其他微軟產品。而GenAI團隊致力於開發小模型。

微軟的小模型Phi參數規模足夠小，但在處理某些任務上可以媲美GPT-4。為了讓Phi表現足夠優秀，研究人員去年曾使用GPT-4生成了數百萬條高質量文本，並根據這些數據對Phi進行了訓練。

Phi曾在AI研究社區中引起了轟動，此後，微軟又推出該模型的最新版本Phi-2，作為開源模型提供給用它來構建自己的AI應用程序的Azure客戶。高盛等公司近幾個月就一直在測試Phi。

與此同時，微軟已經在研究如何利用小模型，來處理Bing AI聊天機器人和Windows Copilot用戶較為基本的咨詢問題，以降低計算成本。

本月早些時候，在達沃斯論壇上，微軟首席執行官Satya Nadella誇贊了公司在小模型方面的工作，稱其為“掌控我們自己命運”的一種方式。

Nadella表示："我們對擁有最好的前沿模型非常重視，當前最先進的大模型是GPT-4。我們還有Phi，它是微軟最好的小模型。因此，我們將擁有多樣化的模型。”

“小模型”開辟新戰場

除了微軟之外，也是在上個月，法國初創公司MistralAI公布的開源模型Mixtral 8x7B引起轟動。

華爾街見聞此前文章提到，模型Mixtral 8x7B規模參數相對較小，而能力卻能達到GPT-3.5的水平。

Mixtral 8x7B之所以叫Mixtral 8x7B，是因為它屬於稀疏模型，將各種為處理特定任務而訓練的較小模型組合在一起，從而提高了運行效率。

性能方面，Mixtral表現優於Llama 2 70B，推理速度提高了整整6倍；在大多數標準基準測試上與GPT-3.5打平，甚至略勝一籌。

成本方面，由於Mixtral的參數較小，所以其成本也更低。與Llama 2相比，Mixtral 8x7B表現出自己高能效的優勢。

毫無疑問，規模較小的模型可以降低了大規模運行人工智能應用的成本，同時極大地拓寬了生成式AI技術的應用範圍。

值得一提的是，MistralAI剛剛完成4.15億美元融資，最新估值已經沖破20億美元，在短短6個月中增長了7倍多。

風險提示及免責條款

市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。