Mistral AI,這家估值20億美元的小公司成了AI社區的最愛

說起現在世界上頂級大模型和生成式AI的締造者,除了OpenAI、Google、Meta、Anthropic這些名字,如果只把目光投向矽谷,那知識庫可能真的該更新了。

最近在法國巴黎,一家成立才半年,僅有22名員工的AI初創公司異軍突起,宣佈完成3.85億歐元(合4.15億美元)A輪融資,投資方包括a16z、光速創投、Salesforce和法國巴黎銀行等著名機構。它的估值也因此在短短六個月內增長了七倍多,突破20億美元,輕鬆躋身獨角獸行列,創下開源公司史上最快融資記錄。

這家公司的名字就是 Mistral AI,今年5月由Meta和Google DeepMind前員工創立。專注於開發生成式AI技術,特別是用於構建線上聊天機器人、搜尋引擎和其他人工智慧驅動產品。

值得一提的是,成立僅一個月,還沒有公佈產品、彼時只有6名員工的Mistral AI,就曾憑藉7頁PPT「神話」般拿下1.13億美元種子輪融資,轟動整個歐洲AI行業。

作為目前最炙手可熱的業界新星,Mistral AI被認為是少數幾家能與OpenAI技術相媲美的AI公司之一。但與OpenAI並不 ‘Open’相反,Mistral AI一直堅持推廣開源軟體方法,允許使用者自由複製、修改和再利用其計算機程式碼,為外部開發者提供他們需要的一切。以「引領開放模型革命」為公司使命,正面對抗OpenAI、Google等走閉源路線的AI巨頭。

而規模這麼小的Mistral AI,是如何用其高效能的強大AI模型征服十幾家頭部VC,又如何踐行開源理念,贏得廣大開發者社區潮水般的支持和肯定?這些都與公司的創始團隊有分不開的聯繫。

世界級技術專家聯手打造歐洲「開源版OpenAI」

Mistral AI的三位聯合創始人中,執行長Arthur Mensch(中)曾任Google DeepMind的研究員,參與了包括Flamingo、Chinchilla、Gopher在內的多個DeepMind經典模型,也是Flamingo和Chinchilla的核心貢獻者,對多模態、RAG、演算法最佳化等技術有深刻理解。

技術長Timothée Lacroix(右)和首席科學家Guillaume Lample(左)此前都是Meta巴黎人工智慧實驗室的核心研究人員,兩人對模型推理、預訓練和模型嵌入有深入研究,是Llama和Llama2的核心技術貢獻者,並發表過多篇重要學術論文。他們的前東家Meta也恰恰是鼓勵開源的代表公司之一。

公司員工喜歡開玩笑說,創始人姓氏的首字母連起來是「L.L.M.」,正是大型語言模型的縮寫,彷彿預示了Mistral的誕生與宿命。

而這支年輕的團隊本身也具備了頂尖AI公司人才的典型特質:以科學家為主、研究能力強、技術棧互補且全面。其中7人來自Meta(4位是 Llama 參與者),3人來自Hugging Face,2人來Deepmind,大部分都參與過知名大語言模型項目開發。

此外,還有曾在麥肯錫任職12年、並幫助法國SaaS獨角獸Mirakl從B輪成長到E輪的首席商務官Florian Bressand、前法國數字事務國務秘書的顧問Cédric O為這個科學家主導的公司保駕護航。

團隊精幹高效、配合緊密,在各個環節上都有擅長的專家。這種清晰的團隊構成和技術為先的實幹型科學家屬性也對映到了Mistral AI的行事風格和產品上。

一條「直給式」磁力連結,帶來開源模型新王者

兩週前,Mistral AI就在沒有預告、沒有官方部落格、沒有Demo的情況下,在社群網路X甩出一條磁力連結,發佈了引爆開源社區的首個 MoE 開源模型 Mixtral 8x7B。

沒有 OpenAI一貫的曖昧戲碼和花式推拉、也沒有Google發佈Gemini時精心剪輯的「特效視訊」,甚至連一句介紹語都沒有。Mistral AI的官宣方式如此樸實無華,簡單粗暴。秉持著「能幹成一件事兒就絕不跟你多廢話一個字」的作風,成為AI圈特立獨行的「一股清流」。

網友心說這種新品發佈方式也太獨特了,下次不得直接隔空投送?還有人都有點看不下去:「你們搞錯了,應該先發一個長部落格,別帶模型」,這是順帶把誰家也反諷了一把。

當然更多的開發者是興奮,當即表示自己的週末「毀了」,因為迫不及待要馬上去下載來運行試試。

這裡簡單解釋一下MoE,全稱為Mixture of Experts(混合專家模型),就是把複雜的分析預測任務分割成一系列更小、更容易處理的子任務,每個子任務由符合該特定領域的「專家」負責。MoE架構不僅能提高模型處理資訊的效率,還降低了運行成本。

據說OpenAI從去年開始就在用這種方法來訓練GPT-4, Mistral AI則正是致力於為企業提供一種「無限接近」GPT-4的開源選擇。

具體到連結裡的Mixtral 8x7B,總參數為46.7B,但每個令牌只使用12.9B。因此,它以與12.9B模型相同的速度和成本處理輸入並生成輸出。Mistral 8x7B擁有32k Tokens上下文長度,支持英語、法語、義大利語、德語和西班牙語。在程式碼生成方面表現出色,還支持微調為指令跟隨模型,並採用 Apache 2.0 許可證開源商用。

性能方面,Mixtral 8x7B在大多數基準測試上都超越了700億參數的Llama 2 70B,推理速度提高6倍。在模擬真實世界對話場景、評估大語言連貫性和資訊豐富的MT-Bench測試中,它達到了8.30的分數,其性能可與GPT3.5媲美,成為最好的開源模型。

商業和科技網站ReadMultiplex創始人、著名科學家Brian Roemmele在Twitter稱Mixtral 8x7B的開源是 「自Meta首次發佈LaMMA以來最重要的時刻之一」,是「令人震驚和里程碑式創新」。

並且已經有人基於它微調了一個完全自由和開放的模型dolphin-2.5-mixtral-8×7。會「回應所有使用者的指令,不會帶有任何評判性。不會對你施加任何道德標準,並會展現網際網路上的所有可用資訊。」再也不會遇到「作為一個AI助手,我不能…」的問題。

網友們更是為Mistral AI各種花式打call,盛讚Mistral AI是「地球上最真誠和忠於初心的團隊」,真正為開發者辦實事,令「Open」AI終於變成了現實。

一條簡單到不能再簡單的磁力連結就這樣點燃整個AI社區。而返回去看Mistral AI的X賬號頁面,你會發現整個官推沒有圖片、沒有視訊,自注冊以來總共就發佈了三條內容。上一條還是團隊9月份推出的開源模型Mistral 7B,同樣只甩出了異曲同工的磁力連結。

這個由團隊短短3個月內打造出的Mistral 7B,至今仍被業界認為是7-13B小模型中的佼佼者。它在幾乎所有基準測試中都比Llama 2 13B 更優秀,還在程式碼、數學和推理方面贏過 LLaMA-1 34B。並且公司並非通過API開放Mistral 7B的訪問許可權,而是免費下載,使得開發者可以在自己的設備和伺服器上運行它。

在第一條自報家門的推文中,Mistral AI依舊無心PR,畫風是說不出的特別:「這是Mistral AI的官方賬戶,由@GuillaumeLample、@arthurmensch 和 @tlacroix6 新近創建的公司…我們的身份在推上已經被盜用了,這個才是真的 :)。」

這種專注搞技術的耿直風一下子就把網友們拿捏了。見慣了各種AI公司華麗的營銷和侃侃而談的自我包裝,光是Mistral AI這個看上去用word製作出來的logo就圈粉無數。

也有人對Mistral AI喊話說,等你們有錢了,去僱一個厲害點兒的美工吧!

很顯然,Mistral AI現在完全不差錢了。但作為一家從最開始就決心遵循開源發展的創業公司,它長遠的盈利之路能跑通嗎? 他們自己又是怎樣看待技術發展上集中與去中心化的博弈?

堅持開源,「是過去更是未來」

在官網的公司介紹頁面上,Mistral AI稱這是一個行動迅速、高工作強度和透明度的團隊,使命是將強大的生成式AI技術帶給最廣泛的軟體開發者和企業使用者社區,以應用為驅動,讓模型真正對現實世界有所幫助。並希望成為開放式AI社區的領先支持者,將開源模型帶到最先進的性能水平。

許多像OpenAI和Google這樣的競爭公司認為,讓大模型演算法開源是危險的,底層技術可能被濫用來傳播虛假資訊、仇恨言論和製造其它有害事物。他們只能在花費數月時間設置數字護欄後,以線上聊天機器人的形式向公眾發佈。

而 Mistral AI則認為,引領生成式AI革命必須開源。社區支持的模型開發才是接受嚴格審查和抗擊偏見的最佳路徑。通過訓練和公開發布優越的模型,讓開發者社區力量和更多成功的開源項目彼此驅動和最佳化,可以構建一個可信的替代方案,對抗新興的AI寡頭。

CEO Arthur Mensch在Greylock合夥人Sarah Guo的部落格中表示,如果有人為了實現某些有害行為去做資訊收集的話,可能反而是傳統搜尋引擎而不是 LLM 更容易實現這件事。禁止小公司開源,確實會令大公司更受益,但是這並不利於 AI 生態的整體發展。

同時Mensch也提到,在過去十幾年間,計算機技術的重大變革——從網頁瀏覽器、作業系統、程式語言到資料庫——大多都得益於開源解決方案。事實上,直至2020年(GPT-3發佈之前),幾乎所有大型語言模型的研究都是公開且透明的。然而自2020年開始,隨著某些公司在這一領域取得領先並意識到價值,情況就隨之改變了。

「我們認為過早進入閉源階段對科學發展是有害的」,Arthur Mensch說,「在一個不透明的環境中,大家可能會同時在一個任務上做投入,因為不能共享而導致大量資源浪費。」他也稱開放權重模型可以精細地適應和解決各個行業垂直領域中的核心業務,開發者可以自定義他們想要的護欄和編輯語氣,生成的內容也不再依賴API提供者的選擇和偏見,而這些都是黑盒模型無法匹敵的。

這種開源共享精神,也自然在如今AI行業巨頭壟斷、小公司掙扎求生存的時代背景下,獲得廣大開發者的擁戴。人們表達著見證開源模型迅速趕上閉源模型的興奮,認為「用更少做更多」正是開源生態系統最鼓舞人心的地方,並希望Mistral AI能隨著新資金的注入加速開源領域創新。

「我們希望通過更開放地分享我們的技術,引導社區朝著更好、更安全的方向前進。我們的真正目標是佔據領導地位,並改變遊戲規則,因為當前的發展方向並不正確」,Arthur Mensch說道。

能不能既開源又「搞錢」?

據悉,Mistral AI還沒開始盈利。而「開源」和「商業化」之間,似乎總存在著一定的張力。如何把兩者有效融合,是把開源LLM公司做長遠不能略過的問題。

目前Mistral AI 已基於其自研模型推出了 「La Plateforme」託管平臺測試版,提供Mistral Tiny,Mistral Small 和 Mistral Medium三個模型類別。

其中Mistral 7B和 Mixtral 8x7B 分別屬於 Mistral Tiny 和 Mistral Small,可供使用者免費下載,而Mistral Medium還未開源。後期這個性能更強大的模型也許會以API調用的形式收費,或是為企業提供模型微調、RAG、定製化服務等。

另外說到市場,與OpenAI們瞄準美國和全球不同,Mistral AI將施展拳腳的舞臺定位在了歐洲。

這裡匯聚的大量世界財富500強公司不愁付費能力。相較於美國,歐洲多是傳統行業,對新興技術有著更迫切的需求。同時,歐洲對新技術的資料監管更加嚴格,對解決方案的開放透明度有著更高的要求,十分適合Mistral AI的開源策略。

除此之外,創始人Arthur Mensch也認為,歐洲在AI人才儲備上具有獨特優勢,「這邊非常擅長培養數學家,而數學家在AI研究中扮演著至關重要的角色。這些人多數更適應歐洲的生活,並不一定非得去美國。」

「因為 DeepMind 的原因,倫敦的 AI 生態肉眼可見地崛起了,緊接著會是巴黎。現在巴黎已經有幾百家初創公司,雖然離矽谷還差得遠,但我相信類似於灣區的那種飛輪也會在法國出現。」

他還在法國國家廣播電臺透露, Mistral AI明年將會發佈一個開源的GPT-4級別模型。

在地理和氣候學中,”Mistral” 是指吹過法國南部和地中海西北部的一種強勁、持久的寒冷北風。通常在冬季和早春期間吹拂,對當地的氣候和環境有顯著影響,有時會帶來非常低的溫度和晴朗的天空。

Mistral AI或許希望自己能像這股凌冽的寒風,在發展速度一日千里的人工智慧時代,帶來新鮮的思想、革命性的引領和強大的影響力。而一個全新的AI王者在距離矽谷上萬公里以外的歐洲大陸崛起,也正是全球開發者喜聞樂見的。

Source

Visited 7 times, 1 visit(s) today
Subscribe
Notify of
guest
0 Comments
Most Voted
Newest Oldest
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x
()
x