Mistral-Medium意外洩露？衝上榜單的這個神秘模型讓AI社區討論爆了

機器之心編輯部

「我現在 100% 確信 Miqu 與 Perplexity Labs 上的 Mistral-Medium 是同一個模型。」

近日，一則關於「Mistral-Medium 模型洩露」的訊息引起了大家的關注。

洩露傳聞與一個名為「Miqu」的新模型有關，在評估語言模型情商的基準 EQ-Bench（EQ-Bench 與 MMLU 的相關性約為 0.97、與 Arena Elo 的相關性約為 0.94）上， Miqu 直接吊打了除 GPT-4 之外的所有大模型，而且它的得分與 Mistral-Medium 非常接近：

ef4426bd87c69028ce52dd4dbf23967c309f834f

圖源：https://x.com/N8Programs/status/1752441060133892503?s=20

開源地址：https://huggingface.co/miqudev/miqu-1-70b

這麼強大的模型，項目的發佈者卻是一位神秘人士：

3fed14a2c8f2bb0f05745120c2bd3d8c944c1af9

有人問「who made you」， Miqu 直接自報家門：「I was created by the Mistral Al team.」

e938b303377753df05dfb5f077d0ba0b96ff8c85

9c506d61dbd3853a462f78102c1e2d551695d5d9

有人分別向兩個模型發送了同一道測試問題，收到的回答都是用俄語表達的。測試者加深了懷疑：「它似乎知道標準謎題，但如果是惡作劇者，根本不可能將其調整為同樣用俄語回答。」

在翻譯過程中，表述也近乎相同。

Miqu 到底來自何方？它真的是 Mistral-Medium 嗎？

在持續兩天的熱議中，多位開發者針對兩個模型做了對比，對比的結果指向以下幾種可能性：

1、Miqu 就是 Mistral-Medium；

2、Miqu 確實是來自 MistralAI 的一個模型，但是是一些早期的 MoE 實驗版本或其他版本；

3、Miqu 是 Llama2 的微調版本。

在前面，我們介紹了支持第一種可能性的開發者給出的理由。隨著事件的發酵，更多開發者投入了解密一般的行動中，對兩個模型進行了更深入的測試。一位 reddit 網友熬夜肝出的測試表明，Miqu 更像是 MistralAI 模型的早期版本。

86527687e16a3d326e9cc463c7034b074c5aa348

這位開發者將模型應用於四個專業的德語線上資料保護培訓 / 考試中。測試資料、問題及所有指令都是用德語進行的，而字符卡是英語的。這可以測試翻譯能力和跨語言理解能力。

具體測試方法如下：

在提供資訊之前，用德語指示模型：「我將給你一些資訊，請注意這些資訊，但回答時只需用『OK』來確認你已理解，不要多說其他的。」這是為了測試模型對指令的理解和執行能力。
在提供話題的所有資訊後，向模型提出考題。這是一個選擇題（A/B/C），其中第一個問題和最後一個問題相同，但選項順序和字母（X/Y/Z）被更改。每次測試包含 4-6 個考題，總共 18 個多項選擇題。
根據模型給出的正確答案數量來進行排名，首先考慮的是在提供了課程資訊後的答案，其次是在沒有提前提供資訊的情況下盲目回答的答案，以應對平局情況。所有測試都是獨立的單元，每次測試之間會清除上下文，各個會話之間不保留任何記憶或狀態。

詳細測試報告如下：

miqudev/miqu-1-70b GGUF Q5_K_M，32K 上下文， Mistral 格式：只對 4+4+4+5=17/18 道選擇題給出了正確答案。沒有先前的資訊，只回答問題，給出正確答案：4+3+1+5=13/18。沒有按照說明用 “OK” 確認資料輸入。

在測試過程中，開發者發現 Miqu 與 Mixtral 有許多相似之處：出色的德語拼寫和語法雙語；在回覆中添加翻譯；在回覆中添加註釋和評論。

不過，在這位開發者的測試中，Miqu 與 Mixtral-8x7B-Instruct-v0.1（4-bit）相比表現要差一些，仍優於 Mistral Small 和 Medium。但它並不比 Mixtral 8x7B Instruct 好得多。這位開發者猜測，Miqu 可能是洩露的 MistralAI 模型，是一個較舊的，可能是概念驗證模型。

這是我們目前看到的支持第二種說法的最詳細的測試。

不過，也有開發者認為，Miqu 和 MistralAI 沒有關係，反而更像 Llama 70B，因為其架構與 Llama 70B「完全相同」，「不是專家混合模型」。