商傳媒

微軟 Critique 與 Council 顛覆AI驗證模式提升研究可靠度

由

2026-04-04 21:22

商傳媒｜責任編輯／綜合外電報導

微軟（Microsoft）近期推出一項劃時代的AI研究系統 Critique，旨在解決人工智慧（AI）模型生成內容後難以自我驗證的根本問題。這套系統搭配 Council 功能，透過導入多模型比較與評審機制，大幅提升AI研究的可靠度與透明度。

Critique 顛覆了傳統單一模型的工作模式，將流程劃分為兩個核心角色：一個生成模型負責規劃、資料檢索與草稿撰寫，而另一個獨立的評審模型則專責評估其輸出成果。這個評審模型會依據一套預先定義的評分標準，檢查論點的完整性、來源的可信度，以及證據的堅實程度，運作模式近似於學術界的同儕審查機制。

值得注意的是，Critique 系統不僅仰賴微軟內部模型，也整合了來自 OpenAI 和 Anthropic 等合作夥伴的模型。與此同時推出的 Council 功能，能讓使用者同時運行多個模型，並獨立生成報告，隨後再由一個獨立的「評審模型」統整這些報告的共識、差異點及獨到見解。Council 的設計理念，是透過呈現多元視角，協助使用者發現潛在的盲點，並深入理解結論的推導過程。

Critique 系統的核心評估標準，著重於三大面向：來源的可信度與相關性、對查詢問題回應的完整性，以及支持論點證據的清晰度。微軟利用 DRACO 基準測試對 Critique 進行評估，該測試涵蓋 100 項複雜的研究任務。結果顯示，基於 Critique 的系統相較於微軟自身的單一模型設定，效能提升了七個百分點。此外，該系統在分析的深度與廣度方面，也較 DRACO 基準測試中參考的其他系統展現出 13.88% 的優勢。

然而，這類多模型系統在提升可靠度的同時，也帶來了新的複雜性。如何解讀模型間的分歧，以及對最終「評審模型」的摘要是否完全信任，仍是待解的課題。此外，同時運行多個模型需要大量的運算資源，這可能限制了其在大型企業之外的應用，因為高成本與延遲問題仍需克服。儘管有審查機制，系統仍依賴底層模型的準確性，審查僅能降低風險，無法完全消除錯誤。

微軟推出的 Critique 和 Council，代表了人工智慧發展的一個重要轉變：從過去專注於生成答案，轉向強調答案的驗證。透過生成與評估的分離，以及多模型比較機制，微軟希望藉此打造更可靠、更透明的AI研究工具。