
商傳媒|責任編輯/綜合外電報導
微軟(Microsoft)近期推出一項劃時代的AI研究系統 Critique,旨在解決人工智慧(AI)模型生成內容後難以自我驗證的根本問題。這套系統搭配 Council 功能,透過導入多模型比較與評審機制,大幅提升AI研究的可靠度與透明度。
Critique 顛覆了傳統單一模型的工作模式,將流程劃分為兩個核心角色:一個生成模型負責規劃、資料檢索與草稿撰寫,而另一個獨立的評審模型則專責評估其輸出成果。這個評審模型會依據一套預先定義的評分標準,檢查論點的完整性、來源的可信度,以及證據的堅實程度,運作模式近似於學術界的同儕審查機制。
值得注意的是,Critique 系統不僅仰賴微軟內部模型,也整合了來自 OpenAI 和 Anthropic 等合作夥伴的模型。與此同時推出的 Council 功能,能讓使用者同時運行多個模型,並獨立生成報告,隨後再由一個獨立的「評審模型」統整這些報告的共識、差異點及獨到見解。Council 的設計理念,是透過呈現多元視角,協助使用者發現潛在的盲點,並深入理解結論的推導過程。
Critique 系統的核心評估標準,著重於三大面向:來源的可信度與相關性、對查詢問題回應的完整性,以及支持論點證據的清晰度。微軟利用 DRACO 基準測試對 Critique 進行評估,該測試涵蓋 100 項複雜的研究任務。結果顯示,基於 Critique 的系統相較於微軟自身的單一模型設定,效能提升了七個百分點。此外,該系統在分析的深度與廣度方面,也較 DRACO 基準測試中參考的其他系統展現出 13.88% 的優勢。
然而,這類多模型系統在提升可靠度的同時,也帶來了新的複雜性。如何解讀模型間的分歧,以及對最終「評審模型」的摘要是否完全信任,仍是待解的課題。此外,同時運行多個模型需要大量的運算資源,這可能限制了其在大型企業之外的應用,因為高成本與延遲問題仍需克服。儘管有審查機制,系統仍依賴底層模型的準確性,審查僅能降低風險,無法完全消除錯誤。
微軟推出的 Critique 和 Council,代表了人工智慧發展的一個重要轉變:從過去專注於生成答案,轉向強調答案的驗證。透過生成與評估的分離,以及多模型比較機制,微軟希望藉此打造更可靠、更透明的AI研究工具。


