2025年10月10日,歐盟委員會聯合研究中心(JRC)發(fā)布《通用人工智能(GPAI)模型分類框架》報告。作為《歐盟人工智能法案》(以下簡稱《AI法案》)配套的關鍵外部科學研究成果,該報告首次提出一套基于認知能力量化的GPAI模型評估方法論,為法案中GPAI模型的界定、監(jiān)管義務落地提供可操作的技術標準。
《AI法案》于2024年8月1日正式生效,明確將GPAI模型定義為“通過大規(guī)模自監(jiān)督方式訓練、具備顯著通用性、能勝任多種任務且可集成至下游系統(tǒng)的AI模型”,并要求2025年8月2日起,GPAI模型及存在系統(tǒng)性風險的GPAI模型需履行特定合規(guī)義務。然而,法案生效初期,“如何量化通用性”“怎樣判定‘勝任多種任務’”等關鍵問題缺乏技術標準答案。報告核心目標是將《AI法案》中GPAI模型的抽象定義,轉化為可測量、可復現的評估指標,確保監(jiān)管既不阻礙AI創(chuàng)新,又能保障人類健康、安全與基本權利。
框架突破傳統(tǒng)“單一性能指標評估”模式,借鑒認知心理學中的卡特爾-霍恩-卡羅爾(CHC)智力理論,結合AI技術特性,篩選出四大核心認知領域作為GPAI模型評估的核心維度,覆蓋AI通用能力的關鍵場景:
注意力與搜索(AS):模型在數據流中聚焦關鍵信息、篩選目標內容的能力,是完成信息檢索、任務定位的基礎;
理解與組合表達(CE):細分為語言理解(CEc)與語言表達(CEe),評估模型對自然語言或語義表征的理解、觀點生成與表達能力,直接關聯文本創(chuàng)作、對話交互等任務;
概念化、學習與抽象(CL):模型從實例中歸納規(guī)律、通過指令或演示學習、積累不同抽象層級知識的能力,決定其適應新任務的靈活性;
定量與邏輯推理(QL):包含邏輯推理(QLl)與定量推理(QLq),衡量模型處理數值信息、推導邏輯結論、解決概率與反事實問題的能力,是數學計算、決策分析的核心支撐。
為確保評估公平性,框架特別強調“模態(tài)適配”原則——針對文本、圖像、音頻等不同輸入輸出模態(tài)的 AI 模型,需設計對應模態(tài)的測試任務。例如,文本模型通過文字推理題評估邏輯能力,音頻模型則通過語音指令解析任務驗證同類能力,單一模態(tài)達標即可認定該領域合格。
為了精準衡量模型在四大領域的能力水平,框架引入“帶注釋的需求水平(ADeLe)”評估程序,通過三大步驟實現量化評估:
任務需求標注:基于標準化評分準則,用AI模型(或人工輔助)標注測試任務對四大領域的需求強度,形成“需求譜”。例如,一道數學題可能對“定量推理”需求為“高”,對“注意力與搜索”需求為“中”;
模型能力測繪:讓AI模型完成標注后的測試任務,通過“主體特征曲線”分析模型在不同需求強度下的成功率,以“50%成功率對應的需求水平”作為模型在該領域的能力得分;
通用性綜合計算:提供兩種得分聚合方式——若采用“平均值法”,可通過算術平均(側重整體表現)、幾何平均(平衡各領域)或調和平均(懲罰短板領域)計算綜合得分;若采用“閾值法”,則設定各領域合格線,模型滿足一定數量領域達標即可認定具備通用性。
報告指出,ADeLe方法已通過1.6萬余個高質量任務實例驗證,自動化標注準確率經人類評審校準,預測模型性能的AUROC(受試者工作特征曲線下面積)普遍達到0.85以上,兼顧科學性與評估效率。
為驗證框架有效性,研究團隊對GPT系列、LLaMA系列、DeepSeek-R1-Dist-Qwen系列等主流LLM模型展開測試,得出多項關鍵結論:
算力與能力呈正相關:模型參數規(guī)模、訓練算力(FLOP)越大,四大領域能力得分普遍越高,但不同領域提升速率不同——“理解與組合表達”能力隨算力增長提升較快,“定量與邏輯推理”能力則需更大算力投入才會顯著進步;
閾值設定影響監(jiān)管范圍:若將ADeLe得分3.0設為合格線,較多中小規(guī)模模型(如LLaMA-3.2-11B-Instruct)會被納入GPAI范疇;若提高至4.0,僅GPT-4o、OpenAI o1等頂尖模型符合標準;若設定4.5以上,僅極少數最先進模型達標;
領域達標規(guī)則需靈活:要求“所有領域達標”會過度限制模型(部分優(yōu)秀模型可能因單一領域短板被排除),而“3/4領域達標”的規(guī)則更符合實際,既能保障模型通用性,又能包容合理技術差異。
基于此,報告建議政策制定者根據監(jiān)管目標動態(tài)調整評估參數:若側重風險防控,可提高得分閾值、嚴格領域達標規(guī)則;若鼓勵技術創(chuàng)新,可適當放寬標準,同時定期(如每1-2年)根據AI技術進展更新測試任務與評分準則。

關注“廣東技術性貿易措施”,獲取更多服務。