Google DeepMind發表探討如何衡量AGI進展的論文《Measuring Progress Toward AGI: A Cognitive Taxonomy》,並宣布與Kaggle合作舉辦線上黑客松,試圖替AGI建立一套較有系統的衡量架構,將AI距離通用智慧還有多遠轉成可比較的評測問題。 研究團隊參考心理學、神經科學與認知科學研究,提出一套認知分類法,列出10項關鍵認知能力,包括感知、生成、注意、學習、記憶、推理、後設認知、執行功能、問題解決與社會認知。Google DeepMind認為,要追蹤AI能力進展,不能只看單一任務表現或個別考題分數,而需要用較完整的認知分類描繪系統能力輪廓。 Google DeepMind提出三階段評測方法。第一步,是以涵蓋各項認知能力的任務組合評估AI系統,並使用保留測試集避免資料污染;第二步,是針對相同任務,從具人口統計代表性的成人樣本收集人類基準;第三步,則是將AI在各項能力上的表現,對應到人類表現分布中的位置。 Google DeepMind也與Kaggle合作推出線上黑客松,希望讓這套分類法從理論走向實作。該競賽把重點擺在目前較缺乏評測方法的5類能力,包括學習、後設認知、注意、執行功能與社會認知,參賽者可利用Kaggle新推出的Community Benchmarks平臺設計與測試評估方法。 相關連結 – [Google DeepMind AGI測量架構論文](https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/measuring-progress-toward-agi/measuring-progress-toward-agi-a-cognitive-framework.pdf) – [Google DeepMind官方說明](https://blog.google/innovation-and-ai/models-and-research/google-deepmind/measuring-agi-cognitive-framework/) – [Kaggle AGI評測網站](https://www.kaggle.com/) — 來源:iThome技術新聞 文章導覽 AI驅動的程式設計革命:Copilot與Codex改變開發者工作模式 AI Agents:自主智能系統的新時代