中国信通院近日发布了AI大模型基准测试(AIMB),旨在全面评估大模型的能力与安全性。该测试覆盖语言、视觉、多模态等维度,并引入对抗性测试以检验模型鲁棒性。首批测试涵盖GPT-4、文心一言等国内外主流模型,结果将于近期公布。
信通院表示,该基准测试将推动大模型标准化发展,为行业提供客观参考。测试框架基于实际应用场景设计,尤其关注模型在内容安全、偏见等方面的表现,助力AI治理。
长按识别二维码