AI快讯

中国信通院发布AI大模型基准测试,评估模型能力与安全

中国信通院发布AI大模型基准测试,评估模型能力与安全

中国信通院近日发布了AI大模型基准测试(AIMB),旨在全面评估大模型的能力与安全性。该测试覆盖语言、视觉、多模态等维度,并引入对抗性测试以检验模型鲁棒性。首批测试涵盖GPT-4、文心一言等国内外主流模型,结果将于近期公布。信通院表示,该基准测试将推动大模型标准化发展,为行业提供客观参考。测试框架基于实际应用场景设计,尤其关注模型在内容安全、偏见等方面的表现,助力AI治理。
Hugging Face推出SmolVLM2:4B参数小模型性能媲美大型VLM

Hugging Face推出SmolVLM2:4B参数小模型性能媲美大型VLM

Hugging Face近日发布了SmolVLM2系列视觉语言模型,以仅4B参数的规模实现了与大型模型相媲美的性能。该系列包括SmolVLM2-2.2B和SmolVLM2-4B两种版本,在DocVQA、InfoVQA等多项基准测试中表现优异,甚至超越了如Qwen2-VL-7B等更大参数量的模型。SmolVLM2采用轻量化架构,设计用于高效处理文档、图表和科学图表等视觉任务。其训练数据经过精心筛选,...
Bluesky开源AT协议,推动社交网络去中心化

Bluesky开源AT协议,推动社交网络去中心化

Twitter联合创始人Jack Dorsey发起的去中心化社交网络项目Bluesky近日宣布,其核心协议AT Protocol已正式开源。该协议旨在构建一个开放的社交网络基础设施,让用户能够跨平台自由迁移数据和身份,打破现有社交平台的垄断。AT协议通过联邦架构实现去中心化,用户可自主选择服务提供商,同时保持与其他平台的互操作性。Bluesky团队表示,开源将吸引更多开发者参与,加速去中心化社交生...
苹果Vision Pro出货量目标削减,头显市场面临挑战

苹果Vision Pro出货量目标削减,头显市场面临挑战

据知情人士透露,苹果已大幅下调其混合现实头显Vision Pro的出货量目标,从最初的100万台降至约40万台。这一调整反映出高端头显市场面临的增长瓶颈,以及消费者对高价新品类接受度低于预期。分析师指出,Vision Pro高达3499美元的售价、有限的应用生态以及佩戴舒适度问题是制约其普及的主要因素。苹果计划通过推出低价版本和拓展内容生态来应对市场挑战,但短期内难以扭转销量颓势。
浏览器战争升级:2026年最佳Chrome与Safari替代方案盘点

浏览器战争升级:2026年最佳Chrome与Safari替代方案盘点

随着浏览器市场竞争日益激烈,Chrome和Safari不再是用户唯一的选择。TechCrunch最新盘点显示,一批新兴浏览器正凭借独特功能挑战传统巨头,从隐私保护到AI集成,差异化竞争愈发明显。在替代方案中,Arc浏览器以创新标签管理著称,Brave主打隐私安全,而Opera则集成AI助手。这些浏览器不仅优化了用户体验,更在搜索、广告拦截等核心功能上实现突破,为用户提供更多个性化选择。
Meta发布Llama 4系列AI模型,引入混合专家架构

Meta发布Llama 4系列AI模型,引入混合专家架构

Meta于4月5日发布Llama 4系列AI模型,包括Scout和Maverick两个版本,均采用混合专家(MoE)架构。Llama 4 Scout拥有1090亿参数,由16位专家组成,支持1000万token上下文窗口,可在单张H100 GPU上运行;Llama 4 Maverick同样为170亿激活参数,共17位专家,性能在多个基准测试中超越GPT-4o和Gemini 2.0 Flash。Me...
阿里云开源Qwen3系列模型,旗舰版性能超越DeepSeek

阿里云开源Qwen3系列模型,旗舰版性能超越DeepSeek

4月29日,阿里云宣布开源Qwen3系列模型,包括旗舰版Qwen3-235B-A22B、Qwen3-32B、Qwen3-30B-A3B等多个尺寸。其中,Qwen3-235B-A22B作为旗舰MoE模型,仅激活22B参数即在多项基准测试中超越DeepSeek-R1、o1等模型,展现了极强的性能。Qwen3系列采用混合专家架构,支持思考模式与非思考模式切换,训练数据覆盖超36万亿token,支持119...
微软发布Phi-4:14B参数多模态小模型,性能超越同级竞品

微软发布Phi-4:14B参数多模态小模型,性能超越同级竞品

微软近日发布了新一代AI模型Phi-4,该模型拥有140亿参数,支持文本和图像多模态处理。Phi-4在多项基准测试中表现优异,性能超越了同参数级别的Gemma 2和Llama 3等竞品,尤其在数学推理和代码生成任务上展现出显著优势。Phi-4采用创新的混合训练方法,结合合成数据与真实数据,提升了模型的推理能力和鲁棒性。微软表示,该模型已通过Azure AI平台开放,旨在为开发者提供高效、轻量级的A...
Java 22正式发布:虚拟线程转正,新功能预览

Java 22正式发布:虚拟线程转正,新功能预览

Oracle于3月19日正式发布Java 22,这是继JDK 21后的最新LTS版本。新版本最引人注目的是虚拟线程(Project Loom)从预览转为正式特性,标志着Java在并发编程领域的重大进步。此外,Java 22还引入了流收集器(Stream Gatherers)、结构化并发(Structured Concurrency)等预览功能,以及字符串模板(String Templates)和隐...
深度求索开源 DeepSeek-R1 推理模型,性能比肩 OpenAI o1

深度求索开源 DeepSeek-R1 推理模型,性能比肩 OpenAI o1

1月20日,深度求索(DeepSeek)正式开源其最新推理模型 DeepSeek-R1,并同步发布技术报告。该模型在数学、代码和自然语言推理等任务上展现出强大性能,多项评测结果与 OpenAI 的 o1 模型相当。DeepSeek-R1 通过强化学习训练而成,采用 MIT 开源协议,支持商用。其轻量级版本 DeepSeek-R1-Distill 已开源 1.5B、7B、8B、14B、32B 和 7...