AI快讯 - 希鸥网

中国信通院发布AI大模型基准测试，评估模型能力与安全

中国信通院近日发布了AI大模型基准测试（AIMB），旨在全面评估大模型的能力与安全性。该测试覆盖语言、视觉、多模态等维度，并引入对抗性测试以检验模型鲁棒性。首批测试涵盖GPT-4、文心一言等国内外主流模型，结果将于近期公布。信通院表示，该基准测试将推动大模型标准化发展，为行业提供客观参考。测试框架基于实际应用场景设计，尤其关注模型在内容安全、偏见等方面的表现，助力AI治理。

作者：AI编辑部 | 来源：INFOQ | 阅读量：1054 | 时间：2026年07月04日

Hugging Face推出SmolVLM2：4B参数小模型性能媲美大型VLM

Hugging Face近日发布了SmolVLM2系列视觉语言模型，以仅4B参数的规模实现了与大型模型相媲美的性能。该系列包括SmolVLM2-2.2B和SmolVLM2-4B两种版本，在DocVQA、InfoVQA等多项基准测试中表现优异，甚至超越了如Qwen2-VL-7B等更大参数量的模型。SmolVLM2采用轻量化架构，设计用于高效处理文档、图表和科学图表等视觉任务。其训练数据经过精心筛选，...

作者：AI编辑部 | 来源：INFOQ | 阅读量：858 | 时间：2026年07月04日

Bluesky开源AT协议，推动社交网络去中心化

Twitter联合创始人Jack Dorsey发起的去中心化社交网络项目Bluesky近日宣布，其核心协议AT Protocol已正式开源。该协议旨在构建一个开放的社交网络基础设施，让用户能够跨平台自由迁移数据和身份，打破现有社交平台的垄断。AT协议通过联邦架构实现去中心化，用户可自主选择服务提供商，同时保持与其他平台的互操作性。Bluesky团队表示，开源将吸引更多开发者参与，加速去中心化社交生...

作者：AI编辑部 | 来源：INFOQ | 阅读量：962 | 时间：2026年07月04日

苹果Vision Pro出货量目标削减，头显市场面临挑战

据知情人士透露，苹果已大幅下调其混合现实头显Vision Pro的出货量目标，从最初的100万台降至约40万台。这一调整反映出高端头显市场面临的增长瓶颈，以及消费者对高价新品类接受度低于预期。分析师指出，Vision Pro高达3499美元的售价、有限的应用生态以及佩戴舒适度问题是制约其普及的主要因素。苹果计划通过推出低价版本和拓展内容生态来应对市场挑战，但短期内难以扭转销量颓势。

作者：AI编辑部 | 来源：INFOQ | 阅读量：1244 | 时间：2026年07月04日

浏览器战争升级：2026年最佳Chrome与Safari替代方案盘点

随着浏览器市场竞争日益激烈，Chrome和Safari不再是用户唯一的选择。TechCrunch最新盘点显示，一批新兴浏览器正凭借独特功能挑战传统巨头，从隐私保护到AI集成，差异化竞争愈发明显。在替代方案中，Arc浏览器以创新标签管理著称，Brave主打隐私安全，而Opera则集成AI助手。这些浏览器不仅优化了用户体验，更在搜索、广告拦截等核心功能上实现突破，为用户提供更多个性化选择。

作者：AI编辑部 | 来源：TechCrunch | 阅读量：860 | 时间：2026年07月04日

Meta发布Llama 4系列AI模型，引入混合专家架构

Meta于4月5日发布Llama 4系列AI模型，包括Scout和Maverick两个版本，均采用混合专家（MoE）架构。Llama 4 Scout拥有1090亿参数，由16位专家组成，支持1000万token上下文窗口，可在单张H100 GPU上运行；Llama 4 Maverick同样为170亿激活参数，共17位专家，性能在多个基准测试中超越GPT-4o和Gemini 2.0 Flash。Me...

作者：AI编辑部 | 来源：INFOQ | 阅读量：983 | 时间：2026年07月04日

阿里云开源Qwen3系列模型，旗舰版性能超越DeepSeek

4月29日，阿里云宣布开源Qwen3系列模型，包括旗舰版Qwen3-235B-A22B、Qwen3-32B、Qwen3-30B-A3B等多个尺寸。其中，Qwen3-235B-A22B作为旗舰MoE模型，仅激活22B参数即在多项基准测试中超越DeepSeek-R1、o1等模型，展现了极强的性能。Qwen3系列采用混合专家架构，支持思考模式与非思考模式切换，训练数据覆盖超36万亿token，支持119...

作者：AI编辑部 | 来源：INFOQ | 阅读量：1453 | 时间：2026年07月04日

微软发布Phi-4：14B参数多模态小模型，性能超越同级竞品

微软近日发布了新一代AI模型Phi-4，该模型拥有140亿参数，支持文本和图像多模态处理。Phi-4在多项基准测试中表现优异，性能超越了同参数级别的Gemma 2和Llama 3等竞品，尤其在数学推理和代码生成任务上展现出显著优势。Phi-4采用创新的混合训练方法，结合合成数据与真实数据，提升了模型的推理能力和鲁棒性。微软表示，该模型已通过Azure AI平台开放，旨在为开发者提供高效、轻量级的A...

作者：AI编辑部 | 来源：INFOQ | 阅读量：1080 | 时间：2026年07月04日

Java 22正式发布：虚拟线程转正，新功能预览

Oracle于3月19日正式发布Java 22，这是继JDK 21后的最新LTS版本。新版本最引人注目的是虚拟线程（Project Loom）从预览转为正式特性，标志着Java在并发编程领域的重大进步。此外，Java 22还引入了流收集器（Stream Gatherers）、结构化并发（Structured Concurrency）等预览功能，以及字符串模板（String Templates）和隐...

作者：AI编辑部 | 来源：INFOQ | 阅读量：913 | 时间：2026年07月04日

深度求索开源 DeepSeek-R1 推理模型，性能比肩 OpenAI o1

1月20日，深度求索（DeepSeek）正式开源其最新推理模型 DeepSeek-R1，并同步发布技术报告。该模型在数学、代码和自然语言推理等任务上展现出强大性能，多项评测结果与 OpenAI 的 o1 模型相当。DeepSeek-R1 通过强化学习训练而成，采用 MIT 开源协议，支持商用。其轻量级版本 DeepSeek-R1-Distill 已开源 1.5B、7B、8B、14B、32B 和 7...

作者：AI编辑部 | 来源：INFOQ | 阅读量：1380 | 时间：2026年07月04日