18818713530

最新资讯

美团推出开源大模型 LongCat；小红书自动化工具 xiaohongshu-mcp 上线

美团推出开源大模型 LongCat，赋能开发者落地 AI 应用

美团正式发布开源大模型 LongCat，核心目标是为开发者提供技术支撑，加速 AI 应用的实际落地进程。其中 LongCat-Flash 版本拥有 560 亿参数，采用混合专家（MoE）架构，可通过动态激活部分参数优化计算效率；该模型支持每秒超 100 个标记的推理处理，兼具低延迟与高扩展性优势，在 MMLU、数学推理等核心任务中表现优异，充分展现出较强的实际应用潜力。

9 月 1 日 AI 内容新规正式生效，创作者需合规标识

《人工智能生成合成内容标识办法》于 9 月 1 日起正式实施强制要求，标志着中国 AI 内容治理迈入制度化、规范化发展新阶段。新规明确，AI 生成的文本、图片、视频、音频等各类内容，需进行显式属性标注，同时通过数字指纹技术在元数据中嵌入隐式标识，确保内容可溯源。若未合规操作，相关主体将面临限流、整改、内容下架乃至法律责任，3400 万内容创作者需紧急调整操作以符合合规要求。

腾讯 ARC 开源 AudioStory 音频模型，生成长篇叙事音频

腾讯 ARC 团队对外开源音频模型 AudioStory，该模型创新性融合大语言模型与音频生成技术，能够生成结构完整、具备时间一致性的长篇叙事音频。其具备强大的指令跟随能力，可输出逻辑连贯的音频叙事内容，适用于视频配音、长音频创作等多元场景，目前团队已同步发布推理代码，并展示了多个实际应用案例。

阿里 Qwen 团队发布 GUI 自动化框架 Mobile-Agent-v3 与 GUI-Owl

阿里巴巴 Qwen 团队推出 GUI 自动化领域的两款核心产品 ——Mobile-Agent-v3 框架与 GUI-Owl 模型，旨在解决图形用户界面自动化过程中的技术难题。其中，GUI-Owl 为多模态代理模型，集成感知、推理与执行能力，可灵活适配复杂 GUI 环境；Mobile-Agent-v3 通过多代理协作机制与动态更新计划，有效提升任务执行效率，两款产品在 GUI 自动化基准测试中表现突出，标志着阿里在该技术领域实现重大突破。

(图片来源于网络)

阶跃发布端到端语音大模型 Step-Audio 2 mini

阶跃星辰推出开源端到端语音大模型 Step-Audio 2 mini，该模型在多项国际基准测试中斩获 SOTA（最优性能）成绩，性能超越 Qwen-Omni、Kimi-Audio 等主流开源模型。其采用创新的真端到端多模态架构，突破传统 ASR+LLM+TTS 三级结构限制，实现从原始音频输入到语音响应输出的直接转换；同时引入链式思维推理与强化学习联合优化机制，进一步提升对情绪、语调等副语言信息的理解能力与自然回应效果。

微软推出 Copilot Labs，上线 “Copilot 音频表达” 工具

微软正式推出实验性 AI 平台 Copilot Labs，核心定位是邀请用户参与 AI 技术的创新与发展过程，其首款实验性工具 “Copilot 音频表达” 同步上线。该工具可将书面文本转化为自然流畅的语音旁白，支持情感模式与故事模式切换，为用户提供高度灵活的操作控制权；目前该工具在全球范围内免费开放，部分进阶功能需登录 Microsoft 账户并拥有 Copilot Pro 订阅权限方可使用。

上海 AI 实验室发布多模态大模型书生・万象 InternVL3.5

上海 AI 实验室推出多模态大模型书生・万象 InternVL3.5，通过级联式强化学习、动态视觉分辨率路由与解耦部署架构三大技术创新，实现推理能力、部署效率与通用能力的全面升级。该模型在多项权威基准测试中表现优异，性能超越 GPT-5、Claude-3.7-Sonnet 等国际主流模型；同时提供多种参数规模版本，可满足不同资源条件下的应用场景需求。

小红书自动化工具 xiaohongshu-mcp 上线，助力内容创作

基于 MCP 协议的小红书自动化工具 xiaohongshu-mcp 正式上线，该工具为开源产品，核心功能涵盖自动化登录、内容发布与数据获取。在登录体验上，实现 “智能持久化”—— 首次扫码登录后，后续操作无需重复验证；当前已支持图文内容的自动化发布，未来计划进一步扩展视频发布与数据分析功能。工具基于 Go 语言开发，代码结构清晰，便于开发者进行二次开发，支持通过 GitHub 克隆方式完成部署，有效为小红书内容创作者解放双手、简化操作流程。

18818713530

业务模块

最新资讯

关于我们