美团推出开源大模型 LongCat;小红书自动化工具 xiaohongshu-mcp 上线


美团推出开源大模型 LongCat,赋能开发者落地 AI 应用


美团正式发布开源大模型 LongCat,核心目标是为开发者提供技术支撑,加速 AI 应用的实际落地进程。其中 LongCat-Flash 版本拥有 560 亿参数,采用混合专家(MoE)架构,可通过动态激活部分参数优化计算效率;该模型支持每秒超 100 个标记的推理处理,兼具低延迟与高扩展性优势,在 MMLU、数学推理等核心任务中表现优异,充分展现出较强的实际应用潜力。



9 1 AI 内容新规正式生效,创作者需合规标识


《人工智能生成合成内容标识办法》于 9 月 1 日起正式实施强制要求,标志着中国 AI 内容治理迈入制度化、规范化发展新阶段。新规明确,AI 生成的文本、图片、视频、音频等各类内容,需进行显式属性标注,同时通过数字指纹技术在元数据中嵌入隐式标识,确保内容可溯源。若未合规操作,相关主体将面临限流、整改、内容下架乃至法律责任,3400 万内容创作者需紧急调整操作以符合合规要求。



腾讯 ARC 开源 AudioStory 音频模型,生成长篇叙事音频


腾讯 ARC 团队对外开源音频模型 AudioStory,该模型创新性融合大语言模型与音频生成技术,能够生成结构完整、具备时间一致性的长篇叙事音频。其具备强大的指令跟随能力,可输出逻辑连贯的音频叙事内容,适用于视频配音、长音频创作等多元场景,目前团队已同步发布推理代码,并展示了多个实际应用案例。



阿里 Qwen 团队发布 GUI 自动化框架 Mobile-Agent-v3 GUI-Owl


阿里巴巴 Qwen 团队推出 GUI 自动化领域的两款核心产品 ——Mobile-Agent-v3 框架与 GUI-Owl 模型,旨在解决图形用户界面自动化过程中的技术难题。其中,GUI-Owl 为多模态代理模型,集成感知、推理与执行能力,可灵活适配复杂 GUI 环境;Mobile-Agent-v3 通过多代理协作机制与动态更新计划,有效提升任务执行效率,两款产品在 GUI 自动化基准测试中表现突出,标志着阿里在该技术领域实现重大突破。


wps_doc_1.png


(图片来源于网络)


阶跃发布端到端语音大模型 Step-Audio 2 mini


阶跃星辰推出开源端到端语音大模型 Step-Audio 2 mini,该模型在多项国际基准测试中斩获 SOTA(最优性能)成绩,性能超越 Qwen-Omni、Kimi-Audio 等主流开源模型。其采用创新的真端到端多模态架构,突破传统 ASR+LLM+TTS 三级结构限制,实现从原始音频输入到语音响应输出的直接转换;同时引入链式思维推理与强化学习联合优化机制,进一步提升对情绪、语调等副语言信息的理解能力与自然回应效果。



微软推出 Copilot Labs,上线 “Copilot 音频表达工具


微软正式推出实验性 AI 平台 Copilot Labs,核心定位是邀请用户参与 AI 技术的创新与发展过程,其首款实验性工具 “Copilot 音频表达” 同步上线。该工具可将书面文本转化为自然流畅的语音旁白,支持情感模式与故事模式切换,为用户提供高度灵活的操作控制权;目前该工具在全球范围内免费开放,部分进阶功能需登录 Microsoft 账户并拥有 Copilot Pro 订阅权限方可使用。



上海 AI 实验室发布多模态大模型书生・万象 InternVL3.5


上海 AI 实验室推出多模态大模型书生・万象 InternVL3.5,通过级联式强化学习、动态视觉分辨率路由与解耦部署架构三大技术创新,实现推理能力、部署效率与通用能力的全面升级。该模型在多项权威基准测试中表现优异,性能超越 GPT-5、Claude-3.7-Sonnet 等国际主流模型;同时提供多种参数规模版本,可满足不同资源条件下的应用场景需求。



小红书自动化工具 xiaohongshu-mcp 上线,助力内容创作


基于 MCP 协议的小红书自动化工具 xiaohongshu-mcp 正式上线,该工具为开源产品,核心功能涵盖自动化登录、内容发布与数据获取。在登录体验上,实现 “智能持久化”—— 首次扫码登录后,后续操作无需重复验证;当前已支持图文内容的自动化发布,未来计划进一步扩展视频发布与数据分析功能。工具基于 Go 语言开发,代码结构清晰,便于开发者进行二次开发,支持通过 GitHub 克隆方式完成部署,有效为小红书内容创作者解放双手、简化操作流程。


Copyright © 2024 友益典文化 版权所有

粤ICP备2024271549号

×
PC客服 移动客服