首页> 阅读笔记 > 阅读笔记 > 通义AI“音效师”:阿里开源首个音频模型ThinkSound

通义AI“音效师”:阿里开源首个音频模型ThinkSound

发布时间:2025-07-05 10:51:32作者来源: 15518196690

7月4日,阿里通义实验室宣布开源首个音频生成模型ThinkSound。该模型首次将思维链(CoT)技术应用于音频生成领域,旨在解决现有视频转音频(V2A)技术对画面动态细节和事件逻辑理解不足的问题。

根据通义语音团队介绍,传统V2A技术常难以精确捕捉视觉与声音的时空关联,导致生成音频与画面关键事件错位。ThinkSound通过引入结构化推理机制,模仿人类音效师的分析过程:首先理解视频整体画面与场景语义,再聚焦具体声源对象,最后响应用户编辑指令,逐步生成高保真且同步的音频。

图源:通义大模型微信公众号

图源:通义大模型微信公众号

为训练模型,团队构建了首个支持链式推理的多模态音频数据集AudioCoT,包含超2531小时高质量样本,覆盖丰富场景,并设计了面向交互编辑的对象级和指令级数据。ThinkSound由一个多模态大语言模型(负责“思考”推理链)和一个统一音频生成模型(负责“输出”声音)组成。

ThinkSound 音频生成模型的工作流

ThinkSound 音频生成模型的工作流

据悉,ThinkSound在多项权威测试中表现优于现有主流方法。该模型现已开源,开发者可在GitHub、Hugging Face、魔搭社区获取代码和模型。未来将拓展其在游戏、VR/AR等沉浸式场景的应用。

阅读笔记更多>>

功率追平雅马哈 XMAX!15980元起,无极 SR250GT II 代杀疯了 小鹏 MONA M03(2026款)这车到底怎么样! 自主旗舰对阵合资标杆:星途揽月与现代途胜 L 双车解析 12-14万买家用SUV怎么选?2026款零跑C10静态+动态实测 传祺MPV家族双车焕新上市,六大标杆领跑自主MPV赛道! 5月销量大涨71.64%,广汽集团新车下半年扎堆上市 真我退场最后一搏:Neo8 卖 2399 元,到底良心还是清仓? OPPO 大折叠新机立项,机身尺寸对标苹果 Ultra,售价或将破万 七天主力机实测OPPO Reno16,抛开营销讲讲中端机真实水平 三星正式公布了 Galaxy Z Fold 8 系列折叠屏手机 分享40个大多数 Claude 用户在使用AI时从未用过的技巧与经验用法 库克谢幕WWD,Siri借Gemini,打响15年翻身仗 OPPO阔折叠新机曝光:2nm旗舰芯+无痕铰链,或明年Q1正式发布 渗透率破六成挤出前十,燃油车的期中成绩单拿了零蛋 5月乘用车销量前十名全是新能源汽车,一个燃油车也没有 字节跳动旗下的火山引擎将为AIVA品牌提供豆包大模型、智能座舱等核心技术服务 比亚迪联手中石化!闪充、换电路线之争胜负已定? 领克07GT静态详评 旅行车真来了 江淮斥资1亿元回购股票 上市车企股票回购潮为哪般? 双剑齐发 战力拉满!广汽传祺MPV之夜两款插混新车上市 当一台SUV要跟风作对:ID. AURA T6风阻0.245背后的工程博弈 准大学生哭晕!电脑、手机、平板集体涨价,618还没上车的抓紧 赛豆科技与火山引擎深度合作,正式发布全新AI汽车品牌AIVA,亮相概念车AIVA Origin Concept firefly萤火虫像素玩家特别版上市,售价13.58万元 捷尼赛思Magma GT超跑量产项目步入正轨! 24980入手本田仿赛 CBR400R抄底时机详解 本田Logo进化史:一部写在油箱上的野心史 第八代伊兰特将亮相!带着“黑科技”杀回来! 时隔11年,奥迪第三代Q7凭什么“掀桌子”? 埃安i60宁德版宠粉上新,从“爆款”到“长红”进阶