上海房产做哪个网站好自助企业建站模版-沈阳市网站建设公司-Seo优化

上海房产做哪个网站好,自助企业建站模版,如果做局域网影音网站,搭建wordpress配置点击下方卡片#xff0c;关注“CVer”公众号AI/CV重磅干货#xff0c;第一时间送达点击进入—【顶会/顶刊】投稿交流群添加微信号#xff1a;CVer2233#xff0c;小助手拉你进群#xff01;扫描下方二维码#xff0c;加入CVer学术星球#xff01;可以获得最新顶会/顶…点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达点击进入—【顶会/顶刊】投稿交流群添加微信号CVer2233小助手拉你进群扫描下方二维码加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用发论文/搞科研/涨薪强烈推荐主页https://henghuiding.com/SceneDesigner/论文https://arxiv.org/abs/2511.16666摘要近年来可控图像生成领域引起了广泛关注用户已能对生成内容的身份和风格进行一定程度的操纵。然而如何在单张图像中同时对多个物体进行涵盖位置Location、大小Size和朝向Orientation的 9自由度9-DoF 精准控制仍是一个未解难题。尽管现有方法取得了一定进展但往往受限于控制能力的不足或生成质量的下降难以实现全面的多物体三维空间布局控制。针对这一局限SceneDesigner 框架应运而生——这是一种能够实现准确且灵活的多物体9D姿态操控的生成方法。SceneDesigner 在预训练模型的基础上引入了一个分支网络并利用一种全新的 CNOCS Map 作为核心表征。这种表征方式从相机视角对物体的9D姿态信息进行编码具有极强的几何解释性从而实现了更高效、稳定的训练。此外为了支持模型训练研究者构建了 ObjectPose9D 数据集针对长尾姿态分布导致的数据不平衡问题引入了包含强化学习的两阶段训练策略在推理阶段该框架采用了解耦物体采样Disentangled Object Sampling 技术以解决多物体生成中的概念混淆问题。实验表明SceneDesigner 在可控性和生成质量上均显著优于现有方法。现存问题及挑战随着生成式AI的发展控制生成图像的空间属性如物体结构或场景布局已在2D层面如利用边缘图、深度图取得了广泛探索。然而3D空间控制仍是一大挑战。例如设计师希望在房间中摆放多件家具每件家具有不同的大小和朝向或者用户希望生成一只背对镜头凝视风景的宠物狗。现有的解决方案面临以下瓶颈1. 3D感知的缺失大多数方法局限于2D空间控制如ControlNet使用深度图或边缘图无法理解物体的三维旋转和体积。2. 控制维度的限制早期尝试如LOOSECONTROL使用3D边界框进行引导但这只能控制位置和大小缺乏对物体“朝向”的精细表达例如无法区分物体是正面还是背面朝向镜头。3. 多物体生成的干扰在生成复杂场景时不同物体的特征容易发生混淆且难以获得高质量的带有9D姿态标注的训练数据。因此如何建立一种既包含精确几何信息又易于获取的表征并在此基础上实现多物体的高保真生成是该项研究的核心目标。简单直观的交互流程SceneDesigner的工作流程主要分为三个步骤用户只需关注顶层的设计布局复杂的几何转换则由模型自动完成1. 姿态控制Pose Control 用户首先根据构思在 3D 空间中放置并调整立方体边界框。这代表了用户对物体位置、大小和朝向的意图。2. 控制信号生成Control Signals 系统自动将用户定义的粗糙 3D 框转换为精细的 CNOCS Map。这一步是连接用户意图与模型理解的桥梁它将几何信息编码为模型可读的特征图。3. 图像生成Image Generation 结合文本提示Prompt与 CNOCS Map生成模型最终渲染出符合空间布局的高质量图像。这种设计使得用户无需具备专业的 3D 建模技能仅通过简单的“搭积木”式的操作即可实现对画面构图的精准把控。方法介绍该研究的核心贡献在于设计了一种能够精确编码9D姿态的表征形式并配合专门的数据集与训练策略实现了对图像生成的细粒度控制。1. 核心创新CNOCS Map这是 SceneDesigner 实现精准姿态控制的关键所在。为了将任意物体的9D姿态位置、大小、朝向有效地编码进生成模型该方法并未采用传统的文本嵌入或简单的几何投影而是受到 NOCSNormalized Object Coordinate System的启发设计了CNOCS Map (Cuboid-NOCS)。传统 NOCS 的局限与 CNOCS 的改进传统的 NOCS 需要精确的物体3D CAD模型来确定每个像素在物体空间中的坐标这在泛化到任意类别物体时非常困难且对用户不友好。相比之下CNOCS Map 进行了一种巧妙的抽象不再依赖精确的物体几何外形而是使用立方体Cuboid 作为通用的形状抽象。CNOCS Map 的构建过程CNOCS Map 本质上是一张与真实图像对齐的RGB图像但其颜色信息代表了三维空间坐标。其构建流程如下1. 3D 边界框投影根据物体的9D姿态获取其在3D空间中的边界框。2. 坐标映射与归一化将边界框表面上的点映射回“物体坐标系”归一化到 [-1 , 1] 区间。3. 编码这种归一化后的坐标被编码为特征图。这意味着图像中对应物体区域的每一个像素都不仅包含了其在2D画面中的位置还隐含了它在物体自身3D表面上的相对坐标。通过注入 CNOCS Map模型能够获得比传统 3D Bounding Box 更强的结构约束从而在生成过程中精确地恢复出物体的三维姿态。2. ObjectPose9D 数据集与两阶段训练为了训练 SceneDesigner研究者构建了 ObjectPose9D 数据集。该数据集整合了 OmniNOCS 和 MS-COCO 数据通过自动化工具如 Orient Anything 和 MoGe与人工校验相结合的方式提供了丰富的高质量9D姿态标注。针对现实数据中姿态分布不平衡如动物通常是侧面或正面很少有背面视角的问题SceneDesigner采用了两阶段训练策略第一阶段基础训练使模型学习基本的姿态控制能力。第二阶段引入强化学习利用设计好的奖励函数根据生成物体的姿态准确性评分在平衡后的数据分布上进行微调。这一阶段显著提升了模型对低频姿态的生成能力。3. 推理阶段解耦物体采样 (Disentangled Object Sampling)在处理多物体场景时传统扩散模型容易出现概念混淆例如将“猫”的特征生成到了“狗”的位置。为此SceneDesigner 在推理阶段引入了解耦物体采样技术。该技术利用 CNOCS Map 提供的精确区域掩码Mask在去噪的每一步中根据空间位置将不同物体的生成过程隔离开来。每个区域只关注其对应的文本提示和姿态条件最后再融合成整张图像。这确保了复杂场景中每个物体都能准确对应其指定的类别和姿态。实验与成果研究者将 SceneDesigner 与目前的 SOTA 方法如 LOOSECONTROL, C3DW进行了广泛对比。1. 单物体与多物体控制性能如下面的对比图所示现有方法在控制物体朝向时往往存在偏差或者导致物体形状崩坏。而 SceneDesigner 无论是控制单个物体的精细旋转还是在同一场景中同时操控多个物体都表现出了极高的一致性和保真度。2. 灵活的应用场景SceneDesigner 不仅限于通用物体生成还支持结合 LoRA 等技术进行个性化定制。用户可以指定特定的角色并利用 CNOCS Map 精确控制其在画面中的动作和位置。结论研究显示现有图像生成模型在处理涉及三维空间属性的多物体布局时存在明显短板。基于此SceneDesigner 通过引入 CNOCS Map 这一具有显式几何意义的姿态表征结合构建的 ObjectPose9D 数据集与基于强化学习的训练策略成功实现了对多物体9D姿态的精准操控。实验结果表明SceneDesigner 在无需昂贵训练成本的前提下极大拓展了文本到图像模型在复杂空间布局上的生成能力。未来该技术有望在虚拟摄影、场景设计、故事板绘制等领域发挥重要作用让AI创作真正实现“随心所欲所见即所得”。何恺明在MIT授课的课件PPT下载在CVer公众号后台回复何恺明即可下载本课程的所有566页课件PPT赶紧学起来ICCV 2025 论文和代码下载在CVer公众号后台回复ICCV2025即可下载ICCV 2025论文和代码开源的论文合CVPR 2025 论文和代码下载在CVer公众号后台回复CVPR2025即可下载CVPR 2025论文和代码开源的论文合集CV垂直方向和论文投稿交流群成立扫描下方二维码或者添加微信号CVer2233即可添加CVer小助手微信便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖目标检测、图像分割、目标跟踪、人脸检测识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。一定要备注研究方向地点学校/公司昵称如Mamba、多模态学习或者论文投稿上海上交卡卡根据格式备注可更快被通过且邀请进群▲扫码或加微信号: CVer2233进交流群 CVer计算机视觉知识星球人数破万如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料一定要扫描下方二维码加入CVer知识星球最强助力你的科研和工作 ▲扫码加入星球学习▲点击上方卡片关注CVer公众号整理不易请点赞和在看

上海房产做哪个网站好自助企业建站模版

长安大学门户网站是谁给做的网站建设要学多少课程

厦门网盛网站开发女生自己做网站

枣庄网站优化营销网站的优势是什么

移动网站建设解决方案商城网站现在可以做么

网站如何优化一个关键词昆明网站开发哪家好

长春seo网站管理网页制作实践做网站

上海房产做哪个网站好自助企业建站模版

长安大学门户网站是谁给做的网站建设要学多少课程

厦门网盛网站开发女生自己做网站

枣庄网站优化营销网站的优势是什么

移动网站建设解决方案商城网站现在可以做么

网站如何优化一个关键词昆明网站开发哪家好

长春seo网站管理网页制作实践 做网站

长春seo网站管理网页制作实践做网站