当前位置: 首页 > news >正文

用户可控的统一风格迁移框架 - 亚马逊科学研究院

用户可控的统一风格迁移方法框架

多样化的输出确保风格迁移模型能够满足任何用户的审美偏好。

神经风格迁移的挑战

神经风格迁移是利用神经网络将一幅输入图像(如名画)的风格迁移到另一幅输入图像(如后院照片)的技术。研究人员提出了多种不同的风格迁移技术,但哪种效果最好?这个问题没有标准答案,因为观众的偏好各不相同。在以往的风格迁移论文报告中,最受青睐的方法很少能获得超过三分之二的评审投票,而最不受欢迎的方法也很少低于5%。

统一框架的提出

在今年的人工智能促进协会(AAAI)会议上,我们提出了一种新的风格迁移模型,该模型可以输出多种选项,由用户选择的模型参数控制。我们证明,大多数先前的风格迁移方法都可以重写为标准化的"分配-混合"(assign-and-mix)模型。

该模型的"分配"步骤涉及一个分配矩阵,它将一幅输入图像的特征映射到另一幅图像的特征。在论文中,我们展示了风格迁移技术之间的差异主要源于分配矩阵的熵值,即矩阵值的多样性。

关键技术突破

我们证明,在给定用户指定的输入参数设置下,一种称为Sinkhorn-Knopp的算法可以高效计算相关的分配矩阵,从而从同一风格迁移模型中产生多样化的输出。

在一系列实验中,我们将我们的方法与之前的方法进行了比较。我们发现,根据标准指标,我们的方法在保留内容输入的内容和风格输入的风格方面做得更好,并且产生了更多样化的输出。我们还进行了一项有10名人类评估者参与的研究,发现在特定的多样性参数设置下,受试者更喜欢我们的方法生成的图像,而不是其他方法生成的图像。

分配与混合技术详解

在风格迁移中,第一步是将内容示例和风格示例传递给相同的视觉编码器,该编码器通常是在广泛的对象识别任务上预训练的。编码器生成每幅图像的表示,其中每个图像区域都有一个相关的特征向量。

特征向量通常编码视觉信息(如颜色和梯度方向),但也编码语义信息(如指示特定图像区域描绘了眼睛的一部分)。

风格迁移通常涉及:(1)重新排列风格图像的元素以再现内容图像的内容,(2)扭曲内容图像使其总体统计量与风格图像相似,或(3)两者的某种组合。我们将所有这些方法都同化为分配-混合模型。

分配-混合的"分配"步骤对应于方法(1)。它涉及分配矩阵,该矩阵根据内容表示将特征向量从风格表示分配到新图像的区域。尽管先前的风格迁移方法使用各种技术来寻找风格和内容特征之间的对应关系,但我们在论文中分析了其中几种方法,并表明它们通常可以同化为分配矩阵模型。

新图像中特定点的分配可以是风格编码中的单个向量,也可以是向量的加权组合。在第一种情况下,分配矩阵是二进制的:每个矩阵条目要么是0,要么是1。这是一个最小熵分配。相比之下,如果新内容图像中的每个点都由风格图像中每个向量的加权组合组成,则分配矩阵具有更高的熵。现有的风格迁移方法中有二进制分配矩阵的方法,也有高熵矩阵的方法,我们的方法可以近似这两种方法。

在分配步骤之后,我们进入混合阶段,对应于上述方法(2)。在这个阶段,我们逐步处理新的合成图像的编码,对于每个图像区域,我们测量其编码与原始内容示例编码之间的距离。然后,我们根据差异程度按比例混合来自原始内容编码的特征向量。这确保了新图像保留了原始内容的内容。

计算优化

该过程中的计算瓶颈是创建具有不同熵值的多个分配矩阵。但我们在论文中展示了Sinkhorn-Knopp算法可以应用于构建分配矩阵的问题,该算法使矩阵能够以支持高效解决方案的标准化形式重写。

在论文中,我们使用分配-混合格式重写了三种先前的风格迁移方法。我们选择这些方法是因为它们的分配矩阵涵盖了完整的熵谱。我们的方法应该能够近似任何分配矩阵熵值落在更有限范围内的风格迁移模型的输出。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)
公众号二维码

http://www.kefakeji.com/news/606.html

相关文章:

  • ARM简介 - LI,Yi
  • 板刷 ABC 计划
  • 题解:P4191 [CTSC2010] 性能优化
  • Java“class file contains wrong class”解决
  • 电脑中右键打开方式中出现已经卸载的应用程序(如,Dreamweaver)
  • 将 Windows 系统显示时间的精度修改为秒
  • 日记
  • 每日论文7.27——基于嵌入式GPU的指纹汗孔识别软件并行设计
  • XXL-SSO v1.2.0 发布|单点登录框架
  • 一、Web端UI自动化测试--环境搭建
  • 水果机,夺宝动画实现
  • DMP学习路线之进阶
  • 关于逆元目前的两种求法以及证明
  • [Record] 计数选讲 20250727
  • 7/27
  • 大数据之路:阿里巴巴大数据实践——大数据领域建模综述
  • POLIR-Laws-民法典: 第三编 合同 : 第二分编 典型合同: 21.保管、22.仓储、23.委托、24.物业服务、25.行纪、26.中介
  • 记录个IAR程序下载后硬件复位不运行,必须断电复位才运行的问题
  • 操作系统 - 浪矢
  • Qt布局管理
  • 最小树形图:朱刘算法
  • 基于YOLOv8的边坡排水沟堵塞检测与识别项目|完整源码数据集+PyQt5界面+完整训练流程+开箱即用!
  • POLIR-Laws-民法典: 第三编 合同 : 第二分编 典型合同: 20.技术合同 : 1)一般规定、2)技术开发、3)技术转让 和 技术许可、4)技术咨询 和 技术服务
  • hybrid口
  • 利用Transformer模型提升产品检索效果
  • 第二十天
  • 《恶意代码实战分析》笔记
  • POLIR-Laws-民法典: 第三编 合同 : 第二分编 典型合同: 19.运输合同 : 1)一般规定、2)客运合同、3)货运合同、4)多式联运合同
  • 《大道至简》读后感
  • @GetMapping、@PostMapping、@PutMapping、@DeleteMapping