苹果另辟蹊径：利用“归一化流”技术打造 AI 生图模型

文 / 小亚

2025-06-24 07:39:02 来源:亚汇网

据介绍，这一“归一化流”技术是一种通过学习数学变换的方式，将真实世界的数据（如图像）转换成结构化噪声，并再将噪声还原为图像样本的生成模型。其最大优势是能够精确计算生成图像的概率，这是扩散模型无法做到的。这一特性使得归一化流在对概率要求较高的任务中具有独特吸引力。不过此类模型并不常见，原因在于其研发成本更高，同时早期采用相应技术生成的模型往往相对模糊、缺乏细节。亚汇网参考苹果公司《NormalizingFlowsareCapableGenerativeModels》论文，其推出一种名为TarFlow（TransformerAutoRegressiveFlow）的新型归一化流技术模型，该模型的核心思路是将一张待生成的大图拆成“小区块”，再以相应区块为单位进行生成一系列像素值，每一块图像像素值的生成都依赖于前面已生成的部分，继而形成完整的图像，因此能够有效避免图像被压缩为固定词汇表时产生的质量损失与表现僵化的问题。当然，TarFlow在生成高分辨率图像方面仍存在局限，这就引出了第二篇研究《STARFlow:ScalingLatentNormalizingFlowsforHigh-resolutionImageSynthesis》。参考这篇论文，苹果在TarFlow的基础上进一步提出了增强版本：STARFlow（ScalableTransformerAutoRegressiveFlow）。该模型最大的改进在于，它不再直接在像素层面生成图像，而是在“潜空间”（latentspace）中工作，首先生成图像的压缩表示，再通过解码器进行放大还原。因此模型可无须再预测数百万个像素值，而是先处理图像的大体结构，细节部分留给解码器进行补充，从而在不损失质量的前提下提升生成效率。此外，STARFlow还改进了对文本提示的处理方式。它不再内建专用文本编码器，而是支持调用现有语言模型（例如谷歌推出的小语言模型Gemma，理论上可以直接在设备上运行）来处理用户的语言指令。这样一来，模型的图像生成部分可以专注于图像细节的生成与优化。广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，亚汇网所有文章均包含本声明。

更多行情分析及广告投放合作加微信: hollowandy
请用微信扫一扫