Abstract
Accurate interpretation and visual representation of complex prompts involving multiple objects, attributes, and spatial relationships is a critical challenge in text-to-image synthesis. Despite recent advancements in generating photorealistic outputs, current models often struggle with maintaining semantic fidelity and structural coherence when processing intricate textual inputs. We propose a novel approach that grounds text-to-image synthesis within the framework of scene graph structures, aiming to enhance the compositional abilities of existing models. Eventhough, prior approaches have attempted to address this by using pre-defined layout maps derived from prompts, such rigid constraints often limit compositional flexibility and diversity. In contrast, we introduce a zero-shot, scene graph-based conditioning mechanism that generates soft visual guidance during inference. At the core of our method is the Attribute-Size-Quantity-Location (ASQL) Conditioner, which produces visual conditions via a lightweight language model and guides diffusion-based generation through inference-time optimization. This enables the model to maintain text-image alignment while supporting lightweight, coherent, and diverse image synthesis.
Abstract (translated)
准确地解释和视觉化表示涉及多个对象、属性及空间关系的复杂提示,是文本到图像合成中的关键挑战。尽管近期在生成逼真的输出方面取得了进展,现有模型在处理复杂的文本输入时仍难以保持语义忠实性和结构连贯性。我们提出了一种新的方法,该方法将文本到图像的合成置于场景图结构框架内,旨在增强现有模型的组合能力。虽然先前的方法尝试通过使用从提示中得出的预定义布局图来解决这一问题,但这些刚性的约束条件往往限制了组合灵活性和多样性。相比之下,我们引入了一种基于零样本场景图的条件机制,在推理期间生成软视觉指导。我们的方法核心是属性-大小-数量-位置(ASQL)调节器,它通过轻量级语言模型产生视觉条件,并在推理时间优化过程中引导扩散基图像生成过程。这使模型能够维持文本与图像的一致性,同时支持轻量化、连贯且多样的图像合成。 翻译总结如下: 准确解释和可视化复杂提示是文本到图像(Text-to-Image)合成中的一个关键挑战。尽管最近在生成逼真图片方面取得了进展,现有模型处理复杂文本输入时仍难以保持语义一致性和结构连贯性。为解决这一问题,我们提出了一种基于场景图的新方法,旨在提升现有模型的组合能力。 先前的方法尝试通过使用从提示中得出的预定义布局图来解决问题,但这些刚性的约束条件限制了生成图像的灵活性和多样性。相比之下,我们引入了一种零样本、基于场景图的推理机制,在推理期间生成软视觉指导信号。我们的方法核心是属性-大小-数量-位置(ASQL)调节器,通过轻量级语言模型产生视觉条件,并在扩散过程中优化这些条件以引导图像生成。 这种方法不仅能够保持文本和生成图像之间的准确对应关系,还能支持轻量化、连贯且多样化的图像合成。
URL
https://arxiv.org/abs/2602.09165