UniLiP: Adapting CLIP for Unified Multimodal Understanding, Generation and Editing

Tang, Hao; Xie, Chenwei; Bao, Xiaoyi; Weng, Tingyu; Li, Pandeng; Zheng, Yun; Wang, Liwei

Computer Science > Computer Vision and Pattern Recognition

arXiv:2507.23278 (cs)

[Submitted on 31 Jul 2025 (v1), last revised 9 Feb 2026 (this version, v3)]

Title:UniLiP: Adapting CLIP for Unified Multimodal Understanding, Generation and Editing

Authors:Hao Tang, Chenwei Xie, Xiaoyi Bao, Tingyu Weng, Pandeng Li, Yun Zheng, Liwei Wang

View PDF HTML (experimental)

Abstract:In this paper, we propose UniLIP, a unified framework that adapts CLIP for multimodal understanding, generation and editing. Although CLIP excels at understanding, it lacks reconstruction abilities required to be a unified visual encoder. However, previous CLIP-based unified methods fail to balance understanding and reconstruction, leading to semantic degradation or inconsistent reconstructions. In contrast, we introduce a novel two-stage training scheme with a self-distillation strategy that progressively endows CLIP with high-fidelity reconstruction abilities while preserving its original comprehension performance. For enhanced reasoning and consistency in generation and editing, we further develop a dual-condition architecture built upon the MetaQuery framework. Our architecture jointly utilizes multimodal hidden states for rich contextual details and learnable query embeddings to harness the powerful reasoning abilities of Multimodal Large Language Models (MLLMs). Leveraging advanced image representation and architectural design, UniLIP demonstrates superior instruction following and edit fidelity. With only 1B and 3B parameters, UniLIP can outperform larger unified models such as BAGEL (7B) and Uniworld-V1 (12B), achieving state-of-the-art performance of 0.90 on GenEval, 0.63 on WISE, and 3.94 on ImgEdit. These results demonstrate that UniLIP successfully expands the application of CLIP, establishing its continuous features to not only serve as the optimal choice for understanding tasks but also achieve highly competitive performance in generation and editing tasks. Code and models are available at this https URL.

Subjects:	Computer Vision and Pattern Recognition (cs.CV)
Cite as:	arXiv:2507.23278 [cs.CV]
	(or arXiv:2507.23278v3 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2507.23278

Submission history

From: Hao Tang [view email]
[v1] Thu, 31 Jul 2025 06:35:03 UTC (4,375 KB)
[v2] Fri, 10 Oct 2025 03:32:57 UTC (42,043 KB)
[v3] Mon, 9 Feb 2026 14:20:27 UTC (43,470 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:UniLiP: Adapting CLIP for Unified Multimodal Understanding, Generation and Editing

Submission history

Access Paper:

Current browse context:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:UniLiP: Adapting CLIP for Unified Multimodal Understanding, Generation and Editing

Submission history

Access Paper:

Current browse context:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators