CLIPVisionEncode can now encode multiple images.

2025-07-03 22:07:13 +08:00 · 2023-08-14 16:54:05 -04:00 · 2023-08-14 16:54:05 -04:00 · 9cc12c833d
commit 9cc12c833d
parent 0cb6dac943
3 changed files with 12 additions and 12 deletions
--- a/comfy/clip_vision.py
+++ b/comfy/clip_vision.py
@ -24,8 +24,8 @@ class ClipVisionModel():
        return self.model.load_state_dict(sd, strict=False)
    def encode_image(self, image):
-        img = torch.clip((255. * image[0]), 0, 255).round().int()
+        img = torch.clip((255. * image), 0, 255).round().int()
-        inputs = self.processor(images=[img], return_tensors="pt")
+        inputs = self.processor(images=img, return_tensors="pt")
        outputs = self.model(**inputs)
        return outputs
--- a/comfy/model_base.py
+++ b/comfy/model_base.py
@ -120,7 +120,7 @@ class SD21UNCLIP(BaseModel):
            weights = []
            noise_aug = []
            for unclip_cond in unclip_conditioning:
-                adm_cond = unclip_cond["clip_vision_output"].image_embeds
+                for adm_cond in unclip_cond["clip_vision_output"].image_embeds:
                    weight = unclip_cond["strength"]
                    noise_augment = unclip_cond["noise_augmentation"]
                    noise_level = round((self.noise_augmentor.max_noise_level - 1) * noise_augment)
--- a/nodes.py
+++ b/nodes.py
@ -771,7 +771,7 @@ class StyleModelApply:
    CATEGORY = "conditioning/style_model"
    def apply_stylemodel(self, clip_vision_output, style_model, conditioning):
-        cond = style_model.get_cond(clip_vision_output)
+        cond = style_model.get_cond(clip_vision_output).flatten(start_dim=0, end_dim=1).unsqueeze(dim=0)
        c = []
        for t in conditioning:
            n = [torch.cat((t[0], cond), dim=1), t[1].copy()]