huggingface · a-r-r-o-w · Mar 17, 2025 · Mar 17, 2025
diff --git a/finetrainers/models/cogvideox/base_specification.py b/finetrainers/models/cogvideox/base_specification.py
@@ -17,7 +17,7 @@
 from ...logging import get_logger
 from ...processors import ProcessorMixin, T5Processor
 from ...typing import ArtifactType, SchedulerType
-from ...utils import get_non_null_items
+from ...utils import _enable_vae_memory_optimizations, get_non_null_items
 from ..modeling_utils import ModelSpecification
 from ..utils import DiagonalGaussianDistribution
 from .utils import prepare_rotary_positional_embeddings
@@ -117,74 +117,58 @@ def _resolution_dim_keys(self):
         return {"latents": (1, 3, 4)}
 
     def load_condition_models(self) -> Dict[str, torch.nn.Module]:
+        common_kwargs = {"revision": self.revision, "cache_dir": self.cache_dir}
+
         if self.tokenizer_id is not None:
-            tokenizer = AutoTokenizer.from_pretrained(
-                self.tokenizer_id, revision=self.revision, cache_dir=self.cache_dir
-            )
+            tokenizer = AutoTokenizer.from_pretrained(self.tokenizer_id, **common_kwargs)
         else:
             tokenizer = T5Tokenizer.from_pretrained(
-                self.pretrained_model_name_or_path,
-                subfolder="tokenizer",
-                revision=self.revision,
-                cache_dir=self.cache_dir,
+                self.pretrained_model_name_or_path, subfolder="tokenizer", **common_kwargs
             )
 
         if self.text_encoder_id is not None:
             text_encoder = AutoModel.from_pretrained(
-                self.text_encoder_id,
-                torch_dtype=self.text_encoder_dtype,
-                revision=self.revision,
-                cache_dir=self.cache_dir,
+                self.text_encoder_id, torch_dtype=self.text_encoder_dtype, **common_kwargs
             )
         else:
             text_encoder = T5EncoderModel.from_pretrained(
                 self.pretrained_model_name_or_path,
                 subfolder="text_encoder",
                 torch_dtype=self.text_encoder_dtype,
-                revision=self.revision,
-                cache_dir=self.cache_dir,
+                **common_kwargs,
             )
 
         return {"tokenizer": tokenizer, "text_encoder": text_encoder}
 
     def load_latent_models(self) -> Dict[str, torch.nn.Module]:
+        common_kwargs = {"revision": self.revision, "cache_dir": self.cache_dir}
+
         if self.vae_id is not None:
-            vae = AutoencoderKLCogVideoX.from_pretrained(
-                self.vae_id,
-                torch_dtype=self.vae_dtype,
-                revision=self.revision,
-                cache_dir=self.cache_dir,
-            )
+            vae = AutoencoderKLCogVideoX.from_pretrained(self.vae_id, torch_dtype=self.vae_dtype, **common_kwargs)
         else:
             vae = AutoencoderKLCogVideoX.from_pretrained(
-                self.pretrained_model_name_or_path,
-                subfolder="vae",
-                torch_dtype=self.vae_dtype,
-                revision=self.revision,
-                cache_dir=self.cache_dir,
+                self.pretrained_model_name_or_path, subfolder="vae", torch_dtype=self.vae_dtype, **common_kwargs
             )
 
         return {"vae": vae}
 
     def load_diffusion_models(self) -> Dict[str, torch.nn.Module]:
+        common_kwargs = {"revision": self.revision, "cache_dir": self.cache_dir}
+
         if self.transformer_id is not None:
             transformer = CogVideoXTransformer3DModel.from_pretrained(
-                self.transformer_id,
-                torch_dtype=self.transformer_dtype,
-                revision=self.revision,
-                cache_dir=self.cache_dir,
+                self.transformer_id, torch_dtype=self.transformer_dtype, **common_kwargs
             )
         else:
             transformer = CogVideoXTransformer3DModel.from_pretrained(
                 self.pretrained_model_name_or_path,
                 subfolder="transformer",
                 torch_dtype=self.transformer_dtype,
-                revision=self.revision,
-                cache_dir=self.cache_dir,
+                **common_kwargs,
             )
 
         scheduler = CogVideoXDDIMScheduler.from_pretrained(
-            self.pretrained_model_name_or_path, subfolder="scheduler", revision=self.revision, cache_dir=self.cache_dir
+            self.pretrained_model_name_or_path, subfolder="scheduler", **common_kwargs
         )
 
         return {"transformer": transformer, "scheduler": scheduler}
@@ -217,16 +201,11 @@ def load_pipeline(
         pipe.text_encoder.to(self.text_encoder_dtype)
         pipe.vae.to(self.vae_dtype)
 
+        _enable_vae_memory_optimizations(pipe.vae, enable_slicing, enable_tiling)
         if not training:
             pipe.transformer.to(self.transformer_dtype)
-
-        if enable_slicing:
-            pipe.vae.enable_slicing()
-        if enable_tiling:
-            pipe.vae.enable_tiling()
         if enable_model_cpu_offload:
             pipe.enable_model_cpu_offload()
-
         return pipe
 
     @torch.no_grad()

diff --git a/finetrainers/models/cogview4/base_specification.py b/finetrainers/models/cogview4/base_specification.py
@@ -17,7 +17,7 @@
 from ...logging import get_logger
 from ...processors import CogView4GLMProcessor, ProcessorMixin
 from ...typing import ArtifactType, SchedulerType
-from ...utils import get_non_null_items
+from ...utils import _enable_vae_memory_optimizations, get_non_null_items
 from ..modeling_utils import ModelSpecification
 
 
@@ -136,70 +136,54 @@ def _resolution_dim_keys(self):
         return {"latents": (2, 3)}
 
     def load_condition_models(self) -> Dict[str, torch.nn.Module]:
+        common_kwargs = {"revision": self.revision, "cache_dir": self.cache_dir}
+
         if self.tokenizer_id is not None:
-            tokenizer = AutoTokenizer.from_pretrained(
-                self.tokenizer_id, revision=self.revision, cache_dir=self.cache_dir
-            )
+            tokenizer = AutoTokenizer.from_pretrained(self.tokenizer_id, **common_kwargs)
         else:
             tokenizer = AutoTokenizer.from_pretrained(
-                self.pretrained_model_name_or_path,
-                subfolder="tokenizer",
-                revision=self.revision,
-                cache_dir=self.cache_dir,
+                self.pretrained_model_name_or_path, subfolder="tokenizer", **common_kwargs
             )
 
         if self.text_encoder_id is not None:
             text_encoder = GlmModel.from_pretrained(
-                self.text_encoder_id,
-                torch_dtype=self.text_encoder_dtype,
-                revision=self.revision,
-                cache_dir=self.cache_dir,
+                self.text_encoder_id, torch_dtype=self.text_encoder_dtype, **common_kwargs
             )
         else:
             text_encoder = GlmModel.from_pretrained(
                 self.pretrained_model_name_or_path,
                 subfolder="text_encoder",
                 torch_dtype=self.text_encoder_dtype,
-                revision=self.revision,
-                cache_dir=self.cache_dir,
+                **common_kwargs,
             )
 
         return {"tokenizer": tokenizer, "text_encoder": text_encoder}
 
     def load_latent_models(self) -> Dict[str, torch.nn.Module]:
+        common_kwargs = {"revision": self.revision, "cache_dir": self.cache_dir}
+
         if self.vae_id is not None:
-            vae = AutoencoderKL.from_pretrained(
-                self.vae_id,
-                torch_dtype=self.vae_dtype,
-                revision=self.revision,
-                cache_dir=self.cache_dir,
-            )
+            vae = AutoencoderKL.from_pretrained(self.vae_id, torch_dtype=self.vae_dtype, **common_kwargs)
         else:
             vae = AutoencoderKL.from_pretrained(
-                self.pretrained_model_name_or_path,
-                subfolder="vae",
-                torch_dtype=self.vae_dtype,
-                revision=self.revision,
-                cache_dir=self.cache_dir,
+                self.pretrained_model_name_or_path, subfolder="vae", torch_dtype=self.vae_dtype, **common_kwargs
             )
 
         return {"vae": vae}
 
     def load_diffusion_models(self) -> Dict[str, torch.nn.Module]:
+        common_kwargs = {"revision": self.revision, "cache_dir": self.cache_dir}
+
         if self.transformer_id is not None:
             transformer = CogView4Transformer2DModel.from_pretrained(
-                self.transformer_id,
-                torch_dtype=self.transformer_dtype,
-                revision=self.revision,
-                cache_dir=self.cache_dir,
+                self.transformer_id, torch_dtype=self.transformer_dtype, **common_kwargs
             )
         else:
             transformer = CogView4Transformer2DModel.from_pretrained(
                 self.pretrained_model_name_or_path,
                 subfolder="transformer",
                 torch_dtype=self.transformer_dtype,
-                revision=self.revision,
-                cache_dir=self.cache_dir,
+                **common_kwargs,
             )
 
         scheduler = FlowMatchEulerDiscreteScheduler()
@@ -235,16 +219,11 @@ def load_pipeline(
         pipe.text_encoder.to(self.text_encoder_dtype)
         pipe.vae.to(self.vae_dtype)
 
+        _enable_vae_memory_optimizations(pipe.vae, enable_slicing, enable_tiling)
         if not training:
             pipe.transformer.to(self.transformer_dtype)
-
-        if enable_slicing:
-            pipe.vae.enable_slicing()
-        if enable_tiling:
-            pipe.vae.enable_tiling()
         if enable_model_cpu_offload:
             pipe.enable_model_cpu_offload()
-
         return pipe
 
     @torch.no_grad()

diff --git a/finetrainers/models/hunyuan_video/base_specification.py b/finetrainers/models/hunyuan_video/base_specification.py
@@ -17,7 +17,7 @@
 from ...logging import get_logger
 from ...processors import CLIPPooledProcessor, LlamaProcessor, ProcessorMixin
 from ...typing import ArtifactType, SchedulerType
-from ...utils import get_non_null_items
+from ...utils import _enable_vae_memory_optimizations, get_non_null_items
 from ..modeling_utils import ModelSpecification
 
 
@@ -120,60 +120,44 @@ def _resolution_dim_keys(self):
         return {"latents": (2, 3, 4)}
 
     def load_condition_models(self) -> Dict[str, torch.nn.Module]:
+        common_kwargs = {"revision": self.revision, "cache_dir": self.cache_dir}
+
         if self.tokenizer_id is not None:
-            tokenizer = AutoTokenizer.from_pretrained(
-                self.tokenizer_id, revision=self.revision, cache_dir=self.cache_dir
-            )
+            tokenizer = AutoTokenizer.from_pretrained(self.tokenizer_id, **common_kwargs)
         else:
             tokenizer = AutoTokenizer.from_pretrained(
-                self.pretrained_model_name_or_path,
-                subfolder="tokenizer",
-                revision=self.revision,
-                cache_dir=self.cache_dir,
+                self.pretrained_model_name_or_path, subfolder="tokenizer", **common_kwargs
             )
 
         if self.tokenizer_2_id is not None:
-            tokenizer_2 = CLIPTokenizer.from_pretrained(
-                self.tokenizer_2_id, revision=self.revision, cache_dir=self.cache_dir
-            )
+            tokenizer_2 = AutoTokenizer.from_pretrained(self.tokenizer_2_id, **common_kwargs)
         else:
             tokenizer_2 = CLIPTokenizer.from_pretrained(
-                self.pretrained_model_name_or_path,
-                subfolder="tokenizer_2",
-                revision=self.revision,
-                cache_dir=self.cache_dir,
+                self.pretrained_model_name_or_path, subfolder="tokenizer_2" ** common_kwargs
             )
 
         if self.text_encoder_id is not None:
             text_encoder = LlamaModel.from_pretrained(
-                self.text_encoder_id,
-                torch_dtype=self.text_encoder_dtype,
-                revision=self.revision,
-                cache_dir=self.cache_dir,
+                self.text_encoder_id, torch_dtype=self.text_encoder_dtype, **common_kwargs
             )
         else:
             text_encoder = LlamaModel.from_pretrained(
                 self.pretrained_model_name_or_path,
                 subfolder="text_encoder",
                 torch_dtype=self.text_encoder_dtype,
-                revision=self.revision,
-                cache_dir=self.cache_dir,
+                **common_kwargs,
             )
 
         if self.text_encoder_2_id is not None:
             text_encoder_2 = CLIPTextModel.from_pretrained(
-                self.text_encoder_2_id,
-                torch_dtype=self.text_encoder_2_dtype,
-                revision=self.revision,
-                cache_dir=self.cache_dir,
+                self.text_encoder_2_id, torch_dtype=self.text_encoder_2_dtype, **common_kwargs
             )
         else:
             text_encoder_2 = CLIPTextModel.from_pretrained(
                 self.pretrained_model_name_or_path,
                 subfolder="text_encoder_2",
                 torch_dtype=self.text_encoder_2_dtype,
-                revision=self.revision,
-                cache_dir=self.cache_dir,
+                **common_kwargs,
             )
 
         return {
@@ -184,39 +168,30 @@ def load_condition_models(self) -> Dict[str, torch.nn.Module]:
         }
 
     def load_latent_models(self) -> Dict[str, torch.nn.Module]:
+        common_kwargs = {"revision": self.revision, "cache_dir": self.cache_dir}
+
         if self.vae_id is not None:
-            vae = AutoencoderKLHunyuanVideo.from_pretrained(
-                self.vae_id,
-                torch_dtype=self.vae_dtype,
-                revision=self.revision,
-                cache_dir=self.cache_dir,
-            )
+            vae = AutoencoderKLHunyuanVideo.from_pretrained(self.vae_id, torch_dtype=self.vae_dtype, **common_kwargs)
         else:
             vae = AutoencoderKLHunyuanVideo.from_pretrained(
-                self.pretrained_model_name_or_path,
-                subfolder="vae",
-                torch_dtype=self.vae_dtype,
-                revision=self.revision,
-                cache_dir=self.cache_dir,
+                self.pretrained_model_name_or_path, subfolder="vae", torch_dtype=self.vae_dtype, **common_kwargs
             )
 
         return {"vae": vae}
 
     def load_diffusion_models(self) -> Dict[str, torch.nn.Module]:
+        common_kwargs = {"revision": self.revision, "cache_dir": self.cache_dir}
+
         if self.transformer_id is not None:
             transformer = HunyuanVideoTransformer3DModel.from_pretrained(
-                self.transformer_id,
-                torch_dtype=self.transformer_dtype,
-                revision=self.revision,
-                cache_dir=self.cache_dir,
+                self.transformer_id, torch_dtype=self.transformer_dtype, **common_kwargs
             )
         else:
             transformer = HunyuanVideoTransformer3DModel.from_pretrained(
                 self.pretrained_model_name_or_path,
                 subfolder="transformer",
                 torch_dtype=self.transformer_dtype,
-                revision=self.revision,
-                cache_dir=self.cache_dir,
+                **common_kwargs,
             )
 
         scheduler = FlowMatchEulerDiscreteScheduler()
@@ -256,16 +231,11 @@ def load_pipeline(
         pipe.text_encoder_2.to(self.text_encoder_2_dtype)
         pipe.vae.to(self.vae_dtype)
 
+        _enable_vae_memory_optimizations(pipe.vae, enable_slicing, enable_tiling)
         if not training:
             pipe.transformer.to(self.transformer_dtype)
-
-        if enable_slicing:
-            pipe.vae.enable_slicing()
-        if enable_tiling:
-            pipe.vae.enable_tiling()
         if enable_model_cpu_offload:
             pipe.enable_model_cpu_offload()
-
         return pipe
 
     @torch.no_grad()