WAN-Videogenerering LoRA Træningsguide

⚠️ Under tung udvikling
Denne opsætning er stadig eksperimentel.
Brug den som inspiration til WAN-baseret videogenerering (T2V/I2V/V2V/S2V) fremfor en færdigproduceret vejledning.

WAN Video Træning Eksperimentet, kontakt os her: Support Kontakter

Bestil en GPU-server til WAN Video

🧩 1. Opsætning af miljø

Opret et rent Python-miljø ved hjælp af Conda (anbefalet) eller venv:

bash

# 1) Conda / Virtual Environment
conda create -n wan22 python=3.10 -y
conda activate wan22

# 2) Install PyTorch (CUDA 12.x Build)
pip install --upgrade torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip install xformers accelerate transformers datasets peft bitsandbytes==0.43.3 safetensors einops
pip install opencv-python pillow tqdm

# 3) Clone Trainer
git clone https://github.com/Wan-Video/DiffSynth-Studio.git
cd DiffSynth-Studio
pip install -r requirements.txt || true
cd ..

💡 Tip: På NVIDIA A100 GPU'er, skal du altid bruge BF16-præcision for stabil og effektiv træning.

🧠 2. Modelopsætning

Placer dine WAN 2.2-modelvægte (afhængigt af din opgave: T2V, I2V, V2V eller S2V) sammen med VAE- og tekstencoder-filer i trænerens forventede mapper – eller angiv dem manuelt via --model_name_or_path

Eksempler:

bash

--model_name_or_path Wan-AI/Wan2.2-T2V-A14B   # Text-to-Video
--model_name_or_path Wan-AI/Wan2.2-I2V-A14B   # Image-to-Video

🎞 3. Forberedelse af datasæt

JSONL-dataset-fil med én indgang pr. videoklip.

Eksempelformat:

json

{"video": "/data/myset/clip_0001.mp4", "prompt": "a cozy coffee shop scene at golden hour", "fps": 24, "seconds": 4, "resolution": "1280x720"}
{"video": "/data/myset/clip_0002.mp4", "prompt": "rainy neon city street, cinematic", "fps": 24, "seconds": 4, "resolution": "1280x720"}

📘 Noter:

Til Tekst-til-video (T2V), kan du henvise til stillebilder, enkeltbilleder eller en dummy-video. En prompt og målspecifikationer som (fps, sekunder, opløsning) er påkrævet.
Gem dine datasæt som:
- /data/wan22/train.jsonl
- /data/wan22/val.jsonl

⚙️ 4. `accelerate` Konfiguration

Initialiser én gang:

bash

accelerate config default

Eller definer manuelt i ~/.cache/huggingface/accelerate/default_config.yaml:

yaml

compute_environment: LOCAL_MACHINE
distributed_type: NO
mixed_precision: bf16
num_processes: 1
gpu_ids: "0"
dynamo_backend: NO

👉 For multi-GPU træning, indstil:

yaml

distributed_type: MULTI_GPU

🚀 5. LoRA Finjustering (A100 40GB Eksempel)

🧩 Tekst-til-Video (720p, 4 sek, BF16)

bash

conda activate wan22
cd DiffSynth-Studio

accelerate launch \
  train_wan_lora.py \
  --model_name_or_path "Wan-AI/Wan2.2-T2V-A14B" \
  --output_dir /data/wan22_lora_out \
  --dataset_json /data/wan22/train.jsonl \
  --resolution 720 --fps 24 --clip_seconds 4 \
  --train_batch_size 1 \
  --gradient_accumulation_steps 8 \
  --max_train_steps 20000 \
  --learning_rate 1e-4 --warmup_steps 500 \
  --lora_rank 64 --lora_alpha 64 \
  --use_bf16 --enable_xformers --gradient_checkpointing \
  --checkpointing_steps 1000 \
  --validation_json /data/wan22/val.jsonl --validation_steps 2000

🖼 Billede-til-Video (I2V)

Skift kun modellen:

bash

--model_name_or_path "Wan-AI/Wan2.2-I2V-A14B"

🔧 6. Anbefalede A100 Justeringer

Situation	Anbefalet justering
Rigeligt med VRAM	Forøg `--train_batch_size` til 2 eller brug `--lora_rank 96–128`
Stram VRAM	Forøg `--gradient_accumulation_steps` to 12–16
Karakter/Stil LoRA'er	6.000–12.000 trin, rang 32–64
Præcision	BF16 er altid at foretrække fremfor FP16
Optimering	Aktiver `--gradient_checkpointing` + `--enable_xformers`

💾 7. Genoptag Træning / Checkpoints

bash

accelerate launch train_wan_lora.py \
  ... (same parameters) \
  --resume_from_checkpoint "/data/wan22_lora_out/checkpoint-10000"

🧠 8. Inferens / Testning

De fleste WAN-workflows (CLI, ComfyUI osv.) understøtter indlæsning af LoRA-adaptere direkte.

CLI Eksempel:

bash

python infer_wan.py \
  --model_name_or_path "Wan-AI/Wan2.2-T2V-A14B" \
  --lora_path "/data/wan22_lora_out" \
  --prompt "cozy coffee shop at golden hour, bokeh" \
  --negative_prompt "distorted faces, artifacts" \
  --resolution 720 --fps 24 --seconds 4 \
  --output /data/wan22/samples/test001.mp4 \
  --use_bf16 --enable_xformers

💡 ComfyUI: Brug WAN Loader → tilføj LoRA(er) → generér dine testvideoer.

🧮 9. Multi-GPU Træning (Samme Vært)

Udnyt flere GPU'er (f.eks. 2× A100 40GB) for hurtigere finjustering.

bash

accelerate config  # set distributed_type=MULTI_GPU, num_processes=2
accelerate launch \
  --multi_gpu \
  train_wan_lora.py \
  ... (same parameters) \
  --train_batch_size 1 --gradient_accumulation_steps 8

For opsætninger med 4+ GPU'er skal du aktivere --seq_parallel hvis understøttet – reducerer VRAM-belastningen betydeligt.

⚡ 10. Hyperparameter Reference

Type	LR	Rang	Alpha	Trin	Batch	Grad Akkumulering	Noter
Generel	1e-4	64	64	10k–20k	1	8–12	Balanceret basislinje
Karakter	1e-4	64–128	64	8k–12k	1	8	Ideel til korte 2–4 sekunders klip
Stil	1e-4	32–64	64	6k–10k	1	8–12	Større stilistisk rækkevidde
Vurdering	—	—	—	hver 1–2k	—	—	Test 2–4 faste + 2 reelle prompter

🧾 Opsummering

WAN LoRA-træning giver mulighed for:

Hurtig tilpasning af WAN 2.2 videogenereringsmodeller
Konsistent stil, tema og karakter på tværs af outputs
Effektiv finjustering ved hjælp af LoRA og xFormers med minimal VRAM-overhead

Anbefalet opsætning:

⚙️ CUDA 12.x
🧠 NVIDIA A100 (40 GB)
💡 BF16 præcision
🧩 xFormers + gradient checkpointing

🏁 Oversigt over eksempel-arbejdsgang

tekst

Environment  →  Model Setup  →  Dataset Prep  →  LoRA Fine-tune  →  Inference

🎥 Træn klogere. Generér hurtigere. VÆN stærkere.

🎬 WAN Video LoRA Training

🧩 1. Opsætning af miljø

🧠 2. Modelopsætning

🎞 3. Forberedelse af datasæt

Eksempelformat:

⚙️ 4. accelerate Konfiguration

🚀 5. LoRA Finjustering (A100 40GB Eksempel)

🧩 Tekst-til-Video (720p, 4 sek, BF16)

🖼 Billede-til-Video (I2V)

🔧 6. Anbefalede A100 Justeringer

💾 7. Genoptag Træning / Checkpoints

🧠 8. Inferens / Testning

CLI Eksempel:

🧮 9. Multi-GPU Træning (Samme Vært)

⚡ 10. Hyperparameter Reference

🧾 Opsummering

🏁 Oversigt over eksempel-arbejdsgang

⚙️ 4. `accelerate` Konfiguration