Note: You may need 80GB GPU memory to run this script with deepseek-vl2-small and even larger for deepseek-vl2.
Currently Qwen2.5-VL has a bug when using Flash-attention2. You need to disable to train the model. I made a quick fix monkey-patching code for it. The script requires a dataset formatted according to ...
Hôm nay là ngày Lễ Tình nhân 14/2 (Hay còn gọi là ngày Valentine). Trong ngày đặc biệt này, những cặp đôi sẽ dành tặng nhau những món quà ý nghĩa để khẳng... Năm 2025, thực hiện chỉ tiêu của Chính phủ ...
Some results have been hidden because they may be inaccessible to you
Show inaccessible results