Note: You may need 80GB GPU memory to run this script with deepseek-vl2-small and even larger for deepseek-vl2.
Currently Qwen2.5-VL has a bug when using Flash-attention2. You need to disable to train the model. I made a quick fix monkey-patching code for it. The script requires a dataset formatted according to ...
Những ngày đầu tiên của năm mới, du khách nô nức đổ về các điểm du lịch vui chơi, trẩy hội trong tiết trời se lạnh. Là một trong những điểm đến lý... Sau chuyến xuất hành “xông biển” lấy may ...