這個 Github 專案 可以簡單且約略地估算 Local Model 的 VRAM 要求。只要輸入 VRAM 和 RAM 數值就能得到確定該指定的語言模型是否能跑。
例如:選擇QWEN 2.5 7B 模型,再輸入「32, 25, 16, 504」(DDR4 3200 頻率的頻寬約 25 GB, 4070 ti super VRAM 16G 頻寬約 504 GB) 按鈕【Can I Run It?】,畫面右方就會出現估算結果。
不過我更喜歡用「Stoplight chart」(估算數值頁面輸入的都不會帶到此頁),改變最下方的 Slider 就能看到哪些模式可以用。
基本上,家用 Windows + 顯卡,能使用的模式約在10B以下,能應付簡單的使用情境及 Coding 需求;家用如果要跑更大的模型,我爬完 Reddit 上的討論最優解是買二手 M2 Max RAM 64GB 的 Mac Studio,模型用70B q4 每秒 10 tokens 以上(符合大部分人類閱讀速度) 。
最後更新日期:2025-02-23
Views: 6
Views: 6
發佈留言