ผลเทส โมเดล Local LLM ดิบ พร้อมสรุปโดย AI geminipro ว่าตัวไหนเหมาะสำหรับนิยาย ในปี 2026
โดยใช้ RTX 5060ti 16gb เป็นตัวนำและ rtx 3070 8gb เป็นตัวเสริม
และส่งข้อมูลให้ AI ทำตารางตาม ด้านล่าง
โดยผลเทสนี้ ถ้าใครนมีการ์จอ vram 16-24 gb ประมาณนี้ พอทำตามได้ หรือถ้ามี RTX 5060ti 16gb+ rtx 3070 8gb เปะเหมือนผม เลือกโหลดโมเดล จากผลเทสได้เลย ไม่ต้องเสียเวลาเทส เทสตัวหนึ่งก็นานอยู่ ผมว่าประหยัดเวลา ได้หลายวัน
ได้ทำการจัดกลุ่มและเรียงลำดับผลทดสอบ (Benchmark) ตามตระกูลโมเดล (Model Family) และขนาดของโมเดล เพื่อให้เปรียบเทียบความเร็ว (Speed), ความยาวคอนเทกต์ (Context Length) และการใช้หน่วยความจำ (Memory) ได้ง่ายขึ้นครับ โดยแบ่งออกเป็น 5 กลุ่มหลัก ดังนี้:
1. กลุ่ม Gemma-4 31B Series
โมเดลขนาดใหญ่ เน้นความแม่นยำสูง แต่ค่อนข้างกินทรัพยากรและทำความเร็ว (tok/sec) ได้จำกัด
| ชื่อโมเดล / เวอร์ชัน Quant | Context Length | การใช้หน่วยความจำ (Memory) | ความเร็ว (tok/sec) | หมายเหตุ / เงื่อนไข |
| gemma-4-31b-it-abliterated@q8_0 | 10,000 | 34.61 GB (GPU 21.34) | 2.04 | ความเร็วต่ำสุดในกลุ่ม |
| gemma-4-31b-it-abliterated | 12,000 | 21.50 GB | 5.23 | |
| gemma-4-31b-it-abliterated (Q4_K_M) | 10,000 | คาดการณ์ 20.9 GB / ใช้จริง 25.60 GB | 5.37 | เทส ai 2 |
| peper/gemma-4-31b-it-abliterated | 10,000 | คาดการณ์ 20.92 GB / ใช้จริง 25.97 GB | 5.40 | เทส ai 2 |
| gemma-4-31b-it-abliterated | 10,000 | 20.92 GB | 6.30 | |
| amarck/gemma-4-31b-it-abliterated (Q4_K_M) | 2,048 | คาดการณ์ 18.86 GB / ใช้จริง 20.18 GB | 8.81 | เทส ai 2 |
| gemma-4-31b-it-abliterated | 4,000 | 20.92 GB | 9.41 | |
| amarck/gemma-4-31b-it-abliterated (Q4_K_M) | 1,024 | คาดการณ์ 18.60 GB / ใช้จริง 18.79 GB | 10.52 | เทส ai 2 |
| peper/gemma-4-31b-it-abliterated | 2,048 | คาดการณ์ 20.92 GB / ใช้จริง 23.56 GB | 10.55 | เทส ai 2 |
| gemma-4-31b-it (Q3 K S) | 10,000 | 17.81 GB (ขนาดไฟล์ 15.5GB) | 14.05 | |
| gemma-4-31b-it@q2_k_xl | 4,000 | 15.88 GB (ขนาดไฟล์ 14.1GB) | 14.55 | |
| gemma-4-31b-it@q2_k_xl | 8,000 | 15.88 GB (ขนาดไฟล์ 14.1GB) | 16.76 |
2. กลุ่ม Gemma-4 26B Series
โมเดลขนาดกลาง บาลานซ์ระหว่างความเร็วและการใช้ Memory ได้ดีขึ้นอย่างเห็นได้ชัด
| ชื่อโมเดล / เวอร์ชัน Quant | Context Length | การใช้หน่วยความจำ (Memory) | ความเร็ว (tok/sec) | หมายเหตุ / เงื่อนไข |
| HauhauCS/...Balanced Q8 K P | 10,000 | คาดการณ์ 28.61 GB / ใช้จริง 28.66 GB | 11.65 | GPU 21.93GB (76%) |
| HauhauCS/...Balanced Q8 K P | 5,000 | คาดการณ์ 28.21 GB / ใช้จริง 27.98 GB | 14.40 | GPU 22.62GB (80.1%) |
| unsloth/gemma-4-26b-a4b-it | 10,000 | 21.42 GB | 20.00 | |
| unsloth/gemma-4-26b-a4b-it (Q5 K S) | 12,000 | 21.56 GB (ขนาดไฟล์ 21.1GB) | 19.89 | |
| HauhauCS/...Balanced Q5 K P | 10,000 | คาดการณ์ 20.90 GB / ใช้จริง 20.98 GB | 23.68 | GPU 100% |
| gemma-4-26b-a4b-it-abliterated (Q4_K_M) | 50,000 | คาดการณ์ 19.87 GB / ใช้จริง 18.35 GB | 31.61 | เทส ai 2 |
| Gemma 4 26B A4B Instruct Abliterated | 40,000 | 17.29 GB | 33.41 | |
| unsloth/gemma-4-26b-a4b-it | 4,096 | คาดการณ์ 21.02 GB / ใช้จริง 18.59 GB | 33.60 | เทส ai 2 |
| google/gemma-4-26b-a4 | 10,000 | 18.33 GB | 45.59 | |
| DuoNeural/gemma-4-26b-a4b-it-abliterated | 50,000 | คาดการณ์ 19.87 GB / ใช้จริง 16.69 GB | 50.58 | เทส ai 2 |
| Gemma 4 26B A4B Instruct Abliterated | 12,000 | 17.29 GB | 63.50 | เร็วที่สุดในกลุ่ม 26B |
3. กลุ่ม Gemma-4 E4B Series
กลุ่มสถาปัตยกรรมขนาดเล็ก หรือ MoE Sub-variant เด่นเรื่องความเร็วสูงมาก (ส่วนใหญ่ทะลุ 50+ tok/sec) และประหยัดแรม
| ชื่อโมเดล / เวอร์ชัน Quant | Context Length | การใช้หน่วยความจำ (Memory) | ความเร็ว (tok/sec) | หมายเหตุ / เงื่อนไข |
| gemma-4-e4b-instruct-obliterated (Q8_0) | 131,072 | 15.33 GB | 49.30 | รันได้ Context ยาวมาก |
| Hau/...Aggressive Q8 K P | 131,072 | คาดการณ์ 9.15 GB / ใช้จริง 9.79 GB | 49.32 | |
| gemma-4-e4b-it-obliterated (Q8) | 10,000 | 9.35 GB | 61.03 | RTX 5060ti 16GB ใบเดียว |
| gemma-4-e4b-it-obliterated (Q8) | 10,000 | 8.23 GB | 61.20 | |
| Hau/...Aggressive Q8 K P | 4,096 | คาดการณ์ 9.15 GB / ใช้จริง 8.80 GB | 61.68 | เทส ai 2 |
| gemma-4-e4b-uncensored-aggressive | 10,000 | 6.45 GB | 81.34 | RTX 5060ti 16GB ใบเดียว |
| gemma-4-e4b-abliteratedt | 10,000 | 5.73 GB | 81.73 | RTX 5060ti 16GB ใบเดียว |
| DuoNeural/gemma-4-e4b-abliterated | 10,000 | คาดการณ์ 5.73 GB / ใช้จริง 6.13 GB | 84.90 | เทส ai 2 |
| gemma-4-e4b-it | 10,000 | 6.70 GB | 85.07 | |
| Hau/...Aggressive Q4 K P | 10,050 | คาดการณ์ 6.70 GB / ใช้จริง 6.03 GB | 87.23 | เทส ai 2 |
| Hau/...Aggressive Q4 K P | 131,072 | คาดการณ์ 6.70 GB / ใช้จริง 6.26 GB | 87.69 | เร็วที่สุดในทุกโมเดล |
4. กลุ่ม Gemma-3 Series (รุ่นเก่า/รุ่นเปรียบเทียบ)
กลุ่มโมเดลเจเนอเรชันก่อนหน้า หรือโมเดลขนาดเล็ก
| ชื่อโมเดล / เวอร์ชัน Quant | Context Length | การใช้หน่วยความจำ (Memory) | ความเร็ว (tok/sec) | หมายเหตุ / เงื่อนไข |
| gemma-3-27b-it-abliterated@q5_k_m | 10,000 | 22.80 GB | 4.10 | |
| gemma-3-27b-it-abliterated | - | - | 4.29 | ไม่มีข้อมูล Context/Memory |
| gemma-3-27b-it-abliterated@q5_k_m | 10,000 | 22.80 GB | 4.34 | |
| gemma-3-27b-it-abliterated (Q4) | 10,000 | 20.13 GB | 6.64 | |
| gemma-3-27b-it-abliterated@q5_k_m | 4,096 | 21.00 GB | 7.08 | |
| mlabonne_gemma-3-27b-it-abliterated | 6,800 | 19.12 GB | 12.90 | |
| gemma-3-12b-it-heretic | 10,000 | 13.96 GB | 19.85 | คำตอบด้อยที่สุด |
5. กลุ่ม Qwen Series (Thinking Models)
โมเดลค่ายจีนสายคิดวิเคราะห์ (Reasoning) มีจุดเด่นที่ความเร็วพ่นคำตอบโอเค แต่จะเสียเวลาในกระบวนการคิด (Thinking Space) ค่อนข้างนาน
| ชื่อโมเดล / เวอร์ชัน Quant | Context Length | การใช้หน่วยความจำ (Memory) | ความเร็ว (tok/sec) | หมายเหตุ / พฤติกรรมโมเดล |
| HauhauCS/qwen3.6-35b-a3b... Q3 K P | 10,000 | คาดการณ์ 19.74 GB / ใช้จริง 18.67 GB | 32.27 | GPU 100%, Thinking นาน 52.18s, มีภาษาจีนปนเล็กน้อย, มีดึง System prompt มาใช้ |
| amarck/qwen3.5-35b-a3b-abliterated | 4,096 | คาดการณ์ 20.85 GB / ใช้จริง 20.59 GB | 37.00 | Thinking นาน 59.64s |
ข้อสังเกตเพิ่มเติมจากการทดสอบ:
RTX 5060ti 16GB ใบเดียว สามารถขับกลุ่ม
Gemma-4 E4Bได้อย่างมีประสิทธิภาพมาก โดยทำความเร็วได้แตะระดับ 61 - 81 tok/sec ในขนาด Context 10,000 และกินแรมระบบจริงต่ำมาก (ประมาณ 5.7 - 9.3 GB)โมเดลกลุ่ม Qwen 35B ทำความเร็วในการพ่น Token ได้ดี (32-37 tok/sec) แต่มี "คอขวด" ที่ต้องรอสเตปการคิด (Thinking Time) นานเกือบ 1 นาทีเต็มก่อนจะเริ่มพ่นคำตอบออกมา
นี่คือ "คัมภีร์สรุปผลเทสฉบับสมบูรณ์ (Master Benchmark)" จากข้อมูลทั้งหมดที่คุณได้ทำการทดสอบบนเครื่องของคุณ (RTX 4060 Ti 16GB + RTX 3070 8GB) ครับ
ผมได้จัดหมวดหมู่ใหม่ทั้งหมด โดยอิงจาก "VRAM ที่ใช้จริง (Actual VRAM)" และ "ความเร็ว (tok/sec)" เพื่อให้คุณเห็นภาพชัดเจนที่สุดว่าไฟล์ไหนคือร่างทอง และไฟล์ไหนคือขยะที่ควรกดลบทิ้งครับ
👑 กลุ่มที่ 1: "ร่างทองคำระดับ Masterpiece" (ใช้งานเป็นตัวหลักบนการ์ดจอคู่)
กลุ่มนี้คือโมเดลสถาปัตยกรรม 26B A4B (MoE) ที่รีดพลัง VRAM 21GB ของคุณออกมาได้สมบูรณ์แบบที่สุด ให้ภาษานิยายระดับพรีเมียม และปลดล็อก 0 Refusals
| ชื่อไฟล์ / ค่าย | ระดับ Quantize | Context ที่เทส | VRAM ใช้จริง | สปีด (tok/s) | บทสรุปสำหรับงานนิยาย |
| HauhauCS Balanced | Q5_K_P | 10,000 | 20.98 GB | 23.68 | [ร่างหลักรายวัน 🌟] ดึง VRAM เต็ม 100% พอดีเป๊ะ ภาษาสวยกริบ สปีดไหลลื่น ไม่มีสะดุด |
| HauhauCS Balanced | Q8_K_P | 5,000 | 27.98 GB | 14.40 | [ร่างพรีเมียม 💎] ยอมให้ล้น RAM แต่ได้สมอง Q8 เต็ม 100% สปีดยังรับได้ เหมาะกับฉากดราม่า/NC หินๆ |
| DuoNeural Abliterated | Q4_K_M | 50,000 | 16.69 GB | 50.58 | [ร่างสายสปีดสมองใหญ่ ⚡] บีบอัดเลเยอร์เก่งมาก เปิดบริบท 5 หมื่นคำแต่กิน VRAM แค่ 16GB สปีดโคตรโหด |
🚀 กลุ่มที่ 2: "ราชาสายมาราธอน" (เปิด Context แสนคำ / รันใบเดียวได้)
กลุ่มโมเดลจิ๋ว (E4B) ที่แบกความจำบริบทระดับนิยายทั้งเล่ม (131,072 tokens) ได้โดยที่เครื่องไม่ค้าง และทำสปีดทะลุเพดาน
| ชื่อไฟล์ / ค่าย | ระดับ Quantize | Context ที่เทส | VRAM ใช้จริง | สปีด (tok/s) | บทสรุปสำหรับงานนิยาย |
| HauhauCS Aggressive (E4B) | Q8_K_P | 131,072 | 9.79 GB | 49.32 | [คุ้มค่าที่สุดในสายเล็ก 🥇] ได้สมอง Q8 ชัดแจ๋ว ยัดนิยายได้แสนคำ กินพื้นที่ไม่ถึง 10GB |
| HauhauCS Aggressive (E4B) | Q4_K_P | 131,072 | 6.26 GB | 87.69 | [เร็วทะลุนรก 🌪️] เร็วที่สุดในตาราง เร็วกว่าสายตามนุษย์อ่านทัน แต่ภาษาจะสู้ตัว Q8 ด้านบนไม่ได้ |
🛑 กลุ่มที่ 3: "แก๊งหลอกดาว" (เก่งแต่มีจุดตายร้ายแรง)
กลุ่มที่ดูสเปคบนกระดาษเหมือนจะดี แต่พอรันจริงกลับเจออาการ "แอบสูบ VRAM" หรือ "คิดนานจนเสียอารมณ์" (กดลบทิ้งได้เลย)
| ชื่อไฟล์ / ค่าย | ขนาดโมเดล | Context | VRAM ใช้จริง | สปีด (tok/s) | สาเหตุที่ต้องประหาร |
| peper / amarck / original | 31B Dense | 10,000 | 25.6 - 26 GB | ~5.40 | แอบสูบ VRAM: โปรแกรมบอก 20GB แต่ใช้จริง 26GB ล้นแรมเครื่องจนสปีดเหลือแค่เลขตัวเดียว |
| HauhauCS Aggressive | Qwen 35B MoE | 10,000 | 18.67 GB | 32.27 | เสียเวลารอ: สปีดดี แต่คิดนาน (Thinking) เกือบ 1 นาที แถมมีภาษาจีนหลุดปน ทำลายบรรยากาศเขียนนิยาย |
| unsloth / 26B-A4B | 26B MoE | 4,000 | 18.59 GB | 33.60 | ไม่มีประโยชน์: กินพื้นที่เยอะกว่า แถมวิ่งช้ากว่า DuoNeural (ที่เปิดบริบท 50,000 แล้ววิ่ง 50 tok/s) |
🗑️ กลุ่มที่ 4: "ลืมไปได้เลย" (ตกรุ่น / บั๊ก / ถ่วงเครื่อง)
กลุ่มที่เคยเทสไปรอบแรกๆ พิสูจน์แล้วว่าไร้ประโยชน์กับเครื่องของคุณ 100%
ตระกูล Gemma 3 ทั้งหมด (27B, 12B, 10B): สปีดวิ่งวนอยู่แค่ 4 - 12 tok/s แถมภาษาดื้อและโดนเซนเซอร์
Gemma 4 31B (Q8, Q3, Q2): ไม่ว่าจะบีบอัดยังไง Hardware ของคุณก็เข็นสถาปัตยกรรมแบบ Dense 31B ให้วิ่งเกิน 16 tok/s ไม่ไหว
🎯 แผนผังการเก็บไฟล์ใน SSD ของคุณ (เหลือแค่ 3 ไฟล์นี้พอ)
เพื่อไม่ให้คอมพิวเตอร์รก แนะนำให้เก็บไฟล์ไข่มุก 3 เม็ดนี้ไว้ใช้งานตามสถานการณ์ครับ:
ไฟล์งานหลัก (แต่งนิยายรายวัน):
Gemma4-26B-A4B-Balanced-Q5_K_P(บาลานซ์ความเร็ว 23 tok/s กับความเนี๊ยบของภาษาได้ดีที่สุด)ไฟล์งานหยาบ/งานเช็กพล็อตทั้งเล่ม:
Gemma4-E4B-Aggressive-Q8_K_P(เอาไว้อ่าน Context 131k และพิมพ์ตอบด้วยสปีด 49 tok/s)ไฟล์งานละเอียด (ฉาก NC/Masterpiece):
Gemma4-26B-A4B-Balanced-Q8_K_P(ยอมรับสปีด 14 tok/s เพื่อแลกกับภาษาที่ทรงพลังที่สุด)
เมื่อคุณเคลียร์ทุกอย่างจนพร้อมใช้งานแบบ 100% แล้ว คุณอยากให้ผมช่วยออกแบบตัว System Prompt เพื่อฝังเข้าไปสั่งการให้โมเดลพวกนี้สวมบทบาทเป็นนักเขียนนิยายอีโรติก/ดราม่ามืออาชีพ ตามสไตล์ภาษาที่คุณชอบเลยไหมครับ?
ผลเทสเก่า
นี่คือตารางสรุปผลการทดสอบทั้งหมดบนระบบคอมพิวเตอร์ของคุณ (RTX 5060 Ti 16GB + RTX 3070 8GB) โดยจัดกลุ่มตามความคุ้มค่าและประสิทธิภาพในการนำไปใช้แต่งนิยายจริง เพื่อให้คุณใช้เป็นคู่มือหน้าแท่นพิมพ์ได้ง่ายที่สุดครับ
🥇 กลุ่มที่ 1: "ร่างทองคุ้มค่าสูงสุด" (ต้องเก็บไว้ใช้งาน)
กลุ่มนี้ทำพื้นที่รวมไม่เกิน เส้นตาย 19.5 GB ดึงพลังการ์ดจอคู่ได้สมบูรณ์แบบ ได้สมองที่ฉลาด คลังคำศัพท์แน่น และสปีดไหลลื่น
| ชื่อโมเดล | Context ที่ทดสอบ | ขนาดพื้นที่รวม | ความเร็ว (tok/s) | ข้อวินิจฉัยสำหรับการแต่งนิยาย |
| Gemma 4 26B A4B Instruct Abliterated | 12,000 | 17.29 GB | 63.50 | แชมป์สายเขียนสั้น: ภาษาละมุน มิติตัวละครดีเยี่ยม สปีดพุ่งทะลุจอ |
| Gemma 4 26B A4B Instruct Abliterated | 40,000 | 17.29 GB | 33.41 | แชมป์สายคุมพล็อตกลาง: แบกเนื้อเรื่องย้อนหลังได้หลายบท โดยที่สปีดไม่ตก |
| gemma-4-e4b-instruct-obliterated (Q8_0) | 131,072 | 15.33 GB | 49.30 | ราชาไร้บัลลังก์: แบกนิยายได้ทั้งเล่มในแชทเดียว สปีดคงที่ สมอง Q8 ชัดเจน |
| google/gemma-4-26b-a4 | 10,000 | 18.33 GB | 45.59 | ตัวสำรองเกรด A: ร่างออริจินัลจาก Google สปีดดีเยี่ยม เก็บไว้สลับสำนวน |
🏃♂️ กลุ่มที่ 2: "สายสปีดใบเดียว" (รันบน RTX 5060 Ti เดี่ยวๆ)
กลุ่มโมเดลขนาดเล็ก (ต่ำกว่า 10GB) ที่การ์ดจอหลักใบเดียวก็เอาอยู่ สปีดโหดจัด แต่ข้อเสียคือคลังคำศัพท์และความลึกซึ้งของภาษาจะสู้กลุ่มแรกไม่ได้
| ชื่อโมเดล | Context ที่ทดสอบ | ขนาดพื้นที่รวม | ความเร็ว (tok/s) | ข้อวินิจฉัยสำหรับการแต่งนิยาย |
| gemma-4-e4b-abliterated | 10,000 | 5.73 GB | 81.73 | เร็วที่สุดในชีวิตประจำวัน เหมาะกับงานสปีดรัน โยนไอเดียไวๆ |
| gemma-4-e4b-uncensored-hauhaucs-aggressive | 10,000 | 6.45 GB | 81.34 | สายดาร์ก/NC รันใบเดียวได้สปีดโหดโกรธชิปการ์ดจอ |
| gemma-4-e4b-it-obliterated (Q8) | 10,000 | 9.35 GB | 61.03 | ร่างชัด Q8 บนใบเดี่ยว สปีดดีและภาษานิ่งกว่าตัว 5-6GB |
🚶♂️ กลุ่มที่ 3: "ร่างพยายามฝืน" (สปีดหน่วง/คอขวดการ์ดจอคู่)
กลุ่มโมเดลแบบ Dense (31B) ที่พยายามบีบอัดขนาดลงมาเพื่อไม่ให้ล้น VRAM แต่Hardware ตันพลังคำนวณ ได้งานเนี๊ยบ (15/16 คะแนน) แต่พิมพ์ช้า
| ชื่อโมเดล | Context ที่ทดสอบ | ขนาดพื้นที่รวม | ความเร็ว (tok/s) | ข้อวินิจฉัยสำหรับการแต่งนิยาย |
| gemma-4-31b-it-abliterated | 4,000 | 20.92 GB | 9.41 | ซีนอารมณ์/NC เกรดพรีเมียม (15/16 คะแนน) ยอมช้าเพื่อเอาความเนี๊ยบ |
| gemma-4-31b-it@q2_k_xl (Q2) | 8,000 | 15.88 GB | 16.76 | ไม่คุ้ม: ยอมหั่นสมองเหลือ Q2 จนภาษาแข็ง แต่สปีดเพิ่มมานิดเดียว |
| gemma-4-31b-it (Q3 K S) | 10,000 | 17.81 GB | 14.05 | ร่างประหยัดของ 31B เดินทางสายกลาง แต่โดนความเร็วตระกูล MoE กลบหมด |
| mlabonne_gemma-3-27b-it-abliterated | 6,800 | 19.12 GB | 12.90 | อดีตตัวเทพภาษาดี แต่สปีดและเจเนอเรชันสู้ Gemma 4 ไม่ได้แล้ว |
💀 กลุ่มที่ 4: "สั่งลบทิ้งทันที" (Choke Zone / ถ่วงเครื่อง)
กลุ่มที่ขนาดไฟล์รวมล้นเส้นตาย 21.5 GB จนทะลักเข้า System RAM หรือโมเดลบั๊กระบบ/ตกรุ่น
| ชื่อโมเดล | ขนาดพื้นที่ / บริบท | ความเร็ว (tok/s) | เหตุผลที่ต้องกดลบทิ้งทันที |
| gemma-4-31b-it-abliterated@q8_0 | 34.61 GB | 2.04 | ช้าวิกฤต หนักเครื่อง เปลืองพื้นที่ SSD |
| gemma-3-27b-it-abliterated@q5_k_m | 22.80 GB | 4.34 | ล้น VRAM วิ่งบนแรมเครื่อง อืดจนเขียนนิยายไม่สนุก |
| unsloth/gemma-4-26b-a4b-it | 21.42 GB | 20.00 | ไฟล์บวมเกินสเปค MoE จนความเร็วร่วงหายไปกว่าครึ่ง |
| gemma-3-12b-it-heretic | 13.96 GB | 19.85 | คำตอบด้อยที่สุด อืดแถมดื้อ ลบได้แบบไม่ต้องคิด |
| gemma-the-writer-n-restless-quill-10b | 6.64 GB | ??? | ผลเทส ผิดพลาด แต่ลบไปแล้ว |
https://poipoi-test.blogspot.com/2026/05/llm.html
