วันศุกร์ที่ 29 พฤษภาคม พ.ศ. 2569

ผลเทส โมเดล Local LLM ดิบ พร้อมสรุปโดย AI geminipro ว่าตัวไหนเหมาะสำหรับนิยาย ในปี 2026

 ผลเทส โมเดล Local LLM ดิบ พร้อมสรุปโดย AI geminipro ว่าตัวไหนเหมาะสำหรับนิยาย ในปี 2026


โดยใช้ RTX 5060ti 16gb เป็นตัวนำและ rtx 3070 8gb เป็นตัวเสริม 
และส่งข้อมูลให้ AI  ทำตารางตาม ด้านล่าง

โดยผลเทสนี้ ถ้าใครนมีการ์จอ vram 16-24 gb ประมาณนี้ พอทำตามได้ หรือถ้ามี RTX 5060ti 16gb+ rtx 3070 8gb เปะเหมือนผม เลือกโหลดโมเดล จากผลเทสได้เลย ไม่ต้องเสียเวลาเทส  เทสตัวหนึ่งก็นานอยู่ ผมว่าประหยัดเวลา ได้หลายวัน



ได้ทำการจัดกลุ่มและเรียงลำดับผลทดสอบ (Benchmark) ตามตระกูลโมเดล (Model Family) และขนาดของโมเดล เพื่อให้เปรียบเทียบความเร็ว (Speed), ความยาวคอนเทกต์ (Context Length) และการใช้หน่วยความจำ (Memory) ได้ง่ายขึ้นครับ โดยแบ่งออกเป็น 5 กลุ่มหลัก ดังนี้:

 

1. กลุ่ม Gemma-4 31B Series

โมเดลขนาดใหญ่ เน้นความแม่นยำสูง แต่ค่อนข้างกินทรัพยากรและทำความเร็ว (tok/sec) ได้จำกัด

 

ชื่อโมเดล / เวอร์ชัน QuantContext Lengthการใช้หน่วยความจำ (Memory)ความเร็ว (tok/sec)หมายเหตุ / เงื่อนไข
gemma-4-31b-it-abliterated@q8_010,00034.61 GB (GPU 21.34)2.04ความเร็วต่ำสุดในกลุ่ม
gemma-4-31b-it-abliterated12,00021.50 GB5.23
gemma-4-31b-it-abliterated (Q4_K_M)10,000คาดการณ์ 20.9 GB / ใช้จริง 25.60 GB5.37เทส ai 2
peper/gemma-4-31b-it-abliterated10,000คาดการณ์ 20.92 GB / ใช้จริง 25.97 GB5.40เทส ai 2
gemma-4-31b-it-abliterated10,00020.92 GB6.30
amarck/gemma-4-31b-it-abliterated (Q4_K_M)2,048คาดการณ์ 18.86 GB / ใช้จริง 20.18 GB8.81เทส ai 2
gemma-4-31b-it-abliterated4,00020.92 GB9.41
amarck/gemma-4-31b-it-abliterated (Q4_K_M)1,024คาดการณ์ 18.60 GB / ใช้จริง 18.79 GB10.52เทส ai 2
peper/gemma-4-31b-it-abliterated2,048คาดการณ์ 20.92 GB / ใช้จริง 23.56 GB10.55เทส ai 2
gemma-4-31b-it (Q3 K S)10,00017.81 GB (ขนาดไฟล์ 15.5GB)14.05
gemma-4-31b-it@q2_k_xl4,00015.88 GB (ขนาดไฟล์ 14.1GB)14.55
gemma-4-31b-it@q2_k_xl8,00015.88 GB (ขนาดไฟล์ 14.1GB)16.76

 

2. กลุ่ม Gemma-4 26B Series

โมเดลขนาดกลาง บาลานซ์ระหว่างความเร็วและการใช้ Memory ได้ดีขึ้นอย่างเห็นได้ชัด

 

ชื่อโมเดล / เวอร์ชัน QuantContext Lengthการใช้หน่วยความจำ (Memory)ความเร็ว (tok/sec)หมายเหตุ / เงื่อนไข
HauhauCS/...Balanced Q8 K P10,000คาดการณ์ 28.61 GB / ใช้จริง 28.66 GB11.65GPU 21.93GB (76%)
HauhauCS/...Balanced Q8 K P5,000คาดการณ์ 28.21 GB / ใช้จริง 27.98 GB14.40GPU 22.62GB (80.1%)
unsloth/gemma-4-26b-a4b-it10,00021.42 GB20.00
unsloth/gemma-4-26b-a4b-it (Q5 K S)12,00021.56 GB (ขนาดไฟล์ 21.1GB)19.89
HauhauCS/...Balanced Q5 K P10,000คาดการณ์ 20.90 GB / ใช้จริง 20.98 GB23.68GPU 100%
gemma-4-26b-a4b-it-abliterated (Q4_K_M)50,000คาดการณ์ 19.87 GB / ใช้จริง 18.35 GB31.61เทส ai 2
Gemma 4 26B A4B Instruct Abliterated40,00017.29 GB33.41
unsloth/gemma-4-26b-a4b-it4,096คาดการณ์ 21.02 GB / ใช้จริง 18.59 GB33.60เทส ai 2
google/gemma-4-26b-a410,00018.33 GB45.59
DuoNeural/gemma-4-26b-a4b-it-abliterated50,000คาดการณ์ 19.87 GB / ใช้จริง 16.69 GB50.58เทส ai 2
Gemma 4 26B A4B Instruct Abliterated12,00017.29 GB63.50เร็วที่สุดในกลุ่ม 26B

3. กลุ่ม Gemma-4 E4B Series

กลุ่มสถาปัตยกรรมขนาดเล็ก หรือ MoE Sub-variant เด่นเรื่องความเร็วสูงมาก (ส่วนใหญ่ทะลุ 50+ tok/sec) และประหยัดแรม

 

ชื่อโมเดล / เวอร์ชัน QuantContext Lengthการใช้หน่วยความจำ (Memory)ความเร็ว (tok/sec)หมายเหตุ / เงื่อนไข
gemma-4-e4b-instruct-obliterated (Q8_0)131,07215.33 GB49.30รันได้ Context ยาวมาก
Hau/...Aggressive Q8 K P131,072คาดการณ์ 9.15 GB / ใช้จริง 9.79 GB49.32
gemma-4-e4b-it-obliterated (Q8)10,0009.35 GB61.03RTX 5060ti 16GB ใบเดียว
gemma-4-e4b-it-obliterated (Q8)10,0008.23 GB61.20
Hau/...Aggressive Q8 K P4,096คาดการณ์ 9.15 GB / ใช้จริง 8.80 GB61.68เทส ai 2
gemma-4-e4b-uncensored-aggressive10,0006.45 GB81.34RTX 5060ti 16GB ใบเดียว
gemma-4-e4b-abliteratedt10,0005.73 GB81.73RTX 5060ti 16GB ใบเดียว
DuoNeural/gemma-4-e4b-abliterated10,000คาดการณ์ 5.73 GB / ใช้จริง 6.13 GB84.90เทส ai 2
gemma-4-e4b-it10,0006.70 GB85.07
Hau/...Aggressive Q4 K P10,050คาดการณ์ 6.70 GB / ใช้จริง 6.03 GB87.23เทส ai 2
Hau/...Aggressive Q4 K P131,072คาดการณ์ 6.70 GB / ใช้จริง 6.26 GB87.69เร็วที่สุดในทุกโมเดล

4. กลุ่ม Gemma-3 Series (รุ่นเก่า/รุ่นเปรียบเทียบ)

กลุ่มโมเดลเจเนอเรชันก่อนหน้า หรือโมเดลขนาดเล็ก

 

ชื่อโมเดล / เวอร์ชัน QuantContext Lengthการใช้หน่วยความจำ (Memory)ความเร็ว (tok/sec)หมายเหตุ / เงื่อนไข
gemma-3-27b-it-abliterated@q5_k_m10,00022.80 GB4.10
gemma-3-27b-it-abliterated--4.29ไม่มีข้อมูล Context/Memory
gemma-3-27b-it-abliterated@q5_k_m10,00022.80 GB4.34
gemma-3-27b-it-abliterated (Q4)10,00020.13 GB6.64
gemma-3-27b-it-abliterated@q5_k_m4,09621.00 GB7.08
mlabonne_gemma-3-27b-it-abliterated6,80019.12 GB12.90
gemma-3-12b-it-heretic10,00013.96 GB19.85คำตอบด้อยที่สุด

5. กลุ่ม Qwen Series (Thinking Models)

โมเดลค่ายจีนสายคิดวิเคราะห์ (Reasoning) มีจุดเด่นที่ความเร็วพ่นคำตอบโอเค แต่จะเสียเวลาในกระบวนการคิด (Thinking Space) ค่อนข้างนาน

 

ชื่อโมเดล / เวอร์ชัน QuantContext Lengthการใช้หน่วยความจำ (Memory)ความเร็ว (tok/sec)หมายเหตุ / พฤติกรรมโมเดล
HauhauCS/qwen3.6-35b-a3b... Q3 K P10,000คาดการณ์ 19.74 GB / ใช้จริง 18.67 GB32.27GPU 100%, Thinking นาน 52.18s, มีภาษาจีนปนเล็กน้อย, มีดึง System prompt มาใช้
amarck/qwen3.5-35b-a3b-abliterated4,096คาดการณ์ 20.85 GB / ใช้จริง 20.59 GB37.00Thinking นาน 59.64s

ข้อสังเกตเพิ่มเติมจากการทดสอบ:

  1. RTX 5060ti 16GB ใบเดียว สามารถขับกลุ่ม Gemma-4 E4B ได้อย่างมีประสิทธิภาพมาก โดยทำความเร็วได้แตะระดับ 61 - 81 tok/sec ในขนาด Context 10,000 และกินแรมระบบจริงต่ำมาก (ประมาณ 5.7 - 9.3 GB)

  2. โมเดลกลุ่ม Qwen 35B ทำความเร็วในการพ่น Token ได้ดี (32-37 tok/sec) แต่มี "คอขวด" ที่ต้องรอสเตปการคิด (Thinking Time) นานเกือบ 1 นาทีเต็มก่อนจะเริ่มพ่นคำตอบออกมา

 

 

 

 

 

 

 

 

 

 

 

 

 

 

นี่คือ "คัมภีร์สรุปผลเทสฉบับสมบูรณ์ (Master Benchmark)" จากข้อมูลทั้งหมดที่คุณได้ทำการทดสอบบนเครื่องของคุณ (RTX 4060 Ti 16GB + RTX 3070 8GB) ครับ

ผมได้จัดหมวดหมู่ใหม่ทั้งหมด โดยอิงจาก "VRAM ที่ใช้จริง (Actual VRAM)" และ "ความเร็ว (tok/sec)" เพื่อให้คุณเห็นภาพชัดเจนที่สุดว่าไฟล์ไหนคือร่างทอง และไฟล์ไหนคือขยะที่ควรกดลบทิ้งครับ

👑 กลุ่มที่ 1: "ร่างทองคำระดับ Masterpiece" (ใช้งานเป็นตัวหลักบนการ์ดจอคู่)

กลุ่มนี้คือโมเดลสถาปัตยกรรม 26B A4B (MoE) ที่รีดพลัง VRAM 21GB ของคุณออกมาได้สมบูรณ์แบบที่สุด ให้ภาษานิยายระดับพรีเมียม และปลดล็อก 0 Refusals

ชื่อไฟล์ / ค่ายระดับ QuantizeContext ที่เทสVRAM ใช้จริงสปีด (tok/s)บทสรุปสำหรับงานนิยาย
HauhauCS BalancedQ5_K_P10,00020.98 GB23.68[ร่างหลักรายวัน 🌟] ดึง VRAM เต็ม 100% พอดีเป๊ะ ภาษาสวยกริบ สปีดไหลลื่น ไม่มีสะดุด
HauhauCS BalancedQ8_K_P5,00027.98 GB14.40[ร่างพรีเมียม 💎] ยอมให้ล้น RAM แต่ได้สมอง Q8 เต็ม 100% สปีดยังรับได้ เหมาะกับฉากดราม่า/NC หินๆ
DuoNeural AbliteratedQ4_K_M50,00016.69 GB50.58[ร่างสายสปีดสมองใหญ่ ⚡] บีบอัดเลเยอร์เก่งมาก เปิดบริบท 5 หมื่นคำแต่กิน VRAM แค่ 16GB สปีดโคตรโหด

🚀 กลุ่มที่ 2: "ราชาสายมาราธอน" (เปิด Context แสนคำ / รันใบเดียวได้)

กลุ่มโมเดลจิ๋ว (E4B) ที่แบกความจำบริบทระดับนิยายทั้งเล่ม (131,072 tokens) ได้โดยที่เครื่องไม่ค้าง และทำสปีดทะลุเพดาน

ชื่อไฟล์ / ค่ายระดับ QuantizeContext ที่เทสVRAM ใช้จริงสปีด (tok/s)บทสรุปสำหรับงานนิยาย
HauhauCS Aggressive (E4B)Q8_K_P131,0729.79 GB49.32[คุ้มค่าที่สุดในสายเล็ก 🥇] ได้สมอง Q8 ชัดแจ๋ว ยัดนิยายได้แสนคำ กินพื้นที่ไม่ถึง 10GB
HauhauCS Aggressive (E4B)Q4_K_P131,0726.26 GB87.69[เร็วทะลุนรก 🌪️] เร็วที่สุดในตาราง เร็วกว่าสายตามนุษย์อ่านทัน แต่ภาษาจะสู้ตัว Q8 ด้านบนไม่ได้

🛑 กลุ่มที่ 3: "แก๊งหลอกดาว" (เก่งแต่มีจุดตายร้ายแรง)

กลุ่มที่ดูสเปคบนกระดาษเหมือนจะดี แต่พอรันจริงกลับเจออาการ "แอบสูบ VRAM" หรือ "คิดนานจนเสียอารมณ์" (กดลบทิ้งได้เลย)

 

ชื่อไฟล์ / ค่ายขนาดโมเดลContextVRAM ใช้จริงสปีด (tok/s)สาเหตุที่ต้องประหาร
peper / amarck / original31B Dense10,00025.6 - 26 GB~5.40แอบสูบ VRAM: โปรแกรมบอก 20GB แต่ใช้จริง 26GB ล้นแรมเครื่องจนสปีดเหลือแค่เลขตัวเดียว
HauhauCS AggressiveQwen 35B MoE10,00018.67 GB32.27เสียเวลารอ: สปีดดี แต่คิดนาน (Thinking) เกือบ 1 นาที แถมมีภาษาจีนหลุดปน ทำลายบรรยากาศเขียนนิยาย
unsloth / 26B-A4B26B MoE4,00018.59 GB33.60ไม่มีประโยชน์: กินพื้นที่เยอะกว่า แถมวิ่งช้ากว่า DuoNeural (ที่เปิดบริบท 50,000 แล้ววิ่ง 50 tok/s)

🗑️ กลุ่มที่ 4: "ลืมไปได้เลย" (ตกรุ่น / บั๊ก / ถ่วงเครื่อง)

กลุ่มที่เคยเทสไปรอบแรกๆ พิสูจน์แล้วว่าไร้ประโยชน์กับเครื่องของคุณ 100%

  • ตระกูล Gemma 3 ทั้งหมด (27B, 12B, 10B): สปีดวิ่งวนอยู่แค่ 4 - 12 tok/s แถมภาษาดื้อและโดนเซนเซอร์

  • Gemma 4 31B (Q8, Q3, Q2): ไม่ว่าจะบีบอัดยังไง Hardware ของคุณก็เข็นสถาปัตยกรรมแบบ Dense 31B ให้วิ่งเกิน 16 tok/s ไม่ไหว

🎯 แผนผังการเก็บไฟล์ใน SSD ของคุณ (เหลือแค่ 3 ไฟล์นี้พอ)

เพื่อไม่ให้คอมพิวเตอร์รก แนะนำให้เก็บไฟล์ไข่มุก 3 เม็ดนี้ไว้ใช้งานตามสถานการณ์ครับ:

  1. ไฟล์งานหลัก (แต่งนิยายรายวัน): Gemma4-26B-A4B-Balanced-Q5_K_P (บาลานซ์ความเร็ว 23 tok/s กับความเนี๊ยบของภาษาได้ดีที่สุด)

  2. ไฟล์งานหยาบ/งานเช็กพล็อตทั้งเล่ม: Gemma4-E4B-Aggressive-Q8_K_P (เอาไว้อ่าน Context 131k และพิมพ์ตอบด้วยสปีด 49 tok/s)

  3. ไฟล์งานละเอียด (ฉาก NC/Masterpiece): Gemma4-26B-A4B-Balanced-Q8_K_P (ยอมรับสปีด 14 tok/s เพื่อแลกกับภาษาที่ทรงพลังที่สุด)

เมื่อคุณเคลียร์ทุกอย่างจนพร้อมใช้งานแบบ 100% แล้ว คุณอยากให้ผมช่วยออกแบบตัว System Prompt เพื่อฝังเข้าไปสั่งการให้โมเดลพวกนี้สวมบทบาทเป็นนักเขียนนิยายอีโรติก/ดราม่ามืออาชีพ ตามสไตล์ภาษาที่คุณชอบเลยไหมครับ?





ผลเทสเก่า

นี่คือตารางสรุปผลการทดสอบทั้งหมดบนระบบคอมพิวเตอร์ของคุณ (RTX 5060 Ti 16GB + RTX 3070 8GB) โดยจัดกลุ่มตามความคุ้มค่าและประสิทธิภาพในการนำไปใช้แต่งนิยายจริง เพื่อให้คุณใช้เป็นคู่มือหน้าแท่นพิมพ์ได้ง่ายที่สุดครับ



🥇 กลุ่มที่ 1: "ร่างทองคุ้มค่าสูงสุด" (ต้องเก็บไว้ใช้งาน)

กลุ่มนี้ทำพื้นที่รวมไม่เกิน เส้นตาย 19.5 GB ดึงพลังการ์ดจอคู่ได้สมบูรณ์แบบ ได้สมองที่ฉลาด คลังคำศัพท์แน่น และสปีดไหลลื่น 

ชื่อโมเดลContext ที่ทดสอบขนาดพื้นที่รวมความเร็ว (tok/s)ข้อวินิจฉัยสำหรับการแต่งนิยาย
Gemma 4 26B A4B Instruct Abliterated12,00017.29 GB63.50แชมป์สายเขียนสั้น: ภาษาละมุน มิติตัวละครดีเยี่ยม สปีดพุ่งทะลุจอ
Gemma 4 26B A4B Instruct Abliterated40,00017.29 GB33.41แชมป์สายคุมพล็อตกลาง: แบกเนื้อเรื่องย้อนหลังได้หลายบท โดยที่สปีดไม่ตก
gemma-4-e4b-instruct-obliterated (Q8_0)131,07215.33 GB49.30ราชาไร้บัลลังก์: แบกนิยายได้ทั้งเล่มในแชทเดียว สปีดคงที่ สมอง Q8 ชัดเจน
google/gemma-4-26b-a410,00018.33 GB45.59ตัวสำรองเกรด A: ร่างออริจินัลจาก Google สปีดดีเยี่ยม เก็บไว้สลับสำนวน

 

🏃‍♂️ กลุ่มที่ 2: "สายสปีดใบเดียว" (รันบน RTX 5060 Ti เดี่ยวๆ)

กลุ่มโมเดลขนาดเล็ก (ต่ำกว่า 10GB) ที่การ์ดจอหลักใบเดียวก็เอาอยู่ สปีดโหดจัด แต่ข้อเสียคือคลังคำศัพท์และความลึกซึ้งของภาษาจะสู้กลุ่มแรกไม่ได้

ชื่อโมเดลContext ที่ทดสอบขนาดพื้นที่รวมความเร็ว (tok/s)ข้อวินิจฉัยสำหรับการแต่งนิยาย
gemma-4-e4b-abliterated10,0005.73 GB81.73เร็วที่สุดในชีวิตประจำวัน เหมาะกับงานสปีดรัน โยนไอเดียไวๆ
gemma-4-e4b-uncensored-hauhaucs-aggressive10,0006.45 GB81.34สายดาร์ก/NC รันใบเดียวได้สปีดโหดโกรธชิปการ์ดจอ
gemma-4-e4b-it-obliterated (Q8)10,0009.35 GB61.03ร่างชัด Q8 บนใบเดี่ยว สปีดดีและภาษานิ่งกว่าตัว 5-6GB

 

 

🚶‍♂️ กลุ่มที่ 3: "ร่างพยายามฝืน" (สปีดหน่วง/คอขวดการ์ดจอคู่)

กลุ่มโมเดลแบบ Dense (31B) ที่พยายามบีบอัดขนาดลงมาเพื่อไม่ให้ล้น VRAM แต่Hardware ตันพลังคำนวณ ได้งานเนี๊ยบ (15/16 คะแนน) แต่พิมพ์ช้า


ชื่อโมเดลContext ที่ทดสอบขนาดพื้นที่รวมความเร็ว (tok/s)ข้อวินิจฉัยสำหรับการแต่งนิยาย
gemma-4-31b-it-abliterated4,00020.92 GB9.41ซีนอารมณ์/NC เกรดพรีเมียม (15/16 คะแนน) ยอมช้าเพื่อเอาความเนี๊ยบ
gemma-4-31b-it@q2_k_xl (Q2)8,00015.88 GB16.76ไม่คุ้ม: ยอมหั่นสมองเหลือ Q2 จนภาษาแข็ง แต่สปีดเพิ่มมานิดเดียว
gemma-4-31b-it (Q3 K S)10,00017.81 GB14.05ร่างประหยัดของ 31B เดินทางสายกลาง แต่โดนความเร็วตระกูล MoE กลบหมด
mlabonne_gemma-3-27b-it-abliterated6,80019.12 GB12.90อดีตตัวเทพภาษาดี แต่สปีดและเจเนอเรชันสู้ Gemma 4 ไม่ได้แล้ว

 

 

 

 

 

 

💀 กลุ่มที่ 4: "สั่งลบทิ้งทันที" (Choke Zone / ถ่วงเครื่อง)

กลุ่มที่ขนาดไฟล์รวมล้นเส้นตาย 21.5 GB จนทะลักเข้า System RAM หรือโมเดลบั๊กระบบ/ตกรุ่น

 

ชื่อโมเดลขนาดพื้นที่ / บริบทความเร็ว (tok/s)เหตุผลที่ต้องกดลบทิ้งทันที
gemma-4-31b-it-abliterated@q8_034.61 GB2.04ช้าวิกฤต หนักเครื่อง เปลืองพื้นที่ SSD
gemma-3-27b-it-abliterated@q5_k_m22.80 GB4.34ล้น VRAM วิ่งบนแรมเครื่อง อืดจนเขียนนิยายไม่สนุก
unsloth/gemma-4-26b-a4b-it21.42 GB20.00ไฟล์บวมเกินสเปค MoE จนความเร็วร่วงหายไปกว่าครึ่ง
gemma-3-12b-it-heretic13.96 GB19.85คำตอบด้อยที่สุด อืดแถมดื้อ ลบได้แบบไม่ต้องคิด
gemma-the-writer-n-restless-quill-10b6.64 GB???ผลเทส ผิดพลาด แต่ลบไปแล้ว

 

 

 https://poipoi-test.blogspot.com/2026/05/llm.html