🍋
Menu
General

UTF-8

UTF-8 (Unicode Transformation Format 8-bit)

การเข้ารหัสอักขระหลักสำหรับเว็บ สามารถแทนทุกอักขระในมาตรฐาน Unicode โดยใช้หนึ่งถึงสี่ไบต์ต่ออักขระ ขณะที่ยังคงเข้ากันได้กับ ASCII

รายละเอียดทางเทคนิค

UTF-8 เป็นการเข้ารหัสที่มีความกว้างแปรผัน: อักขระ ASCII (U+0000 ถึง U+007F) ใช้หนึ่งไบต์ที่เหมือนกับค่า ASCII ทำให้ข้อความ ASCII ใดๆ เป็น UTF-8 ที่ถูกต้อง สองไบต์ครอบคลุมภาษาละติน กรีก ซีริลลิก และอาหรับ (U+0080-U+07FF) สามไบต์ครอบคลุมอักขระ CJK ส่วนใหญ่ (U+0800-U+FFFF) และสี่ไบต์รองรับอีโมจิและอักษรที่หายาก (U+10000-U+10FFFF) มากกว่า 98% ของหน้าเว็บใช้ UTF-8 BOM (Byte Order Mark, EF BB BF) เป็นตัวเลือกและโดยทั่วไปไม่แนะนำยกเว้นในบริบท Windows

ตัวอย่าง

```javascript
// UTF-8: file processing example
const file = document.getElementById('fileInput').files[0];
const reader = new FileReader();
reader.onload = (e) => {
  const data = e.target.result;
  console.log(`Loaded: ${file.name} (${file.size} bytes)`);
};
reader.readAsArrayBuffer(file);
```

คำศัพท์ที่เกี่ยวข้อง