UTF-8
UTF-8 (Unicode Transformation Format 8-bit)
वेब के लिए प्रमुख कैरेक्टर एन्कोडिंग, जो ASCII के साथ बैकवर्ड-कम्पैटिबल रहते हुए प्रति कैरेक्टर एक से चार बाइट का उपयोग करके Unicode मानक के प्रत्येक कैरेक्टर का प्रतिनिधित्व करने में सक्षम।
तकनीकी विवरण
UTF-8 एक वेरिएबल-विड्थ एन्कोडिंग है: ASCII कैरेक्टर (U+0000 से U+007F) एक बाइट का उपयोग करते हैं जो उनके ASCII मानों के समान होते हैं, जिससे कोई भी ASCII टेक्स्ट वैध UTF-8 बन जाता है। दो बाइट लैटिन, ग्रीक, सिरिलिक और अरबी (U+0080-U+07FF) को कवर करते हैं, तीन बाइट अधिकांश CJK कैरेक्टर (U+0800-U+FFFF) को कवर करते हैं, और चार बाइट इमोजी और दुर्लभ स्क्रिप्ट (U+10000-U+10FFFF) को संभालते हैं। 98% से अधिक वेब पेज UTF-8 का उपयोग करते हैं। BOM (Byte Order Mark, EF BB BF) वैकल्पिक है और Windows संदर्भों के अलावा आमतौर पर हतोत्साहित किया जाता है।
उदाहरण
```javascript
// UTF-8: file processing example
const file = document.getElementById('fileInput').files[0];
const reader = new FileReader();
reader.onload = (e) => {
const data = e.target.result;
console.log(`Loaded: ${file.name} (${file.size} bytes)`);
};
reader.readAsArrayBuffer(file);
```