26. Unicode 在 ES6 中

本章說明 ECMAScript 6 帶來的 Unicode 支援改進。如要了解 Unicode 的一般介紹，請閱讀「Speaking JavaScript」中的第 24 章「Unicode 和 JavaScript」。

26.1. ES6 中的 Unicode 支援更佳
26.2. ES6 中的跳脫序列
- 26.2.1. 跳脫序列可以在哪裡使用？
- 26.2.2. ES6 規範中的跳脫序列

26.1 ES6 中的 Unicode 支援更佳

ECMAScript 6 在三個領域改進了對 Unicode 的支援

超過 16 位元的碼位 Unicode 跳脫：\u{···}
可用於識別碼、字串文字、範本文字和正規表示式文字。它們在下一節中說明。
字串:
- 反覆運算會考量 Unicode 碼位。
- 透過 String.prototype.codePointAt() 讀取碼位值。
- 透過 String.fromCodePoint() 從碼位值建立字串。
正規表示式:
- 新的旗標 /u（加上布林屬性 unicode）改善了代理對的處理。

此外，ES6 基於 Unicode 版本 5.1.0，而 ES5 基於 Unicode 版本 3.0。

26.2 ES6 中的跳脫序列

JavaScript 中有三個參數化跳脫序列，用於表示字元

十六進位跳脫（剛好兩個十六進位數字）：\xHH
```
  > '\x7A' === 'z'
  true
```
Unicode 跳脫（剛好四個十六進位數字）：\uHHHH
```
  > '\u007A' === 'z'
  true
```
Unicode 碼位跳脫（1 個或更多十六進位數字）：\u{···}
```
  > '\u{7A}' === 'z'
  true
```

Unicode 碼位跳脫在 ES6 中是新的。它們讓您可以指定超過 16 位元的碼位。如果您要在 ECMAScript 5 中執行此操作，您必須將每個碼位編碼為兩個 UTF-16 碼元（「代理對」）。這些碼元可以用 Unicode 跳脫表示。例如，下列陳述式會將火箭（碼位 0x1F680）記錄到大多數主控台

console.log('\uD83D\uDE80');

使用 Unicode 碼點跳脫字元，你可以直接指定大於 16 位元的碼點

console.log('\u{1F680}');

26.2.1 跳脫序列可以在哪裡使用？

跳脫序列可以在下列位置使用

	`\uHHHH`	`\u{···}`	`\xHH`
識別碼	✔	✔
字串文字	✔	✔	✔
範本文字	✔	✔	✔
正規表示式文字	✔	僅限於旗標 `/u`	✔

識別碼

4 位元組的 Unicode 跳脫字元 \uHHHH 會變成單一碼點。
Unicode 碼點跳脫字元 \u{···} 會變成單一碼點。

> const hello = 123;
> hell\u{6F}
123

字串文字

字串會以 UTF-16 碼元儲存在內部。
16 進位跳脫字元 \xHH 會產生一個 UTF-16 碼元。
4 位元組的 Unicode 跳脫字元 \uHHHH 會產生一個 UTF-16 碼元。
Unicode 碼點跳脫字元 \u{···} 會產生其碼點的 UTF-16 編碼（一個或兩個 UTF-16 碼元）。

範本文字

在範本文字中，跳脫序列的處理方式與在字串文字中相同。
在標記範本中，跳脫序列的解譯方式取決於標記函數。它可以在兩種解譯方式中選擇
- 已煮熟：跳脫序列的處理方式與在字串文字中相同。
- 生：跳脫序列被視為一連串字元處理。

> `hell\u{6F}` // cooked
'hello'
> String.raw`hell\u{6F}` // raw
'hell\\u{6F}'

正規表示式

僅當旗標 /u 已設定時，Unicode 碼點跳脫字元才被允許，因為 \u{3} 會被解譯為字元 u 三次，否則
```
  > /^\u{3}$/.test('uuu')
  true
```

26.2.2 ES6 規範中的跳脫序列

各種資訊

規範將原始碼視為一連串 Unicode 碼點：「原始碼」
識別碼中的 Unicode 跳脫序列序列：「名稱和關鍵字」
字串會以 UTF-16 碼元序列儲存在內部：「字串文字」
字串 – 各種跳脫序列如何轉換為 UTF-16 碼元：「靜態語意：SV」
範本文字 – 各種跳脫序列如何轉換為 UTF-16 碼元：「靜態語意：TV 和 TRV」

26.2.2.1 正規表示式

規範區分 BMP 模式（未設定旗標 /u）和 Unicode 模式（已設定旗標 /u）。章節「模式語意」說明它們的處理方式不同，以及如何處理。

作為提醒，以下是語法規則在規範中參數化的方式

如果文法規則 R 有下標 [U]，表示它有兩個版本：R 和 R_U。
規則的部分可以透過 [?U] 傳遞下標。
如果規則的一部分有前綴 [+U]，它只有在下標 [U] 存在時才會存在。
如果規則的一部分有前綴 [~U]，它只有在下標 [U] 不存在時才會存在。

您可以在「模式」章節中看到此參數化的實際應用，其中下標 [U] 為 BMP 模式和 Unicode 模式建立了不同的文法。

IdentityEscape：在 BMP 模式中，許多字元可以加上反斜線作為前綴，並解釋為它們自己（例如：如果 \u 後面沒有四個十六進位數字，它會被解釋為 u）。在 Unicode 模式中，這只對下列字元有效（這讓 \u 可以用於 Unicode 碼點跳脫）：^ $ \ . * + ? ( ) [ ] { } |
RegExpUnicodeEscapeSequence："\u{" HexDigits "}" 只允許在 Unicode 模式中。在這些模式中，前導和後隨代理也會被分組，以協助 UTF-16 解碼。

「字元跳脫」章節說明了各種跳脫序列如何轉換為字元（大致上：碼單元或碼點）。

下一篇：27. 尾呼叫最佳化