BOM — Unicode歷史沙石(之一) - I.T. 9 遊戲日誌
文章推薦指數: 80 %
如果以2個byte嘅Little Endian編碼方式去將Unicode文字去編碼的話,呢種方法就叫UTF-16LE。
如果用咗Big Endian就叫UTF-16BE。
當然,現實上中其實仲有第三種叫UTF-8可能 ...
GetunlimitedaccessOpeninappHomeNotificationsListsStoriesWriteBOM—Unicode歷史沙石(之一)Unicode雖然係電腦界中一大好偉大嘅發明,但一個咁大型嘅project、加上人類語言本身嘅複雜性,少不免到後期先發現有一啲設計原來係幾咁憨居,但卻已經成為歷史嘅一部份。
其中一個就係ByteOrderMark,而呢隻冤魂野鬼大概仲會纏繞多十幾廿年…Unicode編碼的兩(或三)大陣型眾所周知,電腦係以一個byte作為最細嘅定址單位,如同一般人用十進制做運算嘅話,一個數字可以表達0–9共10種可能。
時至今日,基本上1byte都等於8bit,幾乎冇例外,8bit可以表示到2⁸即256種意思。
所以對電腦來講,一個位就係0–255而唔係0–9。
MorefromI.T.9遊戲日誌Follow「IT9,你的資訊真的很有用」你好我就係IT9TrustmeIamIT9//fb@it9gamelog,youtube@it9gamelogLovepodcastsoraudiobooks?Learnonthegowithournewapp.TryKnowableAboutHelpTermsPrivacyGettheMediumappGetstartedI.T.9遊戲日誌793Followers「IT9,你的資訊真的很有用」你好我就係IT9TrustmeIamIT9//fb@it9gamelog,youtube@it9gamelogFollowHelpStatusWritersBlogCareersPrivacyTermsAboutKnowable
延伸文章資訊
- 1位元組順序記號 - 维基百科
位元組順序記號(英語:byte-order mark,BOM)是位於碼點 U+FEFF 的統一碼字符的名称。當以UTF-16或UTF-32來將UCS/統一碼字符所組成的字串編碼時,這個字符被用來...
- 2BOM — Unicode歷史沙石(之一) - I.T. 9 遊戲日誌
如果以2個byte嘅Little Endian編碼方式去將Unicode文字去編碼的話,呢種方法就叫UTF-16LE。如果用咗Big Endian就叫UTF-16BE。當然,現實上中其實仲有第三...
- 3[Charset]UTF-8, UTF-16, UTF-16LE, UTF-16BE的區別 - 程式人生
如果這個UTF-16檔案裡帶有BOM的話, charset就用"UTF-16", java會自動根據BOM判斷LE還是BE, 如果你在這裡指定了"UTF-16LE"或"UTF-16BE"的話, ...
- 4FAQ - UTF-8, UTF-16, UTF-32 & BOM - Unicode
Where the data has an associated type, such as a field in a database, a BOM is unnecessary. In pa...
- 5How do I encode/decode UTF-16LE byte arrays with a BOM?
The "UTF-16" charset name will always encode with a BOM and will decode data using either big/lit...