关于计算机中Endian(big-edian和little-endian)存储机制的由来、特点和区别

有人问起Endian是什么,告诉他就是计算机中是“大尾”还是“小尾”, Little-Endian,就是我们在学习汇编时候的高高低低原则,而Bit-Endian就是刚刚相反,Little-Endian主要用在我们现在的PC的CPU中,Big-Endian则应用在目前的Mac机器中(注意:是指Power系列 处理器)……费了一些口舌,依旧一幅茫然的样子……于是放弃,Google了一下,找到下面这篇论文,原先作者已经无从考究了,那位知道的话还请麻烦告知。说起来Endian除了在一些底层内核模块中,一般开发中倒也用不到(当然,对于搜索引擎核心模块,这是不得不考虑的)。
先看下面这段小故事,可以帮助我们理解Endian:

“endian”这个词出自《格列佛游记》。小人国的内战就源于吃鸡蛋时是究竟从大头(Big-Endian)敲开还是从小头(Little-Endian)敲开,由此曾发生过六次叛乱,其中一个皇帝送了命,另一个丢了王位。
我们一般将endian翻译成“字节序”,将big endian和little endian称作“大尾”和“小尾”。


下面是关于Endian文章的引用:
一、引子
  在各种计算机体系结构中,对于字节、字等的存储机制有所不同,因而引发了
计算机通信领域中一个很重要的问题,即通信双方交流的信息单元(比特、字节、
字、双字等等)应该以什么样的顺序进行传送。如果不达成一致的规则,通信双方
将无法进行正确的编/译码从而导致通信失败。目前在各种体系的计算机中通常采
用的字节存储机制主要有两种:
big-edian和little-endian。本文简要描述这两种存储机制的来历、特点和区别。
  
  为了叙述方便,下面先对本文中将要用到的两个术语做简单的定义。
  1、MSB
  MSB是Most Significant Bit/Byte的首字母缩写,通常译为最重要的位或者最
重要的字节。它通常用来表明在一个bit序列(如一个byte是8个bit组成的一个序
列)或者一个byte序列(如word是两个byte组成的一个序列)中对整个序列取值影
响最大的那个bit/byte。
  2、LSB
  LSB是Least Significant Bit/Byte的首字母缩写,通常译为最不重要的位或
者最不重要的字节。它通常用来表明在一个bit序列(如一个byte是8个bit组成的
一个序列)或者一个byte序列(如word是两个byte组成的一个序列)中对整个序
列取值影响最小的那个bit/byte。

二、endian的由来
  1、Definition
  endian: The ordering of bytes in a multi-byte number.
定义:在计算机系统体系结构中用来描述在多字节数中各个字节的存储顺序。

  2、Etymology
  The term comes from Swift’s “Gulliver’s Travels” via the famous paper
“On Holy Wars and a Plea for Peace” by Danny Cohen, USC/ISI IEN 137,
1980-04-01.
  The Lilliputians, being very small, had correspondingly small political
problems. The Big-Endian and Little-Endian parties debated over whether
soft-boiled eggs should be opened at the big end or the little end.[From:
Free On-Line Dictionary Of Computing or Jargon File]
  词源:据Jargon File记载,endian这个词来源于Jonathan
Swift在1726年写的讽刺小说 “Gulliver’s Travels”(《格利佛游记》)。该小说
在描述Gulliver畅游小人国时碰到了如下的一个场景。在小人国里的小人因为非常
小(身高6英寸)所以总是碰到一些意想不到的问题。有一次因为对水煮蛋该从大的
一端(Big-End)剥开还是小的一端(Little-End)剥开的争论而引发了一场战争,
并形成了两支截然对立的队伍:支持从Big-End剥开的人Swift就称作Big-Endians
而支持从Little-End剥开的人就称作Little-Endians……(后缀ian表明的就是支持
某种观点的人:-)。Endian这个词由此而来。
  
  1980年,Danny Cohen在其著名的论文”On Holy Wars and a Plea for Peace”
中为了平息一场关于在消息中字节该以什么样的顺序进行传送的争论而引用了该词。
该文中,Cohen非常形象贴切地把支持从一个消息序列的MSB开始传送的那伙人叫做
Big-Endians,支持从LSB开始传送的相对应地叫做Little-Endians。此后Endian这
个词便随着这篇论文而被广为采用。

三、各种endian
  1、big-endian
  A computer architecture in which, within a given multi-byte numeric
representation, the most significant byte has the lowest address (the
word is stored “big-end-first”).  
Most processors, including the IBM 370 family, the PDP-10, the
Motorola microprocessor families, and most of the various RISC designs
current in mid-1993, are big-endian. [From: Free On-Line Dictionary Of
Computing or Jargon File]
  big-endian:计算机体系结构中一种描述多字节存储顺序的术语,在这种机制
中最重要字节(MSB)存放在最低端的地址上。采用这种机制的处理器有IBM3700系
列、PDP-10、Mortolora微处理器系列和绝大多数的RISC处理器。

+———-+
| 0x34 |<-- 0x00000021 +----------+ | 0x12 |<-- 0x00000020 +----------+ 图1:双字节数0x1234以big-endian的方式存在起始地址0x00000020中   在Big-Endian中,对于bit序列中的序号编排方式如下(以双字节数0x8B8A为 例): bit 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 +----------------------------------------+ val | 1 0 0 0 1 0 1 1 | 1 0 0 0 1 0 1 0 | +----------------------------------------+ ^ 0x8B 0x8A ^ MSB LSB 图2:Big-Endian的bit序列编码方式   注1:通常在TCP/IP协议栈所说的网络序(Network Order)就是遵循Big-Endian 规则。在TCP/IP网络通信中,通信双方把消息按照如图2的方式进行编码,然后按 从MSB(Bit0)到LSB的顺序在网络上传送。   2、little-endian    A computer architecture in which, within a given 16- or 32-bit word,bytes at lower addresses have lower significance (the word is stored "little-end-first"). The PDP-11 and VAX families of computers and Intel microprocessors and a lot of communications and networking hardware are little-endian.   The term is sometimes used to describe the ordering of units other than bytes; most often, bits within a byte. [From: Free On-Line Dictionary Of Computing or Jargon File]   little-endian:计算机体系结构中一种描述多字节存储顺序的术语,在这种机 制中最不重要字节(LSB)存放在最低端的地址上。采用这种机制的处理器有PDP-11、 VAX、Intel系列微处理器和一些网络通信设备。该术语除了描述多字节存储顺序外 还常常用来描述一个字节中各个比特的排放次序。 +----------+ | 0x12 |<-- 0x00000021 +----------+ | 0x34 |<-- 0x00000020 +----------+   图3:双字节数0x1234以little-endian的方式存在起始地址0x00000020中   在Little-Endian中,对于bit序列中的序号编排和Big-Endian刚好相反,其方 式如下(以双字节数0x8B8A为例): bit 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 +-----------------------------------------+ val | 1 0 0 0 1 0 1 1 | 1 0 0 0 1 0 1 0 | +-----------------------------------------+ ^ 0x8B 0x8A ^ MSB LSB 图4:Little-Endian的bit序列编码方式   注2:通常我们说的主机序(Host Order)就是遵循Little-Endian规则。所以 当两台主机之间要通过TCP/IP协议进行通信的时候就需要调用相应的函数进行主机 序(Little-Endian)和网络序(Big-Endian)的转换。 注3:正因为这两种机制对于同一bit序列的序号编排方式恰恰相反,所以《现 代英汉词典》中对MSB的翻译为“最高有效位”欠妥,故本文定义为“最重要的bit /byte”。   3、middle-endian:    Neither big-endian nor little-endian. Used of perverse byte orders such as 3-4-1-2 or 2-1-4-3, occasionally found in the packed decimal formats of some minicomputer manufacturers.[From: Free On-Line Dictionary Of Computing or Jargon File]   middle-endian:除了big-endian和little-endian之外的多字节存储顺序就是 middle-endian,比如以4个字节为例:象以3-4-1-2或者2-1-4-3这样的顺序存储的 就是middle-endian。这种存储顺序偶尔会在一些小型机体系中的十进制数的压缩格 式中出现。 四、收尾   要详细解释这两种编码顺序已经超出本文所涉及的内容,如果你有兴趣的话可 以参考上面提及的Danny Cohen的论文("On Holy Wars and a Plea for Peace"), 该论文详细的描述了这两种编码顺序的历史、所基于的数学理论和各自拥护者争论 的焦点等知识,绝对可以大饱你打破沙锅问到底的内心需要。 五、References & WebLinks 1. Free On-Line Dictionary Of Computing [http://foldoc.doc.ic.ac.uk/foldoc/index.html] 2. Jargon File [http://info.astrian.net/jargon/] 3. Gulliver's Travels《格利佛游记》 [http://www.jaffebros.com/lee/gulliver/] 4. On Holy Wars and a Plea for Peace [http://khavrinen.lcs.mit.edu/wollman/ien-137.txt]

3 thoughts on “关于计算机中Endian(big-edian和little-endian)存储机制的由来、特点和区别”

  1. 处理用bytearray加载进来的文件的时候会用得到
    比如,用flash 来解析swf文件的话
    swf加载进一个ByteArray对象中,然后再按字节处理
    阅读swf format,可以发现前几个字节可能是按Big-Endian的顺序读,后几个可能是按Small-Endian的顺序读

Leave a Reply

Your email address will not be published. Required fields are marked *