文本档案

文本档案

文本档案是一种计算机档案,它是一种典型的顺序档案,其档案的逻辑结构又属于流式档案。

特别的是,文本档案是指以ASCII码方式(也称文本方式)存储的档案,更确切地说,英文、数字等字元存储的是ASCII码,而汉字存储的是机内码。文本档案中除了存储档案有效字元信息(包括能用ASCII码字元表示的回车、换行等信息)外,不能存储其他任何信息。

    • 中文名:文本档案
    • 外文名:textfile
    • 拼音:wén běn wén jiàn
    • 扩展名:txt、.doc.、.docx、.wps

简介

文本档案是一种由若干行字元构成的计算机档案。文本档案存在于计算机档案系统中。通常,通过在文本档案最后一行后放置档案结束标誌来指明档案的结束。

文本档案是指一种容器,而纯文本是指一种内容。文本档案可以包含纯文本。

一般来说,计算机档案可以分为两类:文本档案和二进制档案。

格式

ASCII

ASCII标準使得只含有ASCII字元的文本档案可以在Unix、Macintosh、Microsoft Windows、DOS和其它作业系统之间自由互动,而其它格式的档案是很难做到这一点的。但是,在这些作业系统中,换行符并不相同,处理非ASCII字元的方式也不一致。

档案

MIME

文本档案在MIME标準中的类型为“text/plain”,此外,它通常还附加编码的信息。在Mac OS X出现前,当Resource fork指定某一个档案的类型为“TEXT”时,Mac OS就认为这个档案是文本档案。在Windows中,当一个档案的扩展名为“txt”时,系统就认为它是一个文本档案。此外,处于特殊的目的,有些文本档案使用其它的扩展名。例如,计算机的原始码也是文本档案,它们的后缀是用来指明它的程式语言的。

.txt

.txt是包含极少格式信息的文字档案的扩展名。.txt格式并没有明确的定义,它通常是指那些能够被系统终端或者简单的文本编辑器接受的格式。任何能读取文字的程式都能读取带有.txt扩展名的档案,因此,通常认为这种档案是通用的、跨平台的。

在英文文本档案中,ASCII字元集是最为常见的格式,而且在许多场合,它也是默认的格式。对于带重音符号的和其它的非ASCII字元,必须选择一种字元编码。在很多系统中,字元编码是由计算机的区域设定决定的。常见的字元编码包括支持许多欧洲语言的ISO 8859-1。

由于许多编码只能表达有限的字元,通常它们只能用于表达几种语言。Unicode制定了一种试图能够表达所有已知语言的标準,Unicode字元集非常大,它囊括了大多数已知的字元集。Unicode有多种字元编码,其中最常见的是UTF-8,这种编码能够向后兼容ASCII,相同内容的的ASCII文本档案和UTF-8文本档案完全一致。

Windows的.txt档案

微软的MS-DOS和Windows採用了相同的文本档案格式,它们都使用CR和LF两个字元作为换行符,这两个字元对应的ASCII码分别为13和10。通常,最后一行文本并不以换行符(CR-LF标誌)结尾,包括记事本在内的很多文本编辑器也不在档案的最后添加换行符。

大多数Windows文本档案使用ANSI、OEM或者Unicode编码。Windows所指的ANSI编码通常是1位元组的ISO-8859编码,不过对于像中文、日文、朝鲜文这样的环境,需要使用2位元组字元集。在过渡至Unicode前,Windows一直用ANSI作为系统默认的编码。而OEM编码,也是通常所说的MS-DOS代码页,是IBM为早期IBM个人电脑的文本模式显示系统定义的。在全萤幕的MS-DOS程式中同时使用了图形的和按行绘製的字元。新版本的Windows可以使用UTF-16LE和UTF-8之类的Unicode编码。

数据存储

由于结构简单,文本档案被广泛用于记录信息。它能够避免其它档案格式遇到的一些问题。此外,当文本档案中的部分信息出现错误时,往往能够比较容易的从错误中恢复出来,并继续处理其余的内容。文本档案的一个缺点是,它的熵往往较低,也就是说,可以用较小的存储空间记录这些信息。

与二进制档案比较

定义

计算机的存储在物理上是二进制的,所以文本档案与二进制档案的区别并不是物理上的,而是逻辑上的。这两者只是在编码层次上有差异。

简单来说,文本档案是基于字元编码的档案,常见的编码有ASCII编码,UNICODE编码等等。二进制档案是基于值编码的档案,你可以根据具体套用,指定某个值(可以看作是自定义编码)。

从上面可以看出文本档案基本上是定长编码的(也有非定长的编码如UTF-8),基于字元,每个字元在具体编码中是固定的,ASCII码是8个比特的编码,UNICODE一般占16个比特。而二进制档案可看成是变长编码的,因为是值编码,多少个比特代表一个值,完全由自己决定。

存取

文本工具打开一个档案,首先读取档案物理上所对应的二进制比特流,然后按照所选择的解码方式来解释这个流,然后将解释结果显示出来。一般来说,你选取的解码方式会是ASCII码形式(ASCII码的一个字元是8个比特),接下来,它8个比特8个比特地来解释这个档案流。记事本无论打开什么档案都按既定的字元编码工作(如ASCII码),所以当他打开二进制档案时,出现乱码也是很必然的一件事情了,解码和解码不对应。

文本档案的存储与其读取基本上是个逆过程。而二进制档案的存取与文本档案的存取差不多,只是编/解码方式不同而已。

优缺点

因为文本档案与二进制档案的区别仅仅是编码上不同,所以他们的优缺点就是编码的优缺点。一般认为,文本档案编码基于字元定长,解码容易;二进制档案编码是变长的,所以它灵活,存储利用率要高些,解码难一些(不同的二进制档案格式,有不同的解码方式)。

在windows下,文本档案不一定是ASCII来存贮的,因为ASCII码只能表示128的标识,打开一个txt文档,然后另外储存为,有个选项是编码,可以选择存贮格式,一般来说UTF-8编码格式兼容性要好一些。而二进制用的计算机原始语言,不存贮兼容性。

相关词条

相关搜索

其它词条