Java：文件读取时如何判断文件编码是否为utf-8

2026-05-10 07:01:13

1、用notepad++打开文件，可以查看文件的编码。

本文讲解的是以utf-8编码的文件的编码判断，若文件以utf-8无bom编码则无法判断。UTF-8编码的文件中，BOM占三个字节。这是个标识UTF-8编码文件的好办法，可以通过BOM来识别这个文件是否是UTF-8编码。

2、判断文件编码的代码：

InputStream inputStream = new FileInputStream("E:/1.txt");

byte[] head = new byte[3];

inputStream.read(head);

String code = "";

code = "gb2312";

if (head[0] == -1 && head[1] == -2 )

code = "UTF-16";

if (head[0] == -2 && head[1] == -1 )

code = "Unicode";

if(head[0]==-17 && head[1]==-69 && head[2] ==-65)

code = "UTF-8";

System.out.println(code);

Java：文件读取时如何判断文件编码是否为utf-8

3、网上很多这样判断utf-8编码的代码（不推荐使用，可以判断出.ini文件的utf-8编码，但判断.txt文件时会出错）：

private String getCharset(String fileName) throws IOException{

BufferedInputStream bin = new BufferedInputStream(new FileInputStream(fileName));

int p = (bin.read() << 8) + bin.read();

String code = null;

switch (p) {

case 0xefbb:

code = "UTF-8";

break;

case 0xfffe:

code = "Unicode";

break;

case 0xfeff:

code = "UTF-16BE";

break;

default:

code = "GBK";

}

return code;

}

Java：文件读取时如何判断文件编码是否为utf-8

4、下面详细介绍一下UTF—8与UTF—8（无bom）格式相比有什么不同：

BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。

UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如果接收者收到FEFF，就表明这个字节流是Big-Endian的；如果收到FFFE，就表明这个字节流是Little-Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被称作BOM。

5、 UTF-8不需要BOM来表明字节顺序，但可以用BOM来表明编码方式。字符"ZERO WIDTH NO-BREAK SPACE"的UTF-8编码是EF BB BF。所以如果接收者收到以EF BB BF开头的字节流，就知道这是UTF-8编码了。 UTF-8编码的文件中，BOM占三个字节。如果用记事本把一个文本文件另存为UTF-8编码方式的话，用UE打开这个文件，切换到十六进制编辑状态就可以看到开头的FFFE了。这是个标识UTF-8编码文件的好办法，软件通过BOM来识别这个文件是否是UTF-8编码，很多软件还要求读入的文件必须带 BOM。

声明：本网站引用、摘录或转载内容仅供网站访问者交流或参考，不代表本站立场，如存在版权或非法内容，请联系站长删除，联系邮箱：site.kefu@qq.com。