很多小伙伴在初入java行业时,都会遇到或多或少的问题,今天千锋小编给大家分享的是关于java入门学习过程中编译码的技术知识,希望能对大家的学习有所帮助!

I/O操作时的编解码
在进行I/O操作时经常会遇到将字节流转换成字符流的场景,Java的API提供了InputStreamReader和OutputStreamWriter来解决这样的问题,而这两个类的构造器中都可以指定编码/解码的方式。
InputStreamReader(InputStream in) // 使用默认的字符集
InputStreamReader(InputStream in, String charsetName) throws UnsupportedEncodingException
InputStreamReader(InputStream in, Charset cs)
InputStreamReader(InputStream in, CharsetDecoder dec)
OutputStreamWriter(OutputStream out) // 使用默认的字符集
OutputStreamWriter(OutputStream out, String charsetName) throws UnsupportedEncodingException
OutputStreamWriter(OutputStream out, Charset cs)
OutputStreamWriter(OutputStream out, CharsetEncoder enc)
从JDK 1.4引入了NIO开始,我们可以使用Charset类提供encode和decode方法实现字符数组和字节数组的转换,代码如下所示:
Charset cs = Charset.forName("utf-8");
String str = "骆昊";
ByteBuffer buffer1 = cs.encode(str);
// 骆 昊
// e9 aa 86 e6 98 8a
// 11101001 10101010 10000110 11100110 10011000 10001010
for (int index = 0; index < buffer1.limit(); index += 1) {
System.out.print(Integer.toHexString(buffer1.get(index) & 0xff) + " ");
}
System.out.println();
CharBuffer buffer2 = cs.decode(buffer1);
// 骆昊
System.out.println(buffer2.toString());
字符串的编解码
Java中的String类提供了用字节数组和指定的编码构造字符串对象的操作,同时也提供了将字符串按照指定的编码解码成字节数组的操作,下面我们来做几个小实验。
实验1:中文变成'?'。
public static void main(String[] args) throws UnsupportedEncodingException {
String str = "hello, 骆昊";
byte[] buffer = str.getBytes("iso-8859-1");
// hello, ??
System.out.println(new String(buffer));
}
说明:ISO-8859-1是单字节编码,中文“骆昊”的编码(0x9a86和0x660a)会被转换成0x3f,而0x3f是ASCII码中的'?',所以中文就变成了问号,而且中文字符的编码信息已经丢失,再怎么解码也没有机会还原出原来的中文字符了。所以这种现象也称之为“编码黑洞”,因为它把不认识的字符给吞噬掉了。很多Java的框架和产品默认都使用了ISO-8859-1,所以这个问题很常见。
实验2:中文变成看不懂的字符。
public static void main(String[] args) throws UnsupportedEncodingException {
String str = "hello, 骆昊";
byte[] buffer = str.getBytes("gbk");
// hello, Âæê»
System.out.println(new String(buffer, "iso-8859-1"));
}
说明:这种情况在使用浏览器的时候也很常见,服务器传过来的是中文字符但是浏览器的编码却设置为ISO-8859-1就会出这种问题。
如果中文经过了多次编解码,那么还有可能遇到一个中文字符变成多个问号的情况。其实要解决这些编码问题原则非常简单,首先如果要表示中文字符就不能使用单字节编码,这样势必会出现“黑洞”;其次编码和解码使用的“码”应当是一致的。
URL编码
URL是统一资源定位符(Universal Resource Locator)的缩写,是Internet上标准的资源地址。它最初是由万维网和浏览器的发明者英国人Tim Berners-Lee发明用来作为万维网的地址,现在已经被W3C编制为Internet标准(RFC 1738)。统一资源定位符的标准格式如下:
协议://服务器域名或地址:[端口号]/资源路径/文件名[?查询参数]
我们试一试在用谷歌搜索“骆昊”,来看看浏览器地址栏中的URL到底是什么样的。
URL中允许出现的字符分为保留字符(有特殊含义的字符)与未保留字符,未保留字符包括英文大小写字母、0-9的数字以及‘-’、 ‘_’、 ‘.’和'~',保留字符包括 ‘!’、 ‘*’、 ‘'’、 ‘(’、 ‘)’、 ‘;’、 ‘:’、 ‘@’、 ‘&’、 ‘=’、 ‘+’、 ‘$’、 ‘,’、 ‘/’、 ‘?’、 ‘#’、 ‘[’和‘]’。如果URL中需要用到保留字符或者非URL允许的字符则需要使用百分号编码,例如:‘=’要处理成‘%3D’、‘+’要处理成‘%2B’、而上面要搜索的‘骆’和‘昊’两个中文字符被处理成了百分号编码的‘%E9%AA%86’和‘%E6%98%8A’。
Java中要将URL中的非URL允许字符处理成百分号编码有非常简单的办法,就是使用URLEncoder类的encode方法,代码如下所示。
public static void main(String[] args) throws UnsupportedEncodingException {
String urlStr = "Java 骆昊";
String encodedUrlStr = URLEncoder.encode(urlStr, "utf-8");
// Java+%E9%AA%86%E6%98%8A
System.out.println(encodedUrlStr);
}
表示中文可以选择的编码方式很多,包括GB2312、GBK、GB18030、UTF-8和UTF-16。UTF-16定义了Unicode字符在计算机中的存取方式,用固定长度的两个字节来表示所有的字符,Java中的char类型之所以是两个字节就是因为Java使用了UTF-16作为内存中字符存储的格式。UTF-16的编码效率高,字符与字节之间的转换也相对简单,但是如果在网络上传输数据的话会遇到大尾数和小尾数字节顺序转换的问题,因此UTF-8更适合在网络上传输数据,而UTF-16更适合在内存中使用。UTF-8使用了变长存储的方式,对ASCII字符采用单字节存储,对其他字符可以使用1~6个字节来表示,编码效率介于GBK和UTF-16之间,因此开发Java Web应用时,强烈建议使用UTF-8这种编码方式。
相关文章

了解千锋动态
关注千锋教育服务号
扫一扫快速进入
千锋移动端页面
扫码匿名提建议
直达CEO信箱