当前位置：首页 > 资讯 > 技术文档

C++中汉字字符串的截取

时间：2021-12-31 06:59 编辑：来源：阅读：
扫一扫，手机访问

摘要：C++中汉字字符串的截取

1、

const char *str = "test测试test";
while(*str)
{
//这里只需要判断第一个字节大于0x80就行了，前提是输入的是合法的GBK字符串
//原因在于，如果第一个字节大于0x80，那么它必然和后面一个字节一起组成一个汉字
//所以就没有必要再去判断后面一个字节了
//再强调一下，前提条件是输入合法的GBK字符串
if(*str > 0x80)
{
// 汉字，计数器++
str += 2;//是汉字自然就该直接+2了
}
else
{
str++；
}
}

2、参看下面的字符串转换函数。

[u]复制代码[/u] 代码如下:

/**
* 用getBytes(encoding)：返回字符串的一个byte数组
* 当b[0]为 63时，应该是转码错误
* A、不乱码的汉字字符串：
* 1、encoding用GB2312时，每byte是负数；
* 2、encoding用ISO8859_1时，b[i]全是63。 
* B、乱码的汉字字符串：
* 1、encoding用ISO8859_1时，每byte也是负数；
* 2、encoding用GB2312时，b[i]大部分是63。
* C、英文字符串
* 1、encoding用ISO8859_1和GB2312时，每byte都大于0；
* 总结：给定一个字符串，用getBytes("iso8859_1")
* 1、如果b[i]有63，不用转码； A-2
* 2、如果b[i]全大于0，那么为英文字符串，不用转码； B-1
* 3、如果b[i]有小于0的，那么已经乱码，要转码。 C-1
*/
private static String toGb2312(String str) {
if (str == null) return null;
String retStr = str;
byte b[];
try {
b = str.getBytes("ISO8859_1"); 

for (int i = 0; i < b.length; i++) {
byte b1 = b[i];
if (b1 == 63)
break; //1
else if (b1 > 0)
continue;//2
else if (b1 < 0) { //不可能为0，0为字符串结束符
retStr = new String(b, "GB2312");
break;
}
}
} catch (UnsupportedEncodingException e) {
// e.printStackTrace();
}
return retStr;
} 

3、

[u]复制代码[/u] 代码如下:

unsigned char *str = "test测试test";
int length;
int i;

length = strlen(str);
for (i = 0; i < length - 1; i++)
{
if ( *str >= 0x81 && *str <= 0xFE
&& *(str + 1) >= 0x40 && *(str + 1) <= 0xFE)
{
// 汉字
}
}

unsignedchar*str="test测试test";//把字符串换成“汉A”试试，结果为2

有人说：“一个GBK汉字要占两个char空间(二字节），而且第一个字节里的值是小于0的。可以据此判断是否为汉字。” 1、为什么第一个字节的值小于0呢？ 2、如果仅通过判断第一个字节如果小于0，则该字节和下一个字节就组成一个汉字，这种逻辑是否保险？ 3、因为还看到有人说，GBK编码的汉字有高位和低位两位，第一个是低位吧？需要第一个字节在160-254之间，第二个字节在64-254之间，这样是不是比2中提到的方法要保险？ 4、如果DB中的字符集是SIMPLIFIED CHINESE_CHINA.ZHS16GBK，这个是GBK字符集？GBK兼容GB2312 似乎有些字符集中有些汉字占三个字节 “通过判断第一个字节如果小于0，则该字节和下一个字节就组成一个汉字” //GBK汉字内码范围 //81-A0 ,40-7E 80-FE //AA-AF ,40-7E 80-A0 //B0-D6 ,40-7E 80-FE //D7 ,40-7E 80-F9 //D8-F7 ,40-7E 80-FE //F8-FE ,40-7E 80-A0 例如：//81-A0 ,40-7E 80-FE 表示字符的ascii码要在129-160，64-126，128-254这三个区间段内 4、在工作中，遇到要截取字符串在屏幕上显示出来，因为字符串带有汉字，如果截取不好，会引起乱码，写了下面的函数在uclinux下与VC6.0中测试可以通过。 view plaincopy to clipboardprint?

[u]复制代码[/u] 代码如下:

 /*截取字符串
 name :要截取的字符串

 store:要存储的字符串

 len:要截取的长度

 */ 

 void split_name( char * name , char * store , int len )
 { 

     int i= 0 ; 

     char strTemp[L(NAMEL)]={0}; 

     if ( strlen(name)
     { 

         strcpy( store, name );  *name=0; 

         return ; 

     } 

     //从第１个字节开始判断 

     while( i < len ) 

     { 

         if ( name[i]>>7&1 && name[i+1]>>7&1 )       //if ( name[i] < 0 && name[i+1] < 0 ) 

             i = i + 2 ; 

         else 

             i = i + 1 ; 

     } 

     i = i > len ? i-3 :i-1; 

     strncpy( store , name , i+1 ); //截取前i+1位 

     *(store+i+1)=0; 

     strcpy( strTemp , name + i + 1 ); 

     strcpy( name , strTemp ); 

 }

全部评论(0)

上一篇：详解dll动态库的开发与调用及文件的读写小程序
下一篇：关于C语言函数strstr()的分析以及实现

资讯排行榜
更多>>