使用WORD通配符替换去除网页中的干扰码(乱码)
1、从网页复制内容到WORD,并认真观察干扰码的规律。以图示为例,我们发现,需要的正文为纯汉字。干扰码为数字、英语和符号。

2、对照ACSII码表,数字段十进制代码为48-57,大写英文十进制代码为65-90,其他为各类符号。由于我们需要保留的为纯汉字,所以可以将ACSII码表32-126码段全部替换为空。

3、在WORD中按“CTRL+H”调出替换窗口,在查找内容栏输入[^32-^126],然后在搜索选项勾选“使用通配符”,然后点击“全部替换”就可以得到干净清爽的正文了。


1、扩展阅读1:当我们需要更为精确的控制所需替换的字符时,比如替换所有大小写字母、数字还有左右括号时,我们还可以如下方式填写噢。[a-z,A-Z,0-9,^40-^41]

2、扩展阅读2:由于网页干扰码的生成方法有很多种,有些甚至同一段正文就用了白色字体法、样式隐藏法等多种方法进行干扰,所以在实际应用中需要大家仔细观察,灵活运用。

3、扩展阅读3:关于采用字体颜色法替换干扰码可以参见如下链接。
声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
阅读量:110
阅读量:189
阅读量:191
阅读量:144
阅读量:88