消除重复藏文网页的完整解决方案(图文)

编辑:论文交流网发表日期:浏览:0

论文导读:日常上网会发现一篇文章被大量转载的现象,藏文网页亦不例外,但是藏文编码存在着不统一,也就会出现内容相同的一篇文章因使用编码的不同而重复发布。消除重复一直以来,对于重复的定义都非常模糊,没有一个清晰的定义。在实现编码统一的基础上本方案采用了Shingle算法来实现消除重复藏文网页,具体的实现流程见图三。
关键词:消除重复,藏文网页,统一藏文编码,Shingle算法
 

1 前言日常上网会发现一篇文章被大量转载的现象,藏文网页亦不例外,但是藏文编码存在着不统一,也就会出现内容相同的一篇文章因使用编码的不同而重复发布。这对网民来说是有利的,便于大多数人看到重要的信息,但是对于搜索引擎来说重复页面就意味着这些页面至少被多处理一次。更甚者,在接下来的索引制作中则可能会在索引库中索引出两份内容相同的网页,当有用户查询时就会在有限的查询结果页中出现重复的网页链接。因此无论从系统效率,还是从检索质量来说,重复网页都是有害的。本文所研究的藏文网页消重,目的便是使藏文分词前的重复页面(包括转载和不同编码的同一篇文章)消除。

2 藏语及藏语编码2.1 藏语特点藏文共有30个辅音字母,4个元音符号,有自身一套严格而完整的字母组合排列规则。藏文除了进行横向拼写外,同时还进行纵向拼写,即前加字、基字(字元)、后加字、再后加字进行横向拼写,字元本身还可以是基字与上加字、下加字、元音的纵向拼写。音节连写时中间用点隔开,将两点之间的部分称为音节。音节中的纵向单位叫字丁,一个音节至少1个字丁,最多4个字丁,即最多7个成分(基字、上加字、下加字、前加字、后加字、又后加字,元音)构成,7个成分中除基字外,其它成分少一个或几个仍然可以成音节。字丁是音节的基本单位,音节是语音结构的基本单位,词汇有音节构成,按照一定的语法结构构成句子[1]。(例如图一)藏文的字符可以通过叠加组合为新的字形,其变化形式异常复杂,所以从信息处理的角度而言藏文属于“复杂文字”的范畴。论文参考。

2.2 藏语编码特点藏语编码千差万别,从区域上大体分为两类:国内编码和国际编码。国内有方正DOS编码(以制定者的名字称呼其编码主要是因为同样使用GBK编码的藏文编码不止一家,并且字符码位分布迥然不同,因此本文中国内藏文编码就以制定者的名字加编码二字称呼),方正Windows编码,华光DOS编码,华光Windows编码,同元编码等[3,5-7];国际编码如Unicode基本集编码,Unicode基本集编码和基本集扩充集A,ISO/IEC10646·1编码[8]等。国内藏文编码一般都是使用的GBK编码或大字符集编码作为内码,其都存在覆盖汉语内码的现象。针对不同的编码,相同的音节占据的编码和存储空间千差万别。例如:音节对应的内码(表一)。

表一 使用不同编码时的内码

 

同元编码7E7F 8EDF 7E73 7E8D8个字节
方正Windows编码642C 5E1B 7F62 90A68个字节
Unicode编码0F56 0F66 0F92 0FB2 0F72 0F42 0F6614个字节

华光编码尚未分析过。就一个藏文音节来分析,采用同元编码时需要8个字节;采用方正Windows编码时需要8个字节;采用Unicode编码时需要14个字节。存储上的差别在当前相对廉价的硬件资源当中,尚不能产生制约。但是编码不统一,就根本无法进行消重检测。

3 重复页面消除消除重复页面的一般步骤是:页面特征提取;相似度计算;根据阀值消除重复[2]。

3.1 页面特征提取Shingle算法[2]页面特征提取为算法当中的经典算法,Shingle在英语里有层层叠放的瓦片的意思,该算法正如其名,下面使用例子来加以说明。例如:藏文已有近一千四百年的历史,用藏文记载的经典文献、古籍著述和译作浩如烟海。以5个汉字为一个Shingle粒度,使用该算法处理后,结果如图二,正如层层叠放的瓦片。

但是藏文Shingle粒度的选择及粒度的最小单位都没有人提出。藏文也是拼音文字,是由元音、辅音字符按照书写顺序依次写出,与英语很类似但与汉语几乎完全不同,编码也是这样。因此通过统计和实验获知,Shingle粒度的最小单位应该为音节,藏语音节是由音节点划分出来的,易于划分,并且藏语的一个音节最多有四个字丁组成,至少由一个组成,但是对于不同的编码方案,其对应的码位最多为14个字节,最少为2个字节。经过对几乎所有的字典词条的不重复词统计,Shingle粒度应该以5个音节为适宜,统计结果见表二。

 

 1/2    1 2 下一页 尾页

上一篇:
下一篇: