|
|
Google分词算法值得我(wǒ)们好好研究一下。Google的搜索结果页(SERP)与(yǔ)搜索(suǒ)关(guān)键字(zì)的相关性,明显大于百度,这是(shì)因为Google把(bǎ)搜(sōu)索(suǒ)关键字都拆分成(chéng)最基(jī)本的词(cí)组和单字后,在根(gēn)据相(xiàng)关(guān)性去匹配数据库的中内容,而(ér)且Google拆分(fèn)后的最基本词组(zǔ),完全是根据词典里(lǐ)的词组匹(pǐ)配(pèi)的,也是说(shuō)它符合国家语言文字工作委(wěi)员会的规范和(hé)标准的,这只限于(yú)普通词组(公众人名、著(zhe)名品牌名)。
实(shí)例1:测试Google是否有专业名词库(kù)
在(zài)Google搜索“搜索引擎关(guān)键(jiàn)字(zì)”,Google会把这个关键字短语拆分为“搜索—引擎—关键—字”,这是(shì)因为“搜索引擎”和“关键字”都是(shì)网络专业词组(zǔ),可能Google没有专业词组库(kù),所以就(jiù)被拆分成了“搜(sōu)索—引擎(qíng)—关键—字”。
实例2:测试Google拆分长关键字(zì)
在Google搜索“他舅(jiù)WAP流量统计(jì)分析”,Google把这个(gè)关键(jiàn)字短(duǎn)语拆分为“他—舅—wap—流量(liàng)—统计(jì)—分(fèn)析”六部分,“WAP”是一个英文词组(zǔ),包括Google和(hé)其他(tā)搜索引擎(qíng)一般是不(bú)拆分英(yīng)文词组(zǔ)的(就算它不是英文单(dān)词),“流(liú)量”、“统计”、“分析(xī)”都是符合国家语言规范的标准词组,“他舅”只是中国老百(bǎi)姓一个口头称谓用语(yǔ),不符合国家语言规范,在词典中根本就查不到这,所以Google就把“他(tā)舅”拆分成了两个单字。
实例3:测试品牌名是否(fǒu)被Google收录为词组(zǔ)
在Google搜索“海(hǎi)尔冰箱”、“惠普电(diàn)脑”、“华为通讯”、“美的(de)电器”,“五粮液酒(jiǔ)”,“夏利汽车”、“北(běi)京同仁堂”这七个(gè)都是(shì)著名的品牌,结果是“海尔”、“惠普”、“华为”、“五粮液”、“同仁堂”都是单独的词(cí)组,没有被拆分为单字(zì),“夏利”、“美的”这两个品牌却被拆分成了单字。不是所有品牌都能被Google作为一个词组收录进品牌词库,Google有自(zì)己(jǐ)的收(shōu)录标准(zhǔn)的。
实(shí)例4:测试Google是否(fǒu)会拆分成语
下面我们搜索(suǒ)一下(xià)韩乔(qiáo)生的经典名句“迅雷不及掩耳之(zhī)势”和“山清水秀丽(lì)”,结果“迅雷不及掩(yǎn)耳之势”这个短句被拆分(fèn)成了“迅雷—不(bú)及(jí)—掩耳盗铃—之(zhī)—势”,“迅雷”是一个符(fú)合汉语言规范(fàn)的标准词组,不是(shì)指下载工(gōng)具那个“迅雷”,“不及”也是一个词组(zǔ),“掩(yǎn)耳盗铃”也是(shì)符合(hé)国(guó)家语(yǔ)言规范的成(chéng)语(yǔ),“之势”不是标准词组,所以就(jiù)被拆分为两个单字。“山清水秀丽”被拆分(fèn)为了“山清水(shuǐ)秀(xiù)—丽”,“山清水秀(xiù)”是一(yī)个(gè)成语没有拆分。Google把成语作为几(jǐ)个基本词(cí)组,不(bú)会进一步拆分(fèn)。
实例5:测试普通之间是否有权重高低之分
搜索“山河水灾”这个(gè)关键字短语,结果Google拆(chāi)分为“山河(hé)”和“水(shuǐ)灾”两个(gè)词组;然后(hòu)搜素“山河水灾情”这个关键字短语(yǔ),结果(guǒ)Google拆分(fèn)为“山(shān)河”、“水”、“灾情”三部分,“水”字没有和“灾(zāi)”组成词组,反而“灾”和“情”组成了词组,这说(shuō)“灾情”这个词的权重高于“水灾(zāi)”的权重(chóng)。这说明词组之(zhī)间也是有权重之(zhī)分的(de)。
根据实例测试推断:Google会把搜索的关(guān)键字(zì)(短语)拆分为最基本的词组,这些普通词组都是符合汉语(yǔ)言规范的(de)标(biāo)准词组,不像(xiàng)百(bǎi)度那样收(shōu)录“人(rén)造名词”。Google的词(cí)组大致可(kě)分为普通(tōng)名词、地名、人名等(děng)几类,关键(jiàn)字(短语)都是从左向右,按(àn)权重高(gāo)低拆分。这些词组权重从低到(dào)高依(yī)次如下:人名<普通词组(zǔ)<地(dì)名<成(chéng)语<领(lǐng)导人名字。进一步测试(shì)品牌名和人名的权重是一样,都是最低的,这(zhè)只(zhī)是一个大致顺序,因为(wéi)同一类词(cí)组(zǔ)还会根据(jù)日常使(shǐ)用的频率进一步的分级,每(měi)一(yī)级的(de)分(fèn)配不同(tóng)的权重,所以同一类词组之间也有权重高低之分。
|
|