网络营销
百度如何判断网页文章的重复度
发布时间:2016-7-28  /  浏览数量:

 1,网站重复内容的判断

  A,获取多个网页;

  B,分别提取网页的网页正文;

  C,从网页正文中提取一个或多个句子,并根据一个或多个句子计算网页正文句子签名;

  D,根据网页正文句子签名对多个网页进行聚类;

  E,针对每一类下的网页,计算网页的附加签名;

  F,根据附加签名判断每一类下的网页是否重复。

  通过上述方式,网页重复的判断系统及其判断方法通过包括网页正文句子签名在内的多维度签名有效且快速地判断网页是否重复。

  网站页面基本架构

  提取正文

  A,对网页进行分块;

  B,对分块后的网页进行块过滤,以获取包含网页正文的内容快;

  C,从内容块中提取网页正文。

  正文分句

  A,对网页正文进行分句;

  在本步骤中,可利用分号,句号,感叹号等表示句子完结的标志符号来对网页正文进行分句。此外,还可以通过网页正文的视觉信息来对网页正文进行分句。

  B,对分句后的网页正文进行过滤及转换;

  在步骤中,首先过滤掉句子中的数字信息;版权信息以及其他对网页重复判断不起决定性作用的信息。随后,对句子进行转换,例如,进行全角/半角转换或者繁体/简体转换,以使得转换后的句子的格式统一。

  C,从过滤及转换后的网页正文中提取最长的一个或多个句子;

  在本步骤中,过滤及转换后的网页正文提取出最长的一个句子或者做场的预定数量连续句子的组合。例如,某个网页实例中,经过过滤及转换后的某段最长,远超其他句子,因此可选择该段为网页正文句子,或者选择最长的连续句子组合作为网页正文句子。

  D,对一个或多个句子进行hash签名运算,以获取网页正文句子签名。





上一条: 企业如何做有效的网络推广
下一条: SEO数据分析报告该怎么写?
相关热门资讯  News
一二三客户案例

  123 NETWORK

合作共赢,助您打开网络营销财富之间!

www.123007.com

合作对接电话:0731-88571521

联系方式

地址:湖南省长沙市天心区韶山南路248号南园503室

电话:13637482004    0731-88571521

网址:http://www.123007.com/

邮箱:123@123007.com

在线QQ咨询

需求咨询

价格咨询

微信咨询

扫一扫进移动端

版权所有 © 长沙一二三网络技术有限公司    统一社会信用代码:91430103MACCH7984M    网站ICP备案号:湘ICP备2023006748号     湘公网安备 43010302001803号