首先要明确一点,本文探讨范围仅限内容页,而非专题页、列表页和首页。那么我在甄别这两类文章之前,我需要先进行信息的采集。本文对于spider程序部分不进行阐述。当spider程序下载下来网页信息后,在内容处理的模块中,我需要先对内容除噪。如果是我,我会喜欢什么样子的文章呢?我会喜欢我的用户喜欢的文章,如果硬要加判定标准,那无外乎是两种:1.原创且用户喜欢。
2.非原创且用户喜欢。在这里,我的态度很明显,伪原创就是非原创。那么用户喜欢什么样的文章呢?很显然,一些新观点、新知识往往是用户喜欢的,也就是说通常原创文章都是用户喜欢的,而且即便用户不喜欢,原创站点作为新鲜内容的制造者,也应该受到一定的保护。那么非原创的文章用户就一定不喜欢吗?诚然否也。一些站点,其内容往往是经过搜集整理后聚合而成的,那么这些站点对用户来说就是有价值的,其相对应的文章理应获得较好的排名。
很多SEO他们懒,进行所谓的伪原创,你说你伪原创时插入点自己的观点与资料也成,结果你们就是改个近义词什么的,于是我就用到了特征向量,通过特征向量的判断,把你们这些低劣的伪原创抓出来。关于这个,判断思想很简单,你权重最高的前N个关键词集合极为相似的时候,判断为重复。这里所谓的相似包括但不仅仅局限于权重最高的前N个关键词重合,于是构建了特征向量,当对比的两个向量夹角与长度,当夹角与长度的差异度小于某个特定值的时候,我将其定义为相似文章。
如果是一个注重用户体验的聚合性网站,那么他的作用是将现有的互联网内容经过精心的分类与关联,来方便用户更好、更有效的阅读。针对这样的站点,即便其文章不是原创而是从互联网上摘抄的,我也会给予其足够的重视与排名,因为它良好的聚合内容往往更能满足用户的需求。你们说,为什么当站文章中有大量相同时,会快速引起搜索引擎惩罚呢?这里我说的不是摘抄与原创的问题,而是你站内自己和自己的文章重复。之所以搜索引擎反应这么快,同时惩罚严厉,根本原因就是在你的文章中,他提取不到内容。现在基本上搜索引擎对于原创的识别,在大面上采用的是关键词匹配结合向量空间模型来进行判断。Google就是这么做的,在其官方博客有相应的文章介绍。这里,我就做个大白话版本的介绍,争取做到简单易懂。

长沙科联环保科技有限公司
长沙科联环保科技有限公司坐落于国家级长沙经济技术开发区,星沙工业园、我们以“科技创新,联合共...
南京尚上防腐木
南京尚上防腐木是一家专业致力于加工、制作、销售户外景观防腐木,并为客户设计安装一站式服务的现...
长沙昱霆机电有限公司
长沙昱霆机电有限公司是长沙空压机_长沙空压机保养_湖南空压机维修_长沙空压机机头维修-长沙昱...
湖南省土地学会,湖南土地学会,湖南土地学会官网
湖南省土地学会是全省土地科技工作者自愿组成,并依法登记的学术性、非盈利性、公益性的法人社会团...
湖南为美环保技术有限公司,医疗污水净化机组...
湖南为美环保技术有限公司应“绿水青山就是金山银山”之势而生,秉持“为民环保,美丽干净”理想信...
长沙租车公司-长沙鑫晨租车
长沙鑫晨租车(长沙租车网)于2008年,已精工细作多年。现以成为长沙地区较早的租车公司之一。...联系方式
地址:湖南省长沙市天心区韶山南路248号南园503室
电话:13637482004 0731-88571521
网址:http://www.123007.com/
邮箱:123@123007.com
微信咨询

扫一扫进移动端
