排序技术的发展趋势

各种搜索引擎的技术改进和优化,都直接反应到搜索结果的排序上。

许多搜索引擎都在进一步研究新的排序方法,来提升客户的满意度。

专业人士认为,目前的搜索引擎排序算法上还存在两大不足。

没有真正解决相关性。

相关性是指搜索词和页面的相关程度。

仅仅通过链接、字体、位置等表面特征,不能真正判断搜索词和文章的相关性,更何况许多时候这些特征不会都同时存在。

这也是许多对搜索引擎做弊方法能有效的原因。

另外,有些文章中没有出现搜索词,但说的就是和搜索词十分相关的内容,例如搜索“恐怖分子”,但有网页是介绍本拉 登的一些破坏行动,文中没有出现“恐怖分子”的子眼,搜索引擎就无法搜索到该网页。

表面特征只能治标,不能治本。治本的方法应该是增加语意理解,例如主题 词和关键词的提取,从语意上分析,得出搜索词和网页的相关程度,分析的越准,效果就会越好。

搜索结果的单一化。

在 搜索引擎上,任何人搜索同一个词的结果都是一样。

这样明显不能满足访问者。科学家搜索“星球”,可能是希望了解星球的知识,但普通人可能是想找“星球大 战”电影,但搜索引擎所给的都是一样的结果。如何满足这些不同类型的访问者,需要对搜索结果的个性化。

国外vivisimo公司(http://www.vivisimo.com) 就是想解决这个问题,他们采用对搜索结果自动聚类的办法来满足不同类型客户的需要。

搜索结果排序如果要实现从单一化到个性化,vivisimo已经迈出了 一步,但最理想的结果应该是针对每个访问者,排序结果直接和他们的搜索习惯和意愿有关。

搜索“体育”,对喜欢足球的人应该把足球的相关结果排在前面,对喜欢篮球的人应该把篮球的相关结果排在前面。

搜索引擎的排序技术应该也会朝着解决这两个不足的方向发展:语意相关性和排序个性化。前者需要完善的自然语言处理技术,后者需要记录庞大访问者信息和复杂的计算,要达到其中任何一个的要求均非易事,如何解决这些难题,任务落在了科学家和工程师们的肩上,哪个搜索引擎解决了这些问题,她可能会称为下一个搜索世界的霸主。