首页 > 网站优化基础 >

网站优化基础

推荐系统和搜索引擎的关系

来源:沈阳初衷网络 作者:admin 时间:2018-01-09 15:45 点击:

  从信息获取的角度来看,搜寻跟 推举是用户获守信息的两种重要手腕。无论在互联网上,仍是在线下的场景里,搜寻跟 推举这两种方法都大批并存,那么推举体系跟 搜寻引擎这两个体系到底有什么关联?差别跟 类似的地方有哪些?海瑶seo工程师对两者的关联进行了论述,分析了异同。

  自动或被动:搜寻引擎跟 推举体系的抉择

  获守信息是人类认知世界、生存发展的刚需,搜寻就是最明白的一种方法,其体现的动作就是“出去找”,找食品、找地点等,到了互联网时期,搜寻引擎(Search Engine)就是满意找信息这个需要的最好工具,你输入想要找的内容(即在搜寻框里输入查问词,或称为Query),搜寻引擎疾速的给你最好的成果,这样的刚需催生了Google、百度这样的互联网巨头。

  然而获守信息的方法除了搜寻外,还有另一类,称为推举体系(Recommendation System,简称Recsys),推举也是随同人类发展而生的一种基础技巧,你一定碰到这样的场景,初来乍到一个地方,会找当地的友人探听“嗨,请推举下邻近有啥好吃好玩的地方吧!”——常识、信息等通过推举来传布,这也是一种获守信息的方法。

  搜寻跟 推举的差别如图1所示,搜寻是一个十分自动的行动,并且用户的需要非常明白,在搜寻引擎供给的成果里,用户也能通过阅读跟 点击来明白的断定是否满意了用户需要。然而,推举体系接收信息是被动的,需要也都是含混而不明白的。以“逛”商场为例,在用户进入商场的时候,假如需要不明白,这个时候须要推举体系,来告知用户有哪些优质的商品、哪些适合的内容等,但假如用户已经十分明白当下须要购置哪个品牌、什么型号的商品时,直接去找对应的店铺就行,这时就是搜寻了。

  图2:从搜寻词中能够看出,用户有大批个性化推举的需要

  许多互联网产品都须要同时满意用户这两种需要,例如对供给音乐、消息、或者电商服务的网站,必定要供给搜寻功能,当用户想找某首歌或某样商品的时候,输入名字就能搜到;与此同时,也同时要供给推举功能,当用户就是想来听好听的歌,或者打发时间看看消息,但并不明白一定要听哪首的时候,给予足够好的推举,晋升用户体验。

  个性化水平的高下

  除了主被动外,另一个有趣的差别是个性化水平的高下之分。搜寻引擎固然也能够有一定水平的个性化,然而整体上个性化运作的空间是比拟小的。由于当需要十分明白时,找到成果的好坏通常不太多个性化的差别。例如搜“气象”,搜寻引擎能够将用户所在地域的信息作补足,给出当地气象的成果,然而个性化补足后给出的成果也是明白的了。

  然而推举体系在个性化方面的运作空间要大得多,以“推举难看的片子”为例,一百个用户有一百种口味,并不一个“尺度”的谜底,推举体系能够依据每位用户历史上的观看行动、评分记载等天生一个对当前用户最有价值的成果,这也是推举体系有奇特魅力的地方。固然推举的品种有许多(例如相干推举、个性化推举等),然而个性化对推举体系是如此主要,甚至于在许多时候大家罗唆就把推举体系称为“个性化推举”甚至“智能推举”了。

  疾速满意仍是连续服务?

  开发过搜寻引擎的友人都晓得,评估搜寻成果品质的一个主要考量指标是要帮用户尽快的找到须要的成果并点击分开。在设计搜寻排序算法里,须要想尽措施让最好的成果排在最前面,往往搜寻引擎的前三条成果凑集了绝大多数的用户点击。简略来说,“好”的搜寻算法是须要让用户获守信息的效力更高、停留时间更短。

  然而推举偏偏相反,推举算法跟 被推举的内容(例如商品、消息等)往往是严密联合在一起的,用户获取推举成果的进程能够是连续的、长期的,权衡推举体系是否足够好,往往要根据是否能让用户停留更多的时间(例如多购置多少样商品、多浏览多少篇消息等),对用户兴致的发掘越深刻,越“懂”用户,那么推举的胜利率越高,用户也越愿意留在产品里。

  所以对大批的内容型利用来说,打造一个优良的推举体系是晋升事迹所不得不看重的手腕。

  推举体系满意难以文字表述的需要

  目前主流的搜寻引擎依然是以文字形成查问词(Query),这是由于文字是人们描写需要最简练、直接的方法,搜寻引擎抓取跟 索引的绝大局部内容也是以文字方法组织的。

  由于这个因素,咱们统计发明用户输入的搜寻查问词也大都是比拟短小的,查问词中包括5个或5个以内元素(或称Term)的占总查问量的98%以上(例如:Query“达观数据地址”,包括两个元素“达观数据”跟 “地址”)。

  但另一方面,用户存在着大批的需要是比拟难用精炼的文字来组织的,例如想查找“离我比拟近的且价钱100元以内的川菜馆”、“跟 我正在看的这条裙子同格式 的然而价钱更优惠的其余裙子”等需要。

  一方面多少乎不用户乐意输入这么多字来找成果(用户自然都是乐意偷勤的),另一方面搜寻引擎对语义的理解目前还无奈做到足够深刻;所以在满意这些需要的时候,通过推举体系设置的功能(例如页面上设置的“相干推举”、“猜你爱好”等模块),加上与用户的交互(例如筛选、排序、点击等),一直积聚跟 发掘用户偏好,能够将这些难以用文字表白的需要良好的满意起来。

  形象的来说,推举引擎又被人们称为是无声的搜寻,意思是用户固然不必自动输入查问词来搜寻,然而推举引擎通过火析用户历史的行动、当前的高低文场景,主动来天生庞杂的查问前提,进而给出盘算并推举的成果。

  马太效应跟 长尾实践

  马太效应(Mattnew Effect)是指强人愈强、弱者愈弱的景象,在互联网中引申为热点的产品受到更多的关注,冷门内容则愈发的会被遗忘的景象。马太效应取名自圣经《新约·马太福音》的一则寓言: “凡有的,还要加倍给他叫他过剩;不的,连他所有的也要夺过来。”

  搜寻引擎就十分充足的体现了马太效应——如下面的Google点击热图,越红的局部表现点击多跟 热,越偏紫色的局部表现点击少而冷,绝大局部用户的点击都集中在顶部少量的成果上,下面的成果以及翻页后的成果取得的关注十分少。这也说明了Google跟 百度的广告为什么这么赚钱,企业客户为什么要花鼎力气做SEM或SEO来晋升排名——由于只有排到搜寻成果的前面才有机遇。

  搜寻引擎充足体现的马太效应:头部内容吸引了绝大局部点击

  有意思的是,与“马太效应”绝对应,还有一个十分有影响力的实践称为“长尾实践”。

  长尾实践(Long Tail Effect)是“连线”杂志主编克里斯·安德森(Chris Anderson)在2004年10月的“长尾”(Long Tail)一文中最早提出的,长尾实际上是统计学中幂率(Power Laws)跟 帕累托散布特点(Pareto Distribution)的拓展跟 书面语化表白,用来描写热点跟 冷门物品的散布情况。Chris Anderson通过察看数据发明,在互联网时期因为网络技巧能以很低的本钱让人们去取得更多的信息跟 抉择,在许多网站内有越来越多的本来被“遗忘”的非最热点的事物从新被人们关注起来。事实上,每一个人的咀嚼跟 偏好都并非跟 主流人群完整一致,Chris指出:当咱们发明得越多,咱们就越能领会到咱们须要更多的抉择。假如说搜寻引擎体现着马太效应的话,那么长尾实践则论述了推举体系施展的价值。

  推举体系跟 长尾实践

  一个实际的例子就是亚马逊(Amazon)网络书店跟 传统大型书店的数据对照。市场上出版发行的图书品种超过了数百万,然而其中大局部图书是无奈在传统大型书店上架销售的(实体店铺空间有限),而能放在书店明显地位(例如畅销书Best Seller货架)上的更是百里挑一,因而传统书店的经营模式多以畅销书为核心。然而亚马逊等网络书店的发展为长尾书籍供给了无穷辽阔的空间,用户阅读、洽购这些长尾书籍比传统书店便利得多,于是互联网时期销售成千上万的小众图书,哪怕一次仅卖一两本,然而由于这些图书的品种比热点书籍要多得多,就像长长的尾巴那样,这些图书的销量积聚起来甚至超过那些畅销书。正如亚马逊的史蒂夫·凯赛尔所说:“假如我有10万种书,哪怕一次仅卖掉一本,10年后加起来它们的销售就会超过最新出版的《哈利·波特》!”

  长尾实践作为一种新的经济模式,被胜利的利用于网络经济范畴。而对长尾资源的盘活跟 应用,偏偏是推举体系所善于的,由于用户对长尾内容通常是生疏的,无奈自动搜寻,唯有通过推举的方法,引起用户的留神,挖掘出用户的兴致,辅助用户做出终极的抉择。

  盘活长尾内容对企业来说也长短常关键的,营造一个内容丰盛、百花齐放的生态,能保障企业健康的生态。试想一下,一个企业假如只依附0.1%的“爆款”商品或内容来吸惹人气,那么跟着时间推移这些爆款不再受欢送,而新的爆款又不及时补位,那么企业的事迹必定会有宏大稳定。

  只依附最热点内容的另一个不易觉察的危险是潜在用户的散失:由于只依附爆款固然能吸引一批用户(简称A类用户),但同时也静静排挤了对这些热点内容并不感冒的用户(简称B类用户),依照长尾实践,B类用户的数目并不少,并且随时间推移A类用户会逐渐改变为B类用户(由于人们都是喜新厌旧的),所以依附推举体系来充足满意用户个性化、差别化的需要,让长尾内容在适合的机会来曝光,保护企业健康的生态,才能让企业的运行更稳固,稳定更小。

  评估方式的异同

  搜寻引擎通常基于Cranfield评估系统,并基于信息检索中常用的评估指标,例如nDCG(英文全称为normalized Discounted Cumulative Gain)、Precision-Recall(或其组合方法F1)、P@N等方式,详细可参见之前发表于InfoQ的文章《怎么量化评估搜寻引擎的成果品质 陈运文》。整体上看,评估的着眼点在于将优质成果尽可能排到搜寻成果的最前面,前10条成果(对应搜寻成果的第一页)多少乎涵盖了搜寻引擎评估的重要内容。让用户以起码的点击次数、最快的速度找到内容是评估的中心。

  推举体系的评估面要宽泛的多,往往推举成果的数目要多许多,呈现的地位、场景也十分庞杂,从量化角度来看,当利用于Top-N成果推举时,MAP(Mean Average Precison)或CTR(Click Through Rate,盘算广告中常用)是广泛的计量方式;当用于评分猜测问题时,RMSE(Root Mean Squared Error)或MAE(Mean Absolute Error)是常见量化方式。

  因为推举体系跟 实际业务绑定更为严密,从业务角度也有许多侧面评估方式,依据不同的业务状态,有不同的方式,例如带来的增量点击,推举胜利数,成交转化晋升量,用户延伸的停留时间等指标。

  搜寻跟 推举的彼此融合

  搜寻跟 推举固然有许多差别,但两者都是大数据技巧的利用分支,存在着大批的交叠。近年来,搜寻引擎逐渐融会了推举体系的成果,例如右侧的“相干推举”、底部的“相干搜寻词”等,都应用了推举体系的产品思路跟 运算方式(如下图红圈区域)。

  在另一些平台型电商网站中,因为成果数目宏大,且相干性并不显明差别,因此对搜寻成果的个性化排序有一定的运作空间,这里融会应用的个性化推举技巧也对增进成交有良好的辅助。

  搜寻引擎中融会的推举体系元素

  推举体系也大批应用了搜寻引擎的技巧,搜寻引擎解决运算机能的一个主要的数据构造是倒排索引技巧(Inverted Index),而在推举体系中,一类主要算法是基于内容的推举(Content-based Recommendation),这其中大批应用了倒排索引、查问、成果归并等方式。另外点击反馈(Click Feedback)算法等也都在两者中大批应用以晋升后果。

工作时间:

AM 09:00 ~ 12:00

PM 14:00 ~ 18:00

联系方式:

Tel 18512402593

Hp 18512402593

设计优势

独立的设计团队 带给您全新的视觉体验

功能开发

强大的技术实力,完成您想要的任何功能

售后服务

完善的售后服务,解决您在使用过程中遇到的问题

Copyright © 2010 - 2018 沈阳网站建设_沈阳网站制作_沈阳网站优化_沈阳网站建设公司-【初衷网络公司】 All Rights Reserved

地址:沈阳市浑南区金帆中路106号 | TEL:18512402593

SEO外包 | 沈阳SEO公司 | 沈阳SEO服务