“搜索”的未来_搜索引擎论文

“搜索”的未来_搜索引擎论文

“搜索”的未来,本文主要内容关键词为:未来论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

搜索:消失的未来

“好吧,Google,这个周末圣克鲁兹是晴天吗?”在得到Google Chrome浏览器的语音回答之后,你还可以接着问“那儿离这儿多远”?

5月16日,在Google每年一度的开发者大会上,Google高管演示了加载Google Now功能的Chrome浏览器的语音问答功能。

对用户来说,Google Now就像一个附加了地理位置信息的Siri,被列为下一代互联网搜索的形态之一,这与15年前Google成立时用网页链接完成搜索的方式相比,已有天壤之别。

近来,搜索技术正开始新一轮升级,变化的方向就是更加智能和自然。但是当搜索自然到不被人感知后,与其相伴而生的商业模式(比如卖关键字广告),便发生了颠覆式变化。

2011年初,Google意识到了潜藏的危机,于是调整架构,将搜索“降级”,发展包括视频、智能操作系统平台在内的一系列业务,在搜索基础上超越搜索,终于重获工程师群体及华尔街青睐。

许多人担忧,网络搜索正在消失。那个在PC时代颇为神奇的搜索框,在移动时代可能潜伏至后台;那个曾经的互联网人口和赚钱核心,在移动互联网商业中将退为服务性工具。

当网络搜索脱掉技术的外衣,它会变成什么?当下的情形是:搜索已经变成互联网的流量生意,而这恰是它在移动互联时代有可能消失的前奏。

过度商业化

“对搜索引擎厂商来说,搜索如今已经变成流量的生意。”一位搜索引擎代理商感叹。

1998年Google成立,搭建了一个以搜索框为核心的商业模式,即在搜索技术背后,推出AdWords广告系统和AdSense广告联盟。广告系统为广告商购买关键词、提请广告需求服务,广告联盟是Google集合各大小网站的联盟,亦是广告商发布广告的载体,以精准发布、点击收费分成为特征。

至今,Google仍在通过这一模式获得巨额收益。2013年一季度,谷歌营收达到139.7亿美元,同比增长31%;净利润达到33.5亿美元,同比增长16%。其中大半来自广告。

百度效仿Google,建立百度联盟,研发广告系统,并在其之上推出竞价排名,在竞价排名遭到舆论谴责之后,百度将其优化为“凤巢系统”,即:新一代搜索推广管理平台。

过去几年,国内搜索引擎技术及广告系统改进不多,搜索市场的竞争变得十分同质化,360的横空出世便是极好的证明。

360做的便是流量生意。360的导航网站、360浏览器、安全软件等都有很强的“导流量”能力。2012年底,360导航网站的流量超过了百度旗下的导航网站hao123。流量的价值在于,一方面可以让更多的人去用搜索框,另一方面可以为广告商提供更有效的广告位(如导航网站)。

在360推出自有搜索之前,360导航也曾为百度贡献流量。在Google“退出中国”之后,360导航成为Google在华的“广告位”,其他搜索引擎也曾有过这种合作,并因此从Google一年分成数千万美元。

目前,360仍与Google有合作,业界认为,这种合作很可能是Google的Adwords for Search。

当360将此前的Google搜索引擎换为自有搜索引擎,中国大多数网民们似乎并未发现搜索质量的不同,而是直接将自己的流量变成了搜索请求。对搜索引擎来说,获取用户之后便是如何做生意的问题了。

2012年底,360启动了渠道计划,在全国8个省的20多个城市设立代理,开售关键词广告;同时,360也加强了与中小站长的联系,成立自己的联盟。对站长来说,亦乐观其成,因为流量市场在过去几年只有百度一家独大,掌握定价权,360的加入或将激活市场。而且,360给出的站长政策优于百度。

与初期商业化阶段的360相比,百度看似体系成熟。但这与搜索技术本身关联性已不大。

“与Google相比,或者与以前相比,百度越来越像销售公司而非技术公司了。”一位不愿透露姓名的投资人士向记者表示。在他看来,过度商业化的搜索引擎让这个互联网入口沦为广告售卖平台。

4月初,百度与平安保险、一号店等企业签署了JBP(Joint Business Plan),所涉金额均超过亿元。据记者了解,目前,在百度年投放额超过亿元的客户已经达到四五十家,它们贡献的收入占到百度广告收入的约40%。从广告收入和大客户情况来看,百度已经接近了央视。

不过,百度是否像央视一样具有绝对强势的地位?从国外情况来看,宝洁、欧莱雅等广告大户对Google等搜索引擎投放的绝对数额不低,这一方面是由于国外对点击效果的认可,一方面是这些企业已拥有成熟的效果衡量体系。但在国内,这两个条件目前都不具备。

2007年,百度设立品牌专区,即当搜索企业名称时,搜索结果的第一项会出现该企业网站的微缩版,大约占三分之一页面。据记者了解,品牌专区的年投放额度大多在100万元以上。

“对于我们这样已经有一定知名度的企业,做投放并不是为了品牌,更多的是担心如果不做,搜索结果的链接会指向假链接。”一位百度品牌专区企业告诉记者,品牌专区的意义更接近于“保护费”而非品牌广告。

“如果挡住各大搜索引擎的标志,测试搜索结果,你可能根本无法分辨是百度、360,还是搜狗、搜搜。”互联网资深评论人士程苓峰认为,比拼资源背后,是国内搜索引擎缺乏创新能力。

重新定义搜索

搜索的危机,始于关键字广告的地位不稳。

2012年数据显示,Amazon每年的广告收入已超过10亿美元;在国内,2013年,淘宝广告系统给予合作伙伴的分成有望达到50亿元人民币,接近百度给联盟成员的分成总额——尽管广告总收入微乎其微,但从广告生态来讲,电商对搜索引擎的冲击已经越来越严重。

Amazon、淘宝之所以后来者居上,一个最大的原因在于,大数据挖掘正变得比搜索更加有魅力。最近,有很多网友惊讶地发现,在新浪微博的展示广告上看到了自己在淘宝曾经购买的商品。这就是淘宝大数据的能力。它只需要你的购买数据,而无需有搜索请求。

搜索是不是就没用了呢?拉里·佩奇和谢尔盖·布林创建Google时,是为了检索信息的方便,但当信息不再匮乏,人们的时间变得稀缺时,以信息为核心的第一代搜索就需要向以人为核心的下一代搜索演进。

一方面,在传统的搜索框领域,不断升级图像搜索、语音搜索。例如,用百度搜索“不掉毛的狗”,搜索结果不再指向百度知道、百度百科,或其他宠物网站,而是在结果推荐上直接显示雪纳瑞、比熊等的介绍。又如,当输入歌名时,即使不在“音乐”栏目中搜索,也会直接出现这首歌的播放界面而非链接。

另一方面,以搜索框为代表的网页图谱开始向社交搜索、实体搜索过渡。

2013年1月15日,Facebook推出了站内的社交搜索Graph Search,技术方面由Bing提供,避开Google。

Ark公司以及李嘉诚共同投资的everything .me,亦是利用社交数据的搜索APP。在其搜索结果显示里,不再是单纯的链接,而是包括来自网页、Facebook、Twitter等的各类信息。

国内的互联网搜索引擎企业中搜也在进行类似尝试,其抓取范围涉及微博、猫扑等社交网站。

微软全球资深副总裁、Bing搜索负责人沈向洋表示,社交搜索是趋势,但目前社交网络数据还不足以支撑在社交搜索领域再出一个Google。他认为,一个搜索引擎要先抓到几百亿以上的信息量,搜索结果才开始有点道理,这是个基础门槛。Facebook有9亿用户,每个人每天都在产生几个页面的内容。估计还要五年社交搜索才会有相当的力量。

网页图谱把网页连接到一起,社交图谱把人连接到一起,接下来就是能否把实体经营连接到一起。比如这个酒店和一个特定咖啡杯是什么关系?酒店的位置、星级、住过的人、办过的会议都是什么。在获取属性数据之后,接下来搜索技术就可基于这些数据分析出两个实体的关系,进而帮你做出判断。这就是实体搜索,谷歌眼镜(Google glass)正试图达成这样的效果。

但关于搜索技术的想象并未由此结束。目前的搜索形态是:用户输入关键词,搜索引擎随之呈现相关结果,但与这种“先指令后执行”式搜索不同的是,未来,信息将“自动”找上门来。

搜狗CEO王小川在接受记者采访时曾表示,他对Siri及语音、语义搜索有极大兴趣。他认为,在移动互联网领域,浏览器、搜索框未必重要,真正的搜索需求正是掩藏在一些人机互动,即对话式搜索中。

搜索将化身为机器思维。百度技术总监余凯对记者表示,在数据量较小的上世纪90年代,以“先制定规则再让机器遵守规则”的“浅层学习”在学术界中占主流。而在大数据时代,“让机器依靠统计数据来学习和感知”的深度学习成了各公司的投资重点。

4月30日,一家名为Expect Labs的创业公司宣布获得了英特尔资本、三星风投与西班牙电信数字基金的战略投资,Expect Labs所拥有的技术就是在语音聊天(两人或群聊)的时候,通过语音分析、自然语言处理和语义分析,来实时理解人们正在说什么,然后帮助用户找到和当前聊天内容相关的信息。

但这是否意味着,英特尔、三星要进入搜索市场,颠覆搜索格局呢?两者并未发表过任何相关企图。但可以预计的是,在搜索框即将消失的未来,搜索本身将退至后台,成为服务性工具。

超越搜索

今年4月份,天猫宣布打造“千人千面”的无线客户端。用户可以据自己喜好选择首页展示的品牌,天猫也会针对不同用户进行个性化推荐。阿里巴巴正试图通过数据挖掘来匹配你的需求,而不是让你搜索。

阿里首席商业智能官车品觉曾对记者表示,当人们问什么是“小而美”的店铺时,它既不能通过Google和百度的百科知识得到,也不能简单通过社交网络上的口碑而断定,它需要大数据的分析和评判。“熟客回头率高的店铺是小而美店铺”,这是大数据分析的结果,是通过大数据达成广义上的搜索。

在阿里巴巴的战略规划中,它将成为一家数据公司,而不是电子商务公司,更不是搜索公司,虽然阿里巴巴已经有一淘、地图等搜索工具,但这仅仅是其生态圈里的一个物种。

Google未来似乎亦不再是一个搜索公司。Android、Chrome浏览器等平台正大放异彩。谷歌眼镜、无人驾驶汽车、用高空气球建设宽带,曾被看作是Google充满奇幻色彩的“不务正业”,但这些都是通过不同形式收集和分发信息数据,或为此创造应用环境。Google引领的正是超越搜索的信息获取方式。

从这个角度而言,微信也是超越搜索的一种平台方式。据记者了解,除即时通讯之外,微信平台已有招商银行、南方航空、平安肇庆等公众账号通过微信提供服务,而用户输入的指令正是用户面对特定对象提出的搜索需求。

据接近搜狗的业内人士向记者透露,最近,搜狗从事语义搜索的队伍被腾讯微信挖走。多数业内人士认为,微信面向聊天内容的搜索、公众账号的应用内搜索有很大的想象空间。

虽然微信表现出对搜索的兴趣,但其并未想从传统搜索模式中赚取收益。事实上,被三星、英特尔投资的Expect Labs公司,亦非面向普通用户的商业模式,它通过向其他公司销售“预测计算”引擎的授权而获得收益。

即便是正在打破搜索市场格局的360公司,其核心的商业模式,也不是传统搜索,而是流量变现的能力。这意味着,传统搜索模式将被边缘化,特别是当用户在其他移动平台或应用中能够获得更满意的搜索答案时,这种趋势就会更加明显。因为,为用户推荐所需的商品或其他内容,成为各APP或者平台提升用户体验的一种手段,而不是赚钱的工具。

在过度商业化之后备受资本市场质疑的百度,正试图搭建一个移动生态圈。正如百度创始人李彦宏所言,对移动的布局,不能仅靠一个产品,而需要一个生态系统,实现良性循环。那么搜索在这个生态系统中还将是百度的核心吗?百度的地图、视频、旅游等产品,在移动端的表现似乎并不逊于搜索。

当搜索已经超越原来的搜索框,关键词广告的商业模式还能不能延续?从目前移动互联网的发展来看,仍以Banner广告为主,此外还有开屏、插屏、动画、嵌入文本等方式,但“总体来说大家都没找到感觉”。“机会不一定都属于巨头,也存在出现下一个Google的可能性。”话是这么说,但更多业界人士担忧,在移动互联网的用户端,传统互联网搜索模式消失的可能性非常大。

未来的搜索

打败谷歌?一项“必应(Bing)PK谷歌(Google)”的比赛在微博上热传。参与活动的用户只要登录指定页面,随意输入想搜索的关键词,就可以通过5轮盲测推选出自己认为最好的搜索结果。第三方独立调研机构益普索统计的盲测结果显示,中国有75%的参与者首选微软必应提供的结果。

与受欢迎程度不相称的是必应在中国不足1%的市场份额。即使作为后来者的奇虎360也能在宣布进军搜索领域一个月后,轻松拿到了11%的市场份额。微软亚洲互联网工程院院长王永东认为,测试结果显示了微软的技术优势,而他们的宣传是短板。

为了得到关注度和影响力,必应推出一款新产品“必应影响力(Bing Score)”并在2013MSN时尚影响力大典上发布。必应影响力项目总监李明章娴熟地打开这款产品演示,他指出,本周娱乐版榜单,杨幂和苍井空在前两名的位置已经上下变化了好几次。他正思索是否以此为噱头做一次营销。这个看似普通的工具,其背后却是微软“实体搜索”(Entity Search)技术的新实践。

实体搜索是相对于关键词搜索而言的。按照李明章的说法,必应影响力是中国团队用实体搜索等技术开发,并植入必应搜索的产品。微软全球资深副总裁、搜索与广告首席科学家沈向洋表示:“社交图谱搜索和实体搜索将成为必应的新机会。”微软正在悄然布局,一种全新的搜索方式正把必应推向搜索的第三次革命中。

Web末日

基于传统网页搜索的卡位战已经结束,谷歌、百度脱颖而出,必应在美国联合雅虎取得了30%的搜索市场份额。以未来微软对搜索引擎的野心为界,微软亚洲研究院常务副院长马维英认为搜索历史的三次突破就是三张图谱:网页图谱、社交图谱和实体图谱。

上世纪90年代,信息检索只有两个衡量的指标:查准率和查全率,最早的搜索引擎AltaVista只解决了查全率就成了当时最负盛名的搜索工具。谷歌的两位创始人拉里·佩奇(Larry Page)和谢尔盖·布林(Sergey Brin),使用PageRank的全新算法,解决了查准率的问题,令当时所有搜索入局者不能望其项背。

过去十几年,搜索引擎的研究和创新一直围绕排序进行,业内参与者竞争的焦点是:谁的排序相关性更好?

信息爆炸让改变悄然发生,互联网产生的数据越来越多,没有被纳入搜索引擎的“暗网”以万亿计。人们也往往没有时间和耐心点击第五页以后的搜索结果。“最后只有0.001%是有用功,这是很多搜索引擎面临的资源浪费。”马维英说。

困境中亦存机会。Facebook去年高调推出“社交图谱搜索(Graph Search)”,你可以通过它搜索好友圈中谁看过灾难电影。Facebook搜索依靠的是10亿用户、2400亿张照片和1万亿次页面访问量带来的数据金矿。

Facebook的社交行为数据正在满足相当比例的搜索请求。可以基于朋友的“Like”搜索加州的特色餐厅,或是通过朋友的照片寻找一起滑雪的玩伴。除相关的语义研究,社交图谱搜索背后是把用户行为产生的数据,比如点击习惯、Like等运用到极致,它更倾向于解决与生活相关的社交信息。

微软看到的实体搜索机会对比Facebook的显著进阶是,不仅仅有“人”、“地点”、“照片”等一些最常见的实体,也有如哈利·波特、植物、动物等真实和虚拟世界内的所有实体。

实体搜索的概念产生于2004年,其前身是微软研究院研发的学术搜索,它试图解决信息检索的精准化。马维英认为,搜索结果的理想呈现形式类似于维基百科。不过维基百科是人们手动整理和撰写的,而微软试图通过自动算法、机器学习、数据挖掘和自然语言理解等技术自动生成类似网页。

在算法上,实体搜索把传统基于“文本”的搜索改变为基于“对象”的搜索,搜索引擎更加智能地去理解用户的真实需求。例如搜索“Apple”,它理解成苹果公司的机率最高;如果搜索“Big Apple”,最高的可能性则是列出纽约市。短期来看,实体搜索是对现有搜索精准度的一次改进。

它真正的潜力显现可能在10年甚至更久之后,马维英描述了未来实体搜索的美好图景:未来仅仅使用搜索引擎就可以自动生成“维基百科”,不仅仅出现奥巴马,而且能够继续生成对他的描述及所有社交好友对他的评价;搜索引擎可以自动区分出有几个名叫“Michael Cohen”的人,并告诉你他们在每一个领域的影响力,而非在搜索结果中混在一起;如果你想认识一个叫“Joe”的朋友,搜索引擎可以画出“六度人脉”,告诉你通过谁可以找到她;甚至还可以绘出家族或者师生图谱,比如微软亚洲研究院院长洪小文和沈向洋都是Raj Reddy的学生;仅通过搜索,你就可以比较微软和IBM在不同时期不同领域的实力对比;甚至一家酒店,可以把酒店的某个房问与开过的会议及开会的人相连接。

秘密武器

微软亚洲研究院正在实现实体搜索的未来设想。

2001年,马维英加入微软亚洲研究院,开始负责互联网搜索和数据挖掘等领域的研究。在过去的几年里,他和团队研发了大量与实体搜索相关的项目,如“人立方”、“学术搜索”、“读心机器人”等,其中,“读心机器人”已转化为微软必应搜索引擎的在线服务产品。

五年前推出的“人立方”被广泛应用。当搜索“比尔·盖茨”,他的关系网状图将呈现在页面上,包括他的妻子、同事及好友等。这是挖掘作为“人”的实体最广泛的运用之一。

最直接的工具是“莱特自动问答引擎”。当搜索“詹姆斯·卡梅隆的夫人是谁?”页面马上出现五个人名,以及每一个人的正确比例。实际上,詹姆斯·卡梅隆确实有五个夫人。区别于传统搜索引擎,“莱特自动问答引擎”不是文本的堆砌,而是要点的回答,这部分解决了信息精准推送的问题。

最有趣的应用是“读心机器人”。用户可以在心中随意想象人或物,然后让电脑来猜。其实现方式是人与机器问题互动,比如用户回答电脑设定的一些问题。不要小瞧了这种看似像打发时间的游戏,你输入的每一次信息都将是机器学习的过程,它发现微软公司全球资深副总裁张亚勤的特征是“面部有颗痣”。电脑获取反馈后会越来越聪明,这令搜索结果更加精准。

“特别是在人类实体里,借助规模的用户反馈,能够清理一些自动生成的不准确个人档案,借助用户参与自发形成的与体育、科学、商业领袖相关的实体资料会更加精准。”马维英说。

“读心机器人”和“人立方”累积的关系亦被应用到必应影响力中,构成人与人关系的基础,这被看成是实体搜索在中国的一次现实性应用。但这些工具亦存在局限性:“莱特自动问答引擎”并不能告诉你现在正在上映的电影,也无法告诉你附近有哪些好吃的餐馆,“人立方”和“读心机器人”也仅限于名人,无法显示难以在网页中搜索到的普通人。

以人为核心的实体搜索最大问题是重名,仅中国就有20万个名为“张磊”的人,区分此类信息极具挑战。微软亚洲研究院主管研究员、人立方项目负责人聂再清对记者说,“现在我们对人名、地名、产品名的识别挖掘已经应用到必应中。”

对于这些局限性的解答,是微软的终极目标。而这一切,远非仅靠实体搜索可以做到。

马维英尝试提出一个软件行业的“摩尔定律”,即未来搜索引擎是建立在大数据和云计算的架构上,运用机器学习以及用户反馈,影响搜索结果的精度会在某段时间内提高一倍。至于某段时间到底是多久?每天讨论此事已成为微软亚洲研究院搜索团队的一个乐趣。他们确信的是,摩尔定律之于软件的加速度,必然导致产业巨变。

谁的机会?

即便拥有了强大的用户数据和社交关系的Facebook,也未能使得Graph Search完全达到精准。面对这个看起来前景无限美好的实体搜索蓝图,亦非几个研究项目就可驰骋沙场。

看起来前景无限的社交图谱搜索和实体搜索吸引了行业巨头纷纷涉足。今年5月,谷歌利用“Google+”累积的社交关系,推出了类似于社交图谱式的搜索,比如用户可搜索“我在海滩的照片”或是“朋友间谁拍照最好”。

社交网站基于已有数据做实体搜索是否更具潜力?

前谷歌中国工程研究院副院长、现云云网的创始人刘骏认为:“这需要区分公开性社交和私密性社交。”Facebook、微信属于私密性社交,用户未必希望所有人都能搜到自己;而Twitter、微博这种公开性社交,则更适合社交化搜索。

无论是社交图谱还是实体搜索,结构化数据库成为一大难点。那些类似大众点评的垂直类网站,拥有的结构化数据库似乎在实体领域更有机会。一个显而易见的难点是,现在万亿级的网页以及全人类的知识,都在用非结构化的方法在处理。但更多的数据还是处于“信息孤岛”中,并没有相互连接,有效的解决方法在于平台之间使用一种较好的架构打通数据,彼此形成连接点。

微软使用数据库的最简单方法是战略上合纵连横。通过收购Skype和Yammer,微软拥有了自身的社交数据,Facebook、Linkedin、Twitter等最具社交潜力的公司亦在谷歌与微软的合作间选择了后者。

真正撼动实物搜索的关键之一是能否解决非结构化数据,以及在数据之间建立联系。自然语言理解、机器学习,甚至是多媒体搜索,都将影响到实体搜索最终的实现形态。“实体搜索现阶段更多停留在概念的阶段,如果没有突破性的进展,很难从根本上改变。”刘骏对记者说,“但也不排除未来发生质变的可能性。”

手机等移动设备带来了移动互联网的高速发展期,平台和工具的变化引起了用户使用习惯的改变。一个显而易见的变化是“语音搜索”,另外随着三星最新开发的“眼动追踪”技术,以及微软、英特尔在体感计算上的突破,越来越多的电子设备可以感知用户的手势和动作。或许未来的搜索,只需要挥一挥手,就可以如《黑镜》中的主人翁一样切换频道。

目前的搜索相对被动,而未来的搜索会更加智能,能够根据用户不同的使用场景,用最适合的输入方式实现“主动搜索”。必应植入到Windows、Office的操作系统和软件中成为微软独一无二的优势。你可以在写作时直接在Word中搜索,也可以写一份英文文档时让机器实现自动翻译。

马维英对记者说:“当某一天,大家不再单纯地谈论搜索引擎,它消失并隐身在一切新一代智能软件和服务之中的时候,就是搜索引擎真正实现突破的时候。”

搜索框之外

搜索框是PC时代最重要的入口。在那里,搜索框把大千世界跟答案连到一起,关键词是那把通往答案的密钥。与PC时代不同的是,在移动互联网时代,手机等移动外设已经成为人的一部分,就像是你的大脑,你的眼睛、鼻子、耳朵、手。这时,搜索的“框”在哪里?此时会是“无框胜有框”吗?

苹果Siri的出现,让外界意识到,这也可以成为一个搜索引擎,它提供的并不是大量的网站链接,而是问题的答案。我们看到,继Siri、Google Now之后,在中国市场,互联网巨头如百度、搜狗等,都已在语音助手上发力加码;国内其他语音助手如讯飞语点、科大灵犀、虫洞、智能360等,也在与巨头一起争夺这个市场,争做“中国的Siri”,甚至目前已经有些差异化出来,比如语音云、语义云;而微信,则被外界视为腾讯涉足语音智能交互领域的最佳选择,因为微信天生就具有语音的基因。

Facebook、Twitter和国内的云云搜索,相继推出了基于社交数据的搜索引擎,巧合的背后是否意味着一场静悄悄的变革,Social graph(社交图谱或社会化搜索)会否颠覆传统的搜索呢?

在移动互联网时代,搜索有可能“潜伏”得更深,隐藏在各种社交网站、电商平台的背后,五花八门的APP背后,智能手机、智能腕表、智能鞋等各类感应设备的背后。如果人是一堆数据,搜索就是那根隐形的线条,素描勾勒出数字化的你,甚至是帮你“发现”自己的需求。业界对搜索技术的研究,已经从基本的算法向数据挖掘等更深入的方向转变。搜索能力最终将体现为大数据的处理能力,数据分析和挖掘能力。

当搜索不再是搜索,新的力量也闪亮登场了。

社交搜索:因人而异

在几近垄断的中文搜索领域,一家创业公司的搜索产品能在不到半年的时间内被外界熟知,云云搜索做到了。这在很大程度上与其差异化定位有关——微博搜索、社会化搜索。

“搜索作为一种传统的技术,必须变型,变成一种新的形态才会更有生命力。”在刘骏看来,Social graph(社交图谱或社会化搜索)就是搜索形态的一种变化,在搜索中加入“人”的因素,加入用户关系链系统。

轻量级互联网公司成千上万,但是做搜索的很少。为什么?搜索的投入很大,不是任何一家公司二三十人就能做起来的。不仅如此,要改变Google主导已久的传统搜索模式,在业界刮起一场龙卷风,像云云这样的创业公司能成吗?

社交搜索引擎与传统搜索引擎的差别,主要表现在计算能力和结果准确度上。比如传统的百度、Goolge的搜索结果,每个人跟其他人基本是一样的,每个查询词都得到同样的结果。而根据云云搜索的构想,将给每个搜索者一个最适合TA的结果,这就意味着每个人的每个查询词都需要重新计算和排序,这个计算能力要比现在高出许多倍。

“微博搜索,看似很简单,其实技术很难,是对搜索技术的一次革命。”刘骏坦言。以前的搜索是大量爬取网页,批量处理信息,建成一个“字典”式的索引,每次搜索就像查字典一样,与索引进行比对,这是“很经典的做法”。而云云的微博搜索已经与其很不一样。在网页搜索中加进了人与人之间的关系,且数据信息是实时产生的,运算量瞬间被扩大若干倍,搜索算法也变得更为复杂。

云云搜索的核心团队均来自原谷歌中国,创始人刘骏原为谷歌工程研究院副院长。2010年谷歌搬离中国后,刘骏带领技术团队创建云壤公司。有消息说,成立之初,云壤公司已拿到新浪和360的投资。

从2010年6月到2011年底,大约一年多的时间,云壤团队做出了完整的搜索引擎。2012年12月,云云网(yunyun.com)正式上线,推出自有品牌的“云云搜索”,旗下的网页搜索、实时搜索(微博搜索)、图片搜索和手机应用搜索等也同时亮相。在此之前,云云搜索已经为新浪微博安卓手机端提供搜索技术支持。

目前,云云的实时搜索不仅可以搜索新浪微博,而且支持腾讯、搜狐、网易等主流微博平台,用户可以自由搜索中文微博内容。刘骏介绍,云云搜索目前是国内唯一打通四大微博平台的搜索引擎。

能做到这一点,除了云云在技术上的优势,很重要的原因之一与新浪的投资有关系。

目前,云壤团队除了推出“云云网”平台之外,还先后开发了“微博订阅”、“云云阅读”等产品。谈及社交搜索的普及,刘骏坦言“需要一定的时间”。不过,他从“微博订阅”、“云云阅读”等产品的回头率上,看到了信心。在搜索中加入“人”的因素,不止云云搜索有想法,包括Google利用G+在做,Facebook用Graph Search在圈地。今年1月Facebook召开发布会,推出社交图谱搜索工具Graph Search。用扎克伯格的话说,这是Facebook继“动态消息”(NewsFeed)和“时间线”(Timeline)之后第三大支柱,也是Facebook“第一个巨大的产品发布”。

“蛮震撼的。”谈及Graph Search发布时的感受,试用了Facebook这款产品的刘骏这样回答,他说自己周围的朋友对此都“印象非常深”。刘骏告诉记者,Graph Search与云云的社交搜索相同的是,都利用社交关系来推荐内容;不同的是,前者利用的是Facebook自身的私密性社交网,而云云搜索利用的是微博等公开性社交网,而且是采用全网搜索技术。微博搜索是云云涉足社交搜索的切入口。“还只是刚刚开始。社交搜索最大的将来,应该是在移动端上。我相信,两年后移动上的搜索一定不是现在的状态,一个搜索框里打进去关键词,出来十个搜索结果。到底是什么样的形态,有待大家共同摸索。”在刘骏眼里,云云处于“非常好的位置”来探索社交搜索的未来。

按图索骥:虚实新世界

走在街头,看到对面过来的美眉脚上的鞋子很好看,拍下来,搜索一下,看看这双鞋到底在哪儿有卖,都是什么价格……

在盘古搜索CEO王红宇看来,这些都是让她“着迷”的搜索正在实现的事情。“我们设想一下未来,未来大家的生活一定非常easy。”说到借助手机等移动端,搜索可以做的事时,王红宇有些难以掩饰的兴奋。而移动搜索正是创业两年多的盘古搜索希冀有所作为的领域。

作为盘古搜索CEO,王红宇经常会用这样的方式提醒产品开发团队,“用户拿到手机,他第一时间为什么要用你的搜索?他用你的搜索干什么?他想得到什么?用手机搜的肯定跟在桌面搜的不一样,使用的情景不同了。”

搜狗搜索CEO王小川提出要做“探索引擎”,以摆脱上一代搜索引擎“搜索框+关键词”的传统模式,中国搜索业界大佬百度的李彦宏也发内部邮件称要推进移动搜索业务,而这一点也被新进的有力竞争者盘古搜索看重。

2012年10月安卓全球开发者大会上,王红宇现场演示了“盘古搜索大众版手机客户端”图书频道的即拍即搜功能。点击相机icon—选择“拍摄封面”—拍照、保存,即可搜索相应图书内容,同时这个功能还能结合“商家比价”、“追书”、“在线阅读”等功能,使封面搜书、比价、阅读一气呵成。

事实上,“即拍即搜”是盘古搜索的产品开发团队为手机这样的移动设备量身定做的搜索功能。

在她看来,移动搜索与传统搜索的重要区别是,从文字输入变为文字、图像、声音、体感、位置的综合输入,输出结果因为移动设备的特征而变得更自然、智能和互动。王红宇认为,要做好移动搜索,就必须重点开发基于最新的图像音频识别的用户输入技术,基于用户数据挖掘的推荐技术,基于云服务的多终端同步技术。

目前,语音交互技术已经开始成熟,智能手机上提供的语音交互的应用已经很丰富,语音搜索、语音输入法、语音导航软件、语音社交软件等大量应用已经越来越多。过去几年,谷歌已经在为移动设备和网页端的网页搜索添加新的自然语言搜索技术。视觉搜索将是移动搜索的另一个爆发点。

什么是“视觉搜索”?基于图片、影像识别技术,将前端可视内容识别为可供检索的元素与后台数据库相匹配,从而为用户呈现出与之相关的搜索结果。在盘古搜索近期举办的移动搜索发展趋势研讨会上,有专家表示,视觉搜索技术的关键在于前端的图像分析技术,以及后台数据库的垂直信息内容是否充足并具备自我成长的能力。

在产品化方面,视觉搜索技术可以有很多种延展,比如以图搜图、人脸识别、图书搜索、宠物狗搜索、文字识别等功能。盘古搜索推出的“即拍即搜”功能,就是“视觉搜索”产品化呈现的方式之一。

王红宇透露,盘古搜索正在开发一款“用户产生信息”(UGC)工具,这款工具主要是针对像小书店、有藏书的个人或者公司等,他们不像当当、京东等有精力有能力去建专门的图书电商网站,但是他们手中又有相当大的藏书资源。

王红宇介绍,借助盘古搜索的这款UGC工具,普通用户可以很方便地用手机拍照,将自家藏书的图片信息上传到网上,盘古搜索的后台会做进一步设计,比如用户是想交换书籍,还是想二手卖出,或者是想借书,根据用户不同的需求再深入开发产品。“即拍即搜”在图书搜索上的应用,还只是盘古搜索的一次试水。

从全球范围看,在视觉搜索技术的探索方面,走在前面的当属Google和百度。Google在2009年分别推出网页版Google相似图片搜索和Google Goggles,后者是一款安卓版APP,可以拍照并搜索相似照片。2010年,Google特意收购英国视觉搜索公司Plink,以加强Goggles。“Google这套东西除了相似图片搜索技术应用于其购物搜索外,其他的并未带来商业价值。直到Google Glass的出现才让其积累多年的视觉搜索技术有了爆发的空间。”搜索业界人士、爱科技网创始人罗超认为。百度在视觉搜索上的发力也不算晚。2010年推出百度识图搜索(shitu.baidu.com),开始涉水视觉搜索。不过当时因为使用场景有限,这款产品并未被大众熟知,更多是满足了一种新鲜感。

即便如此,百度仍然投入了大量资源来研究视觉搜索。两年前李彦宏就宣称互联网“读图时代”到来,在2010年的KDD(知识发现世界年会)上,他提出的待解9大技术问题中,“基于内容的视觉搜索”排在第三位。在2012年底的百度年会上,李彦宏将“全网人脸搜索”作为年会的压轴之作,这是一款通过用户上传照片,就能在互联网上找到相似照片的产品。图像识别技术应用于全网搜索后,以图搜图的准确率一下子从20%提升到80%。

有观点认为,在移动互联网上,视觉搜索的空间甚至比语音搜索还要大。盘古搜索CTO陈利人就是这种观点的支持者。此外,视觉搜索可以避开语音搜索很多本能的局限。比如语音的识别率赶不上图片识别,对使用者的说话语气、语速、口音等要求颇高,最大的问题是使用场景的局限性,比如跟手机说话会干扰周围的人,容易会被周围的环境干扰。视觉搜索天然地可以规避上述问题。

2011年王红宇提出有关搜索的愿景“不搜即索”,即“让用户在输入最少或无需输入的情况下获取到最想要的信息”。如果将“不搜即索”的理念外化为技术方向或者产品方向,盘古搜索2011年推出的“即说即搜”功能,以及去年推出的“即拍即搜”功能都是该理念的落地。而下一步,盘古搜索或许会在传感器和数据挖掘基础上的“需求发现”(基于一些算法去研究用户潜在的需求进而为用户推荐其所需要的信息)领域有所作为。

知识图谱:从搜索引擎到智慧引擎

如果你有名字记忆强迫症,Google Play Movie & TV新增加的功能应该是个好消息:在观看电影或电视时,用户选择暂停时可以点击需要了解的演员面部,屏幕右方就会显示演员的相关信息,比如年龄、身高和其他影视作品等。目前,Movie & TV也支持音乐的识别。

事实上,Google是将其知识图谱(Knowledge Graph)集成到该应用中。不过,这个功能目前只适用于美国地区,支持的电影也只有几百部,且只有系统是Android 4.0及以上的平板电脑的用户才能享用。

2012年5月,Google在美国推出了知识图谱。有评论称,这可能是Google搜索上线以来最大的一次改革。这也是全球搜索业老大对搜索未来的探索和实践。事实上,Google公司对搜索业务的调整速度远远超过往年。谷歌联合创始人、首席执行官拉里·佩奇(Larry Page)已经把搜索部门更名为“知识”。

阿米特·辛格哈尔(Amit Singhal),Google科学家兼高级副总裁、负责Google搜索的开发工作,他这样告诉我们,“Google希望未来的搜索引擎不仅能够理解你的问题,提供相关信息,而且能够为您提供现实世界中的知识解答——将来的某天甚至能够达到智慧搜索引擎的程度”。

他进一步说,“搜索还远达不到我们期待的发展水平。现有的搜索技术无法处理‘带有防虫喷雾的蚊帐是不是比不带防虫喷雾的蚊帐更有效?’这样的问题。如果从未有人问过一模一样的问题,那么就得不到理想的答案。因为这类问题的回答不仅仅要求编写这些信息——而且需要现实世界的‘实体’知识,以及它们的相互关联性。这就是我们目前正在尝试的方向,将搜索引擎变成一个知识引擎——未来的某一天实现智慧引擎”。

《星际旅行》里的电脑是Google做搜索的终极目标。它懂语音并且很健谈,你可以与它交谈,它应该了解你,也可以与你交谈,它可以给你答案而不是参考答案,它甚至可以预测你的需求。辛格哈尔说,“它是最完美的搜索引擎”。

要达到这个梦想,就意味着Google的搜索系统“需要超越网页上的文字,真正地了解人们的搜索意图,地点和事物——以及它们之间的相互联系。”换句话说,Google的知识图谱和语音搜索将是未来搜索的基石。

辛格哈尔介绍,这是一项具有挑战性的工作,而且这项工作早已启动了。Google知识图谱的信息搜集工作始于2010年收购Metaweb。

Metaweb专注于将不同文字表述与同一个实体连接起来,并探索这些实体的属性(例如明星的年龄)以及彼此之间的联系,最终提供一种新的搜索形式。虽然不能完全替代关键词搜索,但Metaweb的索引、搜索方法在处理诸如“身高小于160cm的女星”之类的搜索时更高效。

Metaweb的主要信息来源是Freebase。但Google知识图谱的信息来源要宽广得多,不仅包括Freebase、维基百科、CIA World Factbook等公共资源,也从其它网页搜集整理了大量信息。Google官方提供的数据是目前已经搜集35亿条信息(facts)。

Google知识图谱刚发布的时候,只是在美国地区。现在,Google将把知识图谱推向每一个英语国家。

事实上,知识图谱的搜索形式并非Google首创。2009年启动的Wolfram Alpha计划就已经开始提供更精确的信息。其与苹果公司合作并为Siri提供搜索支持,使得Wolfram Alpha这款智能搜索引擎名声大振。

Google要真正开发出《星际旅行》里那样的电脑,可能还需要很长时间,但是它已经在向这个目标一步步靠近。对于现在的很多搜索,你会发现Google给你提供的直接回答越来越多。

在“知识图谱”领域,另一IT巨头微软也一直在探索,他们将其称之为Entity Graph。微软全球资深副总裁沈向洋博士认为,搜索的终极其实是“人类智慧的结晶”。Entity Graph不是单纯的信息罗列,而是呈现事物的本质与事物间的关系。

“这是构筑下一代搜索至关重要的第一步。搜索将步入网络集智,对世界的理解也会更像人类。”这是Google知识图谱发布博文中的一句话。作为全球搜索市场占有率超过87%的业界老大,Google知识图谱的发布意味着提供更直接的信息已经是未来搜索发展的方向。

搜索的蓝海在哪里

当最近对于某官方搜索公司的评论充斥互联网时,阿里的搜索悄然上线;此时不乏深请行业底细的专业意见和一些隔岸观火的戏谑。站在科技和商业观察者的双重视角,笔者一直想撰文漫谈搜索市场的商业机会,即我们思想和眼光可及的蓝海究竟在哪里?百度、360、搜狗、即刻、盘古、阿里搜索,还有一两个我们不方便点名但是非常优秀的创业者,它们谁走在正确的道路上?

“模糊”中爆发出的明确需求

让故事从需求和用户开始:今天大众用户的搜索需求最大特征究竟是什么?毫无疑问,答案是“模糊”。举例:某用户搜“布拉德皮特的妻子”,仅通过这些关键词你无法判断他要找的是安吉丽娜·朱莉,还是前妻安妮斯顿。

早先有些自作聪明的搜索引擎总想玩弄用户提供的关键词,以证明自己智能——比如和China Daily合作,甚至被克林顿推荐过的Accoona曾试图通过关键词猜出用户背后的需求,最后该公司去向不明。仅看皮特的案例就可以否定这种模式。用户都不知道自己该怎么定义Query,你又怎么可能知道?

再来一个更自我颠覆的问题,搜索用户自身最大的特点是什么?答案:一群“注意力涣散”的人。未来要致力于搜索行业的学生上第一堂课就会学到这个假设。不多解释,用一个案例说明:作为飞人的粉丝,你输入了关键词“乔丹”,结果百度出了性感的、曲线婀娜的“三版乔丹”,你会戳向哪里?这不是注意力涣散是什么?

结论:“一群容易分神的、并且归纳不清自己需求的用户和信息需求”最后被现代统计学和计算科学的创业者捕获,诞生了当今最有含金量、高度排他的IT生意——搜索。

红海的边界

要找寻“蓝海”首先要知道“红海”的边界在哪里。仍然幻想自己可以和Google、百度正面交锋的创业者要警惕这个边界。这早就不是算法的问题。就算你一夜之间拥有了它们两者的算法,你连走到海滩的机会都很小。这是一个金钱和硬件构筑成的壁垒:为了支撑每天你这儿下点击,这两家公司发电量都够得上十几座巨型城市的需要。

在哥伦比亚河下游的河岸上有两个足球场那么大的建筑物利用河流落差先发电后散热,同时解决了数据中心两种最大的能耗,每日处理数十亿次的搜索请求——这是Google今天的数据中心。在北欧有一些庞大的、布线精密、但是尚未起用的地下设施,这是Google未来的数据中心。

此外,两家公司都有巨大的人力团队来保证搜索质量,抵御各种攻击游戏规则的人。而你需要多大的投入和速度才能迅速爬得一样高,去和他们面对面对话呢?

互联网检索目的就是全网、全文,一个文档一个单词都不漏过。单从字面上就知道是一个高度排他性的生意。继续在这个方向上从0到1地去发展难度可想而知。遗憾的是包括360、即刻等国内公司仍然想在这个领域正面冲击。

那么真正被巨头留下的机会在哪里呢?

时效背后的蓝海

相关性检索最大的软肋就是对于时效的判断。这也是为什么两个巨头都将新闻需求独立出来。同样以“布拉德皮特的妻子”为例,到今天Google相关性检索结果第一页中仍然是一大半关于“安吉丽娜·朱莉”,而另一半有关前妻“安妮斯顿”。

为了满足那些寻找朱莉最新消息的人,我们需要一种更注重时效的服务。这就是为什么Google曾经和Twitter合作,提供精确的时效内容。在地中海南岸骚乱的时候,美国的两个“国家宠儿”Google和Twitter联手传出了大量一线记者和当地社交媒体用户的声音,后者有点类似于我们今天说的自媒体。作为媒体编辑,我一度试图使用这个服务来第一时间确定卡扎菲的生死、穆巴拉克的结局。但是,不要忘记,如果没有Twitter,Google的这个服务就消失了。

还需要更多的证据支持吗?打开百度新闻并搜索,注意看页面下方——那是新浪微博的搜索结果。是的,他们已开始合作!百度和新浪微博的联手原理上和Google与Twitter的关系完全相同。这也正是即刻和盘古等团队应该尝试的差异化领域。谁能够提供一个好用的即时检索,那将是趟入蓝海的先行者。

至此,应该明白为什么Jike.com叫“即刻”而不是“极客”了吧。不过遗憾的是,公司包括邓亚萍在内的两任CEO没有把脱胎于日报资源的产品推向“即刻”,而是去克隆了“相关性检索”的产品,冲向了那片红海。

还有一个站位更好的国内团队,他们拥有新闻社的背景、最庞大的中文媒体团队、以秒更新的独家内容,他们甚至可以让自己的即时内容优先进入自己的即时检索——他们就是新华社的盘古。而且从盘古的首页可以看出,他们比即刻更懂自己的基因优势。但是,目前他们的有效内容远远不够,也许身份决定他们会永远缺乏足够的内容源,因为他们远离UGC和自媒体。

这片蓝海属于谁?那就要等待那些拥有充足可信的新闻资源,对时效理解准确,最懂自媒体,又能够规避内容风险的产品团队。

人肉搜索的蓝海

在一个十几人的研讨会上,我曾目睹一位剑桥同仁展示了一个软件作品,通过公共信息人肉出了与一位在场教授相关的人。当姓名不断被罗列出来的时候,教授惊讶的表情至今难忘。当然最后他不得不打断程序的运行,也许因为部分结果开始涉及他的隐私。

谷歌在历史上制胜的关键:用网页相互引用的网状关系实现了对网页价值的判断,极大提升了用户体验,即我们所知的Page Ranking。留下一个有趣的问题:是否可以用人际关系实现对于人的价值判断呢?这也许可以叫“People Ranking”。

如果你输入“王涛”,不仅可以找到和你个人最近的那个王涛,还可以找到最具有大众媒体价值的那个“王涛”,其中光是球类运动员就有3个。而在当前的微博搜索中,你可能一个都见不到,中国光是叫王涛估计就有15万个,抵得上5个摩纳哥的人口。这,当然就是潜在的商业机会,它也只留给那些可以把实名做得最大、最彻底的创业公司。在这一点上自暴自弃的开心网卖身腾讯,日后会被证明是个极大的价值低估。

作为一个高度规范化实名社区的脸谱一直拦阻Google进入,让对方头疼不已;而Google如此思念脸谱的内容,以至于最后自己决意投身SNS的情结也在于此。

这背后还可以衍生出更多小生境,比如搜索和你最相关的实名UGC。举例:婚庆是个不错的市场,但是过来人都知道强大的点评网在婚纱摄影等小类别的非实名UGC已经被水军冲得七零八落;一个用户只要搜索出自己两三个实名朋友关于婚纱摄影的真实点评就能产生自己10000元左右的消费判断,但是在点评网无法得到满足。类似的还有旅游、电影等,前者几乎是空白,后者要看豆瓣。

掘金垂直需求

此外,还有很多专业需求可以成为蓝海:司法、医学领域的垂直检索。这些价值随文化环境不同而不同。前者在依赖判例的美国很有用,前不久自杀的天才亚伦就在此有过成功的产品;后者发展迅速,更多面向专业人士。

类似想法在不同领域都存在机会:在中国,类似票务、商旅、房产等都有做得非常好,但是不足以独踞市场的成功者,比如去哪儿和安居客等。上述这些如果加入People Ranking的维度,价值又将完全不同。这,也许会是后来者的超车机会。

数字化的“齿轮”

到最后,我再想象一下“搜索引擎”未来究竟会变成什么样?要回答这个问题我们先要忘掉Google、百度、360和搜狗等等。未来的搜索就如齿轮,是一个无处不在的工具。我们能说出身边的齿轮在哪里吗?和大工业时代相比,人类机械已经不以裸露齿轮为性能强大的象征。同理,未来优秀的搜索产品不一定具有搜索的具象;而上文罗列的思路连冰山一角都算不上。但是有一点可以肯定,简单的、无差异的互相克隆一定会失败。最后谁能利用背后技术去实现一个颠覆传统用户体验、有用且差异化的服务,就将是下一个蓝海的发现者。

资料来源:

《财经》2013.16 刘琦琳

《环球企业家》2013.13 刘泓君

《IT经理世界》2013.10 贺文

《销售与管理》2013.4 章劢闻

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

“搜索”的未来_搜索引擎论文
下载Doc文档

猜你喜欢