马占凯:Sogou输入法之父

    中华马氏网 2009年4月15日 搜狗


中文输入法这样亟待改善但缺乏商机的“荒原”,如何成为一个创新主战场?

经过几个月前搜狐与谷歌那场声势浩大的“抄袭风波”,现在你已经可以重新估量输入法对于一家网络公司的价值:从4月8日搜狐公司发布声明称,谷歌拼音抄袭了搜狗输入法词库,至今搜狐的股价已经增长了接近 50%。而在此之前的1年时间里,搜狐的股价下跌了18%。虽然将阶段性的股价变化归结于某一种力量的结果是天真的,但一个较为准确的说法是:通过一款几 兆大小的输入法软件,市值近12亿美元的搜狐重新撬动了华尔街对自己的热情。

这是怎么开始的?答案:这是一次为偷懒而创新的结果。

2005年,本科刚毕业、在太原一家国企做机械设计的马占凯找到了一种省力的方法:写东西时,如果输入法不能直接打出所需词语,他不愿意去输入法的词表 里一页一页寻找想敲的字,而是在搜索框里输入相应的拼音(比如:zhoujielun),获得搜索引擎相应的提示(“您要找的是不是:周杰伦”),由此复制粘贴。

这名没有任何计算机背景,但每天可能使用百余次搜索的年轻人,曾经自己猜测出一套解释:搜索引擎有一个人工整理的巨大词 库。但稍微刨根问底之后,他发现,搜索引擎充分利用了用户输入的关键词,每当某个关键词的搜索量达到一定的数目,比如几百万次,那么这个关键词就自动被收 入搜索引擎的词库。换言之,用搜索引擎来生成一个常用词的巨大词库,花费极小。

这让马占凯隐隐觉得,让搜索引擎来做输入法大有可为。

如果当时他认识任何输入法业内人士,他的想法会被无情打击:谁还会在2005年进入输入法行业呢?早在1980、1990年代,微软就相继收购了智能 ABC和微软拼音,捆绑在Windows操作系统之中。此后还有一些来自民间程序师的作品,到2005年,这几乎已经成为一个寡头垄断的领域:智能 ABC、紫光拼音、拼音加加和微软拼音占据了输入法市场的90%。

理论上,所有这些产品都具备充分的改进空间。它们都是由人工整理词库,成本高且效果不好,很多词不能及时被收入词库。占市场第一位的紫光拼音,甚至2003年到2006年初没有推出一个升级版本。

但商业的力量阻止了改善的动力。输入法是一个叫好不叫座的产品。尽管中国的用户不可避免使用到它,但是却无法靠它取得收入。于是,输入法领域的状态是:不断有人看到市场需求,不断有人做出解决了某些问题的新产品,却没有人能坚持长期而频繁的升级和维护过程。

从某种程度上说,马占凯改变了这一切。如今,他已是搜狗输入法的产品经理,他创意和设计的输入法,为搜狐提供了一个接触广泛用户的新通道:8月底第11 版输入法推出,新产品将和用户账户绑定,通过同一账户可以在不同电脑上使用自己的个性化输入法。于是,输入法和博客一起,成为整个搜狐产品的入口,将为带 动其新闻、社区等产品产生积极效用。

更重要的是,自QQ旋风般占据四亿网民的桌面开始,客户端软件就展示了其巨大的想象空间。而输入法是客户端中粘性大、使用频率高的软件之一,比如,紫光拼音2005年的下载量就仅次于腾讯的QQ,约为2到3亿。

鸡肋

在中国科技业商业化程度不高时,输入法曾是创新最密集的领域——除了拼音、五笔,还有自然码等数十种相关产品。

早在1980年代末,哈工大的一位博士生王晓龙就研发出了一款支持整句输入的输入法系统,后来为微软所收购,成为微软拼音。早期,输入法领域还有“中文 之星”所提供的新拼音输入法,以及后来同样被微软收购的智能ABC。“中文之星”留给很多人的记忆已经淡薄,然而这款让计算机识别中文的产品,其开发者包 括新浪奠基人王志东,以及后来的拼音加加的创始人廖恒毅。

在这些基础之上,1996年,名噪一时的黑马输入法推出。其开发者王励 在联想汉卡待了三年多,在中文处理上积累了丰富经验。那时,这个技术爱好者因为联想要安排其去做管理职位而离开联想,加入黑马飞腾科技有限公司,主导起校 对技术的开发,并抽时间开发出了“黑马神拼”。

直到前不久搜狗和谷歌的争端激烈之时,中国最著名的博客之一王小峰还在其博客上称赞使用多年的黑马神拼质量之高,引发了外界对黑马的关注。

王励把黑马输入法归为是有别于五笔的字输入、智能ABC及搜狗输入法等的词输入的第三代输入法,在整句输入上准确率很高。黑马拼音的句库来自报纸、文学 作品等成文的文字内容,并有自动学习功能,既杜绝了错词的出现,又具有相当高的智能化水平。不过,黑马输入法也有一个致命的弱点:体积大,有400多兆, 不利于传播。

但在当时互联网连接不畅情况下,这倒不成为问题。依靠光盘销售,黑马神拼给黑马公司带来了意料之外的收入。直到今天,黑马采取的仍然是这种销售模式。

不过,2001年,考虑到竞争对手是强大的微软、输入法又无法提供企业所需要的资金,王励放弃在输入法上的继续更新,把精力集中到了黑马的文字校对业务,只留下黑马神拼2001版和一些输入法底层技术作为销售和合作之用。

而因为找不到合适输入法使用、干脆自己开发了拼音加加的廖恒毅,也一度因为每月上百元的注册费无法支撑,而停止了开发和更新。

当然,这些人也并非没有尝试过寻找商业化途径让输入法增值,不过仅仅停留在个人站长式的经营方式上。比如,廖恒毅曾将拼音加加的首页放置了一个百度的搜 索框,进而和百度合作分成。后来,廖恒毅干脆把首页设成了一个类似hao123.com那样的导航页面,这样一来,他便能每月从中获得 10万元左右的收入,这才结束了停止更新的日子。

“融资上市是一个机会,不过我只是一个资深技术人员,过程太复杂,无法把握。”王励表示。

于是,这些输入法的创始人们,几乎都只把输入法作为一个“副业”,自己却不约而同的投入企业软件这个“离钱更近”的领域。

这就使得2005年中,作为一个互联网行业的门外汉,马占凯有机会凭借一个资深互联网用户的体会、拿着对输入法产品的重新定义敲开了搜狐的大门:体积小,容易在互联网上传播;能敲打出热门词语;有一个专门的团队运作,更新快。

寻找伯乐

那时是马占凯工作一周年,他终于忍受不了国有企业的沉闷与缓慢而辞职,怀揣着从亲友那里借来的钱,只身来到北京,起初的目的是为了学些技能,再找工作。

在北京,扑面而来的,是互联网的炽热:一时间,李开复离开微软来到谷歌中国、雅虎与阿里巴巴签订收购协议、百度即将上市前景看好。

这让输入法的创意在马的脑海中重新升起。

百度上市前半个小时,马占凯趴在电脑前,按照网上的客服邮箱给百度写电子邮件,简要阐释了输入法的创意:把百度搜索默认的拼音提示都纳入字库中,再加上在线同步升级数据库的功能,互联网上的热词马上就能出现在输入法的词库中。

发出去之后,马坐立不安地等待回复,在脑子里又搜索了一遍,生怕遗漏任何会引起别人的注意的建议。第二天中午,马又补充了一封信,加上在输入法中集成百 度搜索和桌面搜索功能的提议。然而,几天下来,不断刷新邮箱的他只收到百度的一封例行回复,无任何进一步商谈或合作意向。

马不甘心,在又发去几封邮件仍石沉大海之后,决定转投搜狐。这一次,马等来了迅速而且热情洋溢的回复,搜狐的人表示对此很有兴趣,约马占凯三天之后到办公室一谈。

这三天的等待时间,马占凯并没有浪费。他全神贯注的待在电脑前,不断使用搜索引擎、阅读相关理论,想为来之不易的面试做足准备。于是,三天之后,在去搜 狐前,他把这三天的成果事先发了过去——30 页的文档,其中包括上万字的搜索笔记、200个灵感点和100个小创意。

这种对搜索引擎的熟悉和产品思维为马占凯顺利赢得了第二份工作,成为搜狐的产品经理。

马决定继续去游说搜狐公司副总裁王建军。为了使自己更具有说服力,他统计了QQ和输入法在各大下载网站上的下载量,并逐个分析了输入法这个领域的竞争对手,把这些做成两份 PPT。其显示: QQ有约5亿次下载,而输入法的下载量是2到3亿次。

第二次看完PPT之后,王明确:一定要做。

“输入法效应”

事实上,输入法的开发,与搜狐的战略转移有很大关系。

1998年,张朝阳仿效雅虎的网页目录模式建立搜狐,进入大而全的门户运作。然而,2003年左右,这种内容主导的思路产生了动摇。让搜狐有切肤之痛的关键在于:在诸多重要产品上,如搜索、即时通讯等,搜狐都因为技术不如对手而落后甚远。

不久之后,搜狐建立研发中心,主要是在搜索领域加强技术研发,即研制搜狗搜索引擎。一则从长远来看,搜索是互联网发展的一个重要方向。二则搜索本身技术 含量较高,研发出来的技术也可以辐射到搜狐的其他产品领域。早期,研发中心甚为保密,并未和搜狐在同一办公楼,也没有门牌标识。由于与网易研发中心同处一 楼,张朝阳每次去时都要拉低帽沿,生怕被对方员工认出。

即便采取此般暗渡陈仓之道,挑战仍然显而易见:百度的技术已经积累4年之久,搜狗能依靠什么突破口迎头赶上?

正在搜狐高管们为这件事情头疼的时候,输入法的创意摆在了眼前。“输入法的开发,是搜狗的搜索技术发展过程中结出的一个果实,同时也可以提高搜狗的品牌形象。”搜狐技术副总裁王小川告诉《环球企业家》。

王小川正是统筹输入法开发的技术小组的负责人。在收购紫光拼音不成的情况下,2005年10月,一个几人组成的小组开始进行技术上的摸索,直到 2006年6月5日搜狗输入法第一个版本发布,首阶段工作持续了八个月。

事实上,因搜狗的搜索引擎的使用量不高,当时拼音提醒和纠错功能都还没有实现,因此在词库整理和筛选并不容易。

除了搜索关键词之外,“词库运动”还几乎动用了整个搜狐的资源。比如,开发人员从go2map.com处要到地理信息名词列表,从搜狐音乐搜索得到歌曲和歌手名称列表,从体育频道获得体育明星和赛事名词列表??跨部门的合作耗费了诸多精力和时间。

另外,由于词语来源于互联网,和黑马神拼等相比,搜狗要解决的一个重要问题是错词。搜狗每周会发布一份错词报告,纠正词库中的错误。

正因此,在第一版推出之后的十个月里,搜狗输入法几乎一个月就推出一个新版本,不断的纠正词库错误,提高准确率,并添加一些吸引用户的小功能,比如输入法皮肤、自定义词库。

于是,这个新兴的输入法一经推出,马上获得了预期的效果,迅速出现在无数人的桌面上,取代了原本紫光们的位置。

谷歌输入法则更进一步,其能跟网络账户绑定。也就是说,无论你在任何电脑上,登录你的个人账户,便能使用你已熟练操作的词库。同时,谷歌的“一键搜索”则让搜狗员工叹息品牌效应的威力。

马占凯称,自己最初的创意里也包括“一键搜索”,即在输入法框上集成搜索。它被讨论数次,一直搁置未实行的原因,在于搜狗为避免被误认为“流氓软件”的谨慎考虑,“这会影响用户体验,也不能带来太多搜索量”,马认为。

业内有人士称,在技术领域,搜狗和谷歌输入法的技术能力都不强,并不如黑马和微软。但搜狐和谷歌在易用性上的突破,让它们暂时成功。

在一篇总结性质的PPT中,马占凯写道:在Gmail之前大家以为email就是这样了,在搜狗输入法之前大家以为输入法就是这样了,中国互联网领域很多都没有开始商业化运作,机会还很多。

对于输入法而言,商业化运作刚刚开始,成功也有多种可能性。


分享按钮>>南雄珠玑巷南迁氏族谱、志选集<7>
>> 南京大学博士生导师——燕红