浅析谷歌与百度中文分词技术差别 | 漏洞人生

浅析谷歌与百度中文分词技术差别

2014-6-28 Google, 百度算法 SEO优化 23573次访问

百度与谷歌是我们SEO工作中接触最多也是谈到最多的两个搜索引擎，大的方面就不说了，那么在于中文分词上面，百度搜索引擎具有明显的

优势，毕竟是全球最大的中文搜索引擎嘛，那么谷歌在识别中文分词这块与百度有什么样的区别呢，Sofia下面结合知乎上的一篇技术文章给大家简单分析下。

虽然说我们目前所做的SEO工作基本上都是针对百度的，但是客观上来说，在与搜索相关的基础技术方面，百度距离 Google 仍有很大的差距。

google与百度的计算资源差距

机群管理的技术水平决定你能拥有和有效使用多少硬件资源，大规模计算与存储决定你能在这些硬件上做多大规模的事情，

而最后，搜索引擎本身就是一套大规模机器学习系统，而在这方面，百度永远不及谷歌。

百度与谷歌的分词技术

百度的中文分词

「百度更懂中文」的一个集中体现。

百度做中文分词是这样一个模型：先从一个人工编辑好的字典开始，用这个字典跑一些网页，观察分析里面的 bad case 。

由于分词过细或者其他原因，或者是中文人名或者特殊名词没分出来，然后就尝试根据中文语法规律加入规则，或添加词表来解决这些 bad case,

如此往复，直到有满意的结果。上线应用，发现有新的 bad case 就再研究加规则，当然也有自动流程发现和确认如「喜大普奔」之类的新词，

这时候体对于长尾头部的一千个热词，百度的人工编辑的优势就能够体现出来了，而且效果也是非常可观的。

Google，技术碾压一切

Google 做分词的话就是把问题看成一个概率问题：如果中文网页中哪些字经常一起出现，那么它们很有可能就是一个词。看哪些词后面会跟的地得，的地得后面有常跟哪些词，语法结构也就出来了。

解题思路就是把所有抓到的中文网页往 MapReduce 里一丢，参数算出来就好了。评估分词质量的方法也很简单，就拿新模型放到网页检索的模型里，做个实验看质量有没提升就行。

这套方法结果之好，基本把中文分词做成了一个没有多少悬念的简单问题，而且基本不需要中文语言专家的参与。

同时这也就是 Google 做 Translate 的思路。这里面基本方法其实非常简单，但是你得先有这么多的网页数据，还得有大机群，有分布计算框架，还有可复用的模型……

这些资源是百度所没有的。

在技术受限的条件下，人工微调优化结果是一个恰当的产品思路，但这个产品思路会与技术发展路线相互影响。

Google 的主流技术思路则是骨子里不相信人工调整，什么事情都非得弄出个自动通用可扩展的模型来不可，这种思路可能一开始在那一千个热词上怎么都比不过勤劳接地气的编辑，但通过积累数据调整模型，假以时日，整体结果质量就会显著提升。

以上，你怎么看

浅析谷歌与百度中文分词技术差别

本文作者：Sofia

版权声明：除非本文有注明出处，否则转载请注明本文来自 https://www.vuln.cn

本文地址：https://www.vuln.cn/1074

评论(0) 引用(0)

发表评论：

生活累，一小半源于生存，一大半源于攀比。

与我联系：戳这里>>

搜索

热评文章
随机文章
最近更新
最新文章

2016-10-5 BurpSuite 1.7.11破解版下载【附多/新版本下载】

2016-11-5 Connectify Dispatch指定程序使用指定网卡[运维神器]

2014-3-25 网站备案流程_网站备案需要什么[简单明了解决备案各种问题]

2018-2-3 最新BurpSuite 1.7.32 破解版[注册机]下载【无后门版】

2016-11-8 php一句话后门的几种变形分析[preg_replace函数]

2016-10-24 Burp Suite使用介绍（一） - 小乐天

2016-10-24 异常中的异常——借助系统异常处理特例实现匪夷所思的漏洞利用 - xlab

2016-10-24 Fireeye Mandiant 2014 安全报告 Part2 - insight-labs

2016-10-24 Trying to hack Redis via HTTP requests - 我是壮丁

2016-10-24 Linux 通配符可能产生的问题 - 爱小狐狸的小螃蟹

2023-2-10 [网盘下载] GB/T 23031. 1 — 2022 工业互联网平台应用实施指南第一部分：总则.pdf

2023-2-7 [网盘下载] GB/T 41870-2022 工业互联网平台企业应用水平与绩效评价.pdf

2023-2-3 [网盘下载] GB/T 36323-2018 信息安全技术工业控制系统安全管理基本要求.pdf

2023-2-3 [网盘下载] GB/T 32919 -2016 信息安全技术工业控制系统安全控制应用指南.pdf

2023-2-2 GB/T 36466-2018 信息安全技术工业控制系统风险评估实施指南.pdf

2023-2-10 [网盘下载] GB/T 23031. 1 — 2022 工业互联网平台应用实施指南第一部分：总则.pdf

2023-2-7 [网盘下载] GB/T 41870-2022 工业互联网平台企业应用水平与绩效评价.pdf

2023-2-3 [网盘下载] GB/T 36323-2018 信息安全技术工业控制系统安全管理基本要求.pdf

2023-2-3 [网盘下载] GB/T 32919 -2016 信息安全技术工业控制系统安全控制应用指南.pdf

2023-2-2 GB/T 36466-2018 信息安全技术工业控制系统风险评估实施指南.pdf

最新评论

陆邀请码

test那个配置文件的路径在哪里啊

小山支持

Big Tree我和你一样的反应

8848666

友情链接