搜索引擎作为互联网发展中至关重要的一种应用,已经成为互联网各个领域的制高点,其重要性不言而喻。搜索引擎领域也是互联网应用中不多见的以核心技术作为其命脉的领域,搜索引擎各个子系统是如何设计的?这成为广大
内容简介:
搜索引擎作为互联网发展中至关重要的一种应用,已经成为互联网各个领域的制高点,其重要性不言而喻。搜索引擎领域也是互联网应用中不多见的以核心技术作为其命脉的领域,搜索引擎各个子系统是如何设计的?这成为广大技术人员和搜索引擎优化人员密切关注的内容。
这就是搜索引擎核心技术详解
本书的最大特点是内容新颖全面而又通俗易懂。对于实际搜索引擎所涉及的各种核心技术都有全面细致的介绍,除了作为搜 索系统核心的网络爬虫、索引系统、排序系统、链接分析及用户分析外,还包括网页反作弊、缓存管理、网页去重技术等实际搜索引擎必须关注的技术,同时用相当 大的篇幅讲解了云计算与云存储的核心技术原理。另外,本书也密切关注搜索引擎发展的前沿技术:Google的 咖啡因系统及Megastore 等云计算新技术、百度的暗网抓取技术阿拉丁计划、内容农场作弊、机器学习排序等。诸多新技术在相关章节都有详细讲解,同时对于社会化搜索、实时搜索及情境 搜索等搜索引擎的未来发展方向做了技术展望。为了增进读者的理解,全书大量引入形象的图片来讲解算法原理,相信读者会发现原来搜索引擎的核心技术的理解比 原先想象的要简单得多。
本书适合所有对搜索引擎技术感兴趣的人们,尤其对于相关领域的学生、对搜索引擎核心技术感到好奇的技术人员、从事搜索引擎优化的相关人员及中小网站站长等更有参考价值。
作者简介:
张俊林:本科毕业于天津大学管理学院,2004年于中科院软件所直接获得博士学位并留所从事科研工作,研究方向为搜索引擎与自然语言处理。2005年在CSDN博客发布系列博文“搜索引擎设计实用教程:以百度为例”,在网络上获得了广泛转载与良好口碑。2006年作为联合创始人建立了智能信息聚合网站“玩聚网”,曾先后于阿里巴巴搜索技术中心任资深搜索技术研究员、房价网首席研究员,现任职于新浪微博,从事微博搜索与语义分析及推荐方面的研发工作。
哪些人必读此书?
如果您是下列人员之一,那么本书就是写给您的。
1. 对搜索引擎核心算法有兴趣的技术人员
· 搜索引擎的整体框架是怎样的?包含哪些核心技术?
· 网络爬虫的基本架构是什么?常见的爬取策略是什么?什么是暗网爬取?如何构建分布式爬虫?百度的阿拉丁计划是什么?
· 什么是倒排索引?如何对倒排索引进行数据压缩?
· 搜索引擎如何对搜索结果排序?
· 什么是向量空间模型?什么是概率模型?什么是BM25 模型?什么是机器学习排序?它们之间有何异同?
· PageRank 和HITS 算法是什么关系?有何异同?SALSA 算法是什么?Hilltop 算法又是什么?各种链接分析算法之间是什么关系?
· 如何识别搜索用户的真实搜索意图?用户搜索目的可以分为几类?什么是点击图?什么是查询会话?相关搜索是如何做到的?
· 为什么要对网页进行去重处理?如何对网页进行去重?哪种算法效果较好?
· 搜索引擎缓存有几级结构?核心策略是什么?
· 什么是情境搜索?什么是社会化搜索?什么是实时搜索?
· 搜索引擎有哪些发展趋势?
如果您对其中三个以上的问题感兴趣,那么这本书就是为您而写的。
2. 对云计算与云存储有兴趣的技术人员
· 什么是 CAP 原理?什么是ACID 原理?它们之间有什么异同?
· Google 的整套云计算框架包含哪些技术?Hadoop 系列和Google 的云计算框架是什么关系?
· Google 的三驾马车GFS、BigTable、MapReduce 各自代表什么含义?是什么关系?
· Google 的咖啡因系统的基本原理是什么?
· Google 的Pregel 计算模型和MapReduce 计算模型有什么区别?
· Google 的Megastore 云存储系统和BigTable 是什么关系?
· 亚马逊公司的 Dynamo 系统是什么?
· 雅虎公司的 PNUTS 系统是什么?
· Facebook 公司的Haystack 存储系统适合应用在什么场合?
如果您对上述问题感兴趣,相信可以从书中找到答案。
3. 从事搜索引擎优化的网络营销人员及中小网站站长
· 搜索引擎的反作弊策略是怎样的?如何进行优化避免被认为是作弊?
· 搜索引擎如何对搜索结果排序?链接分析和内容排序是什么关系?
· 什么是内容农场?什么是链接农场?它们是什么关系?
· 什么是Web 2.0 作弊?有哪些常见手法?
· 什么是 SpamRank?什么是TrustRank?什么又是BadRank?它们是什么关系?
· 咖啡因系统对网页排名有何影响?
发布时间:2020-05-06
推荐阅读:
夫唯学院成立于2007年,11年来与数万学员共成长。创始人夫唯先生总结的四处一词、站内站、定向锚文本、聚合等多种核心优化策略,并在众多学员网站上得到验证。夫唯先生推崇“循序渐进,基业长青”的SEO运维思想,以SEOWHY为现实实战案例,历经5年零起步创造了网站品牌。
SEO培训报名联系方式:客服QQ86594013 客服微信:seowhy2021