炼数成金 门户 培训 查看内容

搜索引擎核心技术解密

2015-6-9 16:26| 发布者: 仙豆| 查看: 29763| 评论: 0|原作者: 仙豆

网络 算法 模型 存储 搜索引擎

快速报名入口
经过十几年的发展,搜索引擎已经成为互联网的重要入口之一,全球互联网上访问量较大的十个网站之一Twitter联合创始人埃文.威廉姆斯提出了“域名已死轮”:好记的域名不再重要,因为人们会通过搜索进入网站。搜索引擎的排名对于中小网站流量来说至关重要了,了解搜索引擎简单界面背后的技术原理其实对很多人都很重要

授课对象:
一、对搜索引擎核心算法有兴趣的技术人员
1、搜索引擎的整体框架是怎样的?包含哪些核心技术?
2、网络爬虫的基本架构师什么?常见的爬取策略是什么?什么是暗网爬取?如何构建分布式爬虫?百度的阿拉丁计划是3、什么是倒排索引?如何对倒排索引进行数据压缩?
4、搜索引擎如何对搜索结果排序?
5、什么是向量空间模型?什么是概率模型?什么是BM25模型?什么是机器学习排序?它们之间有何异同?
6、PageRank和HITS算法是什么关系?有何异同?SALSA算法是什么?Hilltop算法又是什么?各种链接分析算法之间是什么关系?
7、如何识别搜索用户的真实搜索意图?用户搜索目的可以分为几类?什么是点击图?什么是查询会话?相关搜索是如何做到的?
8、为什么要对网页进行去重处理?如何对网页进行去重?哪种算法效果较好?
9、搜索引擎缓存有几级结构?核心策略是什么?
10、什么是情境搜索?什么是社会化搜索?什么是实时搜索?

二、对云计算与云存储有兴趣的技术人员
1、什么是CAP原理?什么是ACID原理?它们之间有什么异同?
2、Google的整套云计算框架包含哪些技术?Hadoop系列和Google的云计算框架是什么关系?
3、Google的三驾马车GFS、BigTable、MapReduce各自代表什么含义?是什么关系?
4、Google的咖啡因系统的基本原理是什么?
5、Google的Pregel计算模型和MapReduce计算模型有什么区别?
6、Google的Megastore云存储系统和BigTable是什么关系?
7、亚马逊公司的Dynamo系统是什么?
8、雅虎公司的PNUTS系统是什么?
9、Facebook公司的Haystack存储系统适合应用在什么场合?

三、从事搜索引擎优化的网络营销人员及中小网站站长
从事搜索引擎优化的网络营销人员及中小网站站长
搜索引擎的反作弊策略是怎样的?如何进行优化避免被认为是作弊?
搜索引擎如何对搜索结果排序?链接分析和内容排序是什么关系?
什么是内容农场?什么是链接农场?它们是什么关系?
什么是Web 2.0作弊?有哪些常见手法?
什么是SpamRank?什么是TrustRank?什么又是BadRank?它们是什么关系?
咖啡因系统对网页排名有何影响?

课程大纲:
第一课:初识搜索引擎,了解其技术架构
1、按照各大搜索引擎商业公司使用的技术为依据对搜索引擎进行时代划分
2、讲解搜索引擎的三大实现目标
3、讲解搜索引擎的三大核心问题及技术发展
4、详细讲解搜索引擎的技术架构

第二课:讲解网络爬虫
1、讲解通用爬虫框架
2、讲解通过哪些特征来判断一个网络爬虫是否优秀
3、详细讲解网络爬虫的抓取策略
4、详细讲解网络爬虫对网页更新策略
5、详细讲解网络爬虫的暗网抓取
6、详细讲解分布式爬虫

第三课:讲解搜索引擎索引
1、讲解单词--文档矩阵、倒排索引基本概念、倒排索引简单实例
2、讲解单词词典:哈希加链表、树形结构、
3、讲解两遍文档遍历法、排序法、归并法、动态索引
4、讲解索引更新策略:完全重建策略、在合并策略、原地跟新策略、
5、讲解查询处理:一次一文档、一次一单词、跳跃指针、多字段索引

第四课:讲解索引压缩
1、讲解词典压缩
2、讲解倒排列表压缩算法
3、讲解文档编号重排序
4、讲解静态索引裁剪

第五课:检索模型与搜索排序
1、讲解布尔模型
2、讲解向量空间模型
3、讲解概率检索模型
4、讲解语言模型方法
5、讲解机器学习排序

第六课:讲解链接分析
1、讲解web图
2、讲解随机游走模型、子集传播模型、链接分析算法之间的关系
3、讲解PageRank算法
4、讲解HITS算法
5、讲解SALSA算法
6、讲解主题敏感PageRank
7、讲解Hilltop算法

第七课:云存储与云计算
1、讲解云存储与云计算概述
2、讲解CAP原理
3、讲解Google的云存储与云计算架构
4、讲解google文件系统GFS
5、讲解BigTable存储模型
6、讲解Map/Reduce云计算模型

第八课:讲解网页反作弊
1、讲解内容作弊
2、讲解链接作弊
3、讲解网页隐藏作弊
4、讲解Web 2.0作弊方法
5、讲解反作弊技术的整体思路
6、讲解通用链接反作弊方法
7、讲解专用链接反作弊技术

第九课:讲解用户查询意图分析
1、讲解搜索行为及其意图
2、讲解搜索日志挖掘
3、讲解相关搜索
4、讲解查询纠错

第十课:讲解网页去重
1、讲解通用去重算法框架
2、讲解Shingling算法
3、讲解I-Match算法
4、讲解SimHash算法
5、讲解SpotSig算法

第十一课:搜索引擎缓存机制
1、讲解搜索引擎缓存系统架构
2、讲解缓存对象
3、讲解缓存结构
4、讲解缓存淘汰策略
5、讲解缓存跟新策略

第十二课:讲解搜索引擎的发展趋势
1、讲解个性化搜索
2、讲解社会化搜索
3、讲解实时搜索
4、讲解移动搜索
5、讲解地位位置感知搜索
6、讲解跨语言搜索
7、讲解多媒体搜索
8、讲解情景搜索

第十三课:实战讲解怎么构建一个搜索引擎01(使用Java开发)
1、准备搜索引擎开发环境、提取HTML文件内容:结构化信息提取、网页架构相似度计算、正文提取工具FireBug、NekoHTML的使用
2、提取txt、pdf、word、execl、PowerPoint等文件内容、流媒体文件内容提取(音频文件、视频文件)
3、Lucene中的中文分词、Lietu中文分词的使用、理解Lucene的索引库结构、设计一个简单的索引库
4、自动分类的SVM方法实现、K均值聚类方法、K均值实现、拼音转换、语义搜索

第十四课:实战讲解怎么构建一个搜索引擎02(使用java开发)
1、索引优化、查询优化、实现时间加权排序、实现字词混合索引、定制Similarity、定制Tokenizer
2、Lucene搜索接口、搜索页面设计、实现搜索接口
3、实现关键字高亮、实现多维视图、实现相似文档搜索、实现AJAX自动完成
4、使用Solr实现分布式搜索:Solr服务器端的配置与中文支持、Solr索引库的查找、Solr搜索优化、SolrJ查询分析器、Solr的.net客户端、Solr的php客户端

授课时间:
第1期课程预计2015年9月14日开课,预计课程持续时间为16周。

收获预期:
对搜索引擎的原理掌握,对搜索引擎相关技术掌握

课程环境:
java开发环境

讲师介绍:
本次课程将由zouhg讲师完成。zouhg讲师从2010年开始,从事大型web站点的运维工作,曾经任职多家互联网担任资深运维工程师的职位,对大型web站点运维有相当丰富的经验。

课程试听:



新颖的课程收费形式:“逆向收费”约等于免费学习,仅收取100元固定收费+300元暂存学费,学习圆满则全额奖励返还给学员!

本门课程本来打算完全免费,某位大神曾经说过“成功就是正确的方向再加上适度的压力”。考虑到讲师本身要付出巨大的劳动,为了防止一些朋友在学习途中半途而废,浪费了讲师的付出,为此我们计划模仿某些健身课程,使用“逆向收费”的方法。
在报名时每位报名者收取400元,其中100元为固定 收费,另外300是暂存学费,即如果学员能完成全部课程要求,包括完成全部的书面和互动作业,则300元全款退回。如果学员未能坚持到完全所有的学习计划任务,则会被扣款。期望这种方式可以转化为大家强烈的学习愿望和驱动力!

课程授课方式:
1、 学习方式:老师发布教学资料、教材,幻灯片和视频,学员通过网络下载学习。同时通过论坛互动中老师对学员进行指导及学员之间相互交流。
2、 学习作业:老师每周布置书面及互动作业,学员需按时按质完成作业。
3、 老师辅导:根据作业批改中发现的问题,针对性给予辅导,帮助大家掌握知识。
4、 结业测验:通过测验,完成学业。

您是否对此课程还有疑问,那么请 点击进入 FAQ,您的问题将基本得到解答
全国统一咨询热线 4008-010-006

课程现开始接受报名,报名方式
网上报名 请点击:搜索引擎核心技术解密
咨询Email :edu01@dataguru.cnedu02@dataguru.cn
课程入门讨论咨询群:
706821899(群内有培训公开课视频供大家免费观看)
咨询QQ: 2222010006 (上班时间在线)


技术热点、 行业资讯,培训课程信息,尽在炼数成金官方微信,低成本传递高端知识!技术成就梦想!欢迎关注!
打开微信,使用扫一扫功能,即刻关注炼数成金官方微信账户,不容错过的精彩,期待您的体验!!!
快速报名入口
7

鲜花

握手

雷人

路过

鸡蛋

刚表态过的朋友 (7 人)

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

 

GMT+8, 2018-12-17 12:05 , Processed in 0.185224 second(s), 33 queries .