今天看到一篇名为《Google或将网站访问速度纳入PageRank指标》的新闻:
Google品质管理部门的软件工程师马特-卡茨(Matt Cutts)在接受采访时表示:“过去,我们并未把网页载入速度计入搜索引擎排名,但是Google很多员工都认为如果这样做的话,网络会变得更快.而访问速度快的网站显然用户体验更好,因此这些网站应该得到额外的奖励.用户一点都不喜欢非常慢的网站.我认为在2010年,许多网站管理员都将考虑其网站的载入速度.”
业内人士称,Google可能会考虑把网页载入速度纳入搜索引擎排名体系.这将意味提升网站访问速度将成为搜索引擎优化的工作之一.
不少人误解了这篇新闻,认为Matt Cutts所谓的“网站访问速度”就是“网页载入时间”。事实上,网页载入时间是个很抽象的概念,受众多不可测因素:如ISP线路、网页执行时间、服务器的当前负载、服务器带宽等的影响,这一指标很难成为标准性的指标。
以ISP线路为例,任何一个机房在全球各地的连接速度差异很大,Google以哪里的载入速度做标准呢?基本上是个无解的难题。如果用“多次测量取平均数”方式,综合统计Google在全球37个机房的的载入速度,那以后Google对每一个网页的单词抓取都要重复37遍,工程浩大,成本高昂。
事实上,所谓的“网站访问速度纳入PageRank指标”其实是Google的“Let’s make the web faster”项目的一个推广。该项目旨在帮助网站开发人员对网页进行优化,主要指标有:用Gzip压缩网页和js、css文件,正确的使用http缓存,精简html代码等。
Google为此出了几款优化工具,如Page Speed(一个firebug插件),帮助开发人员检测网页优化中的不足。而这个检测工具中衡量的几项数据,其实才是PageRank真正统计的指标。可以想象,未来Google爬虫在抓取网页时,会同时使用类似Page Speed的工具对网页优化成都进行评定和打分,最终的结果将被PageRank作为参考。
Google为什么不断强调网页载入速度?先是“Let’s make the web faster”,后又传闻载入速度将影响Adwords的投放,现在又有网站访问速度将纳入PageRank指标。其实一切的一切,仍然是为了商业利益在考量的,通过提升全球网站的访问速度,Google将:
- 抓取更快:
更快的web站点服务和更快的通信意味着谷歌抓取信息的速度就更快了。这也是目前衡量实时网站的一个标准。抓取更快甚至还会使得抓取成本更低,因为下载页面的时间少了。 - 更多广告:
web页面速度更快意味着更少下载到损坏页面的可能,因此,可以浏览更多的页面,这样谷歌就可以投放更多的广告了。 - 更多的互联网用户:
web速度更快的一个附带的影响就是互联网用户更多了。获益最大的还是谷歌,很少有其他公司能比谷歌收获更大,因为谷歌的顾客基数就比他们大。 - 提高了web作为开发其它应用程序平台的可行性:
比如Chrome OS说,如果web想成为我们的应用程序开发平台,它的速度就得更快,反应得更灵敏。 - 对谷歌的数据中心也有好处:
这点是与上面一点相关的。谷歌的云实际上是由多个互相关联的数据中心组成的。互联网速度越快越高效,数据中心就能更好地一起运作。
真是很大的一盘棋啊!
也不大呢,一台普通服务器,每秒抓取5个网页回来,并且存放到数据库里,100台服务器就是500个,一个月就是500*60*24*30=21 600 000个。几个月时间就很多亿了。呵呵。
您试试吧,有进展了通知我。。。
我正在研究中国有多少网页呢,搞个搜索引擎看看。抓取160亿个中文页面是有点难。
你这工程相当浩大。。。
不错的看法啊~~