联享懂营销的专业网站设计制作公司

我们如何获得网站的数据

2023-02-24 围观热度 3420技术推荐
      当我们试图从各种网站分析的报表中解读各种指标和数据的时候,需要去了解它们的定义(Definition)和计算规则(Computation Rule),其中必须要具备的基础知识就是在网站中通常以何种方式获取数据。下面就介绍数据获取的基本方式,以及原始数据是以何种形式存在的。

常见的数据获取方式

      其实网站的数据统计(早期叫流量统计)由来已久,因为网站管理员需要了解和监控网站的访问状况,通常需要记录和统计网站流量的基础数据,但随着网站在技术和运营上的不断发展,人们对数据的要求越来越高,以求实现更加精细的运营来提升网站的质量,所以网站的数据获取方式也随着网站技术的进步和人们对网站数据需求的加深而不断地发展。从使用发展的情况来看,主要分为3类:网站日志文件(Log FiIes)、Web Beacons(俗称打点)、JS页面标记(JavaScript Tags)。其实这3种数据获取方式也反映了一个进阶的过程,从网站日志到JS标记,每一项后面使用的技术都是对前面技术的部分沿用和改进,规避之前技术可能存在的一些缺陷和不足,我们可以大致了解一下数据获取(Data Capture)的基本知识和发展过程。

1.网站日志文件

      记录网站日志文件的方式是最原始的数据获取方式,主要在服务端完成,在网站的应用服务器配置相应的写日志的功能就能实现,如图2-1所示。

图2-1 网站日志文件数据获取方式
     网站的应用服务器输出的日志所记录的其实是用户终端为了满足用户的访问需要,对服务器发起的所有的资源请求,这些资源请求不仅包含页面请求,页面展现的所有相关元素请求也会被记录,如图片、CSS、文件(Flash、视频、音乐等),另外一些iframe也会被当成请求记录。所以原始的日志文件记录了很多统计中用不到的内容,这些内容产生的筛选和过滤工作带来了巨大成本,同时导致了统计数据的不准确。日志文件的另外一个缺陷就是由于数据获取在服务端进行,很多用户在页面端的操作(如点击、Ajax的使用等)无法被记录,限制了一些指标的统计和计算。

2.Web Beacons

     为了避免网站日志文件形式给应用服务器带来的额外压力,以及过量的日志记录导致数据筛选过滤的成本,于是就出现了Web Beacons的数据获取方式,貌似还没有正规的中文翻译,一般被称为打点。Web Beacons的实现方式是在需要统计的网站页面或者模块上嵌入一个1×1像素的透明图片,用户完全察觉不到,当用户访问该网页的同时会请求透明图片,并完成页面访问的记录工作,就像是在纸上画了一个不易看到的小点来标记那张纸,如图2-2所示。

图2-2 Web Beacons数据获取方式
      Web Beacons的方式实现了日志记录服务器与网站应用服务器的分离,使用独立的日志记录和处理服务器避免了应用服务器的额外压力,而且可控的图片嵌入方式大幅度降低了日志记录数(对于一般的网站页面而言,当请求一个页面时,传统网站日志记录数是6到10条,也就是说,使用Web Beacons的方式记录的日志数量大约只有原始服务器日志的1/8,传统的流量统计工具如AWStats、Webalizer等用Hits这个指标来记录原始记录数,一般是正常页面浏览PV的6到10倍,对于某些复杂的站点甚至是20多倍),保证了数据统计的效率和准确性。
而Web Beacons的最大劣势就是获取信息的有限性,尤其是记录的来源页面(Referral)为图片所在的页面,而不是该页面的前一个页面,同时由于与网站应用服务器分离,用户cookie等信息的记录也有可能丢失。所以单纯使用Web Beacons的形式无法完全获取网站分析指标需要的信息,于是就出现了JS页面标记。

3.JS页面标记

     JS页面标记同样是对Web Beacons的改进,弥补Web Beacons在信息获取上的不足。JS页面标记同样需要在页面端进行处理,只是嵌入的不再是图片,而是JS标记代码,当用户访问网页时同时出发并执行JS代码,JS代码会将一些统计需要的信息以URL参数的形式附带在图片请求地址的后面,然后再向日志服务器请求图片,这样日志服务器就可以获取比较完整的访问数据。如图2-3所示。

图2-3 JS页面标记数据获取方式
     JS页面标记的方式具备了数据获取的灵活性和可控性,以及获取信息的完整性等优势,同时可以监控页面端的各种操作,如点击、Ajax等,唯一的缺点就是当用户禁用JS功能时,所有的信息将无法获取。

通过以上对三类数据获取方式的介绍,我们可以来比较下它们的优缺点,见表2-1。

表2-1 三种数据获取方式的比较
      所以,JS页面标记方式因为其使用灵活性、可获取数据的丰富度和统计得到的指标的相对准确性成为目前最常用的一种数据获取方式。下面来简单比较一下网站的日志文件和JS标记所获取的数据具备哪些信息、记录的方式有何不同。

  • 7x24

    全国售后支持123

  • 14

    14年行业服务经验

  • 26

    全国售后支持

  • 200

    超百人设计、研发团队

  • 2

    服务企业客户2万家

  • 9

    连续9年守合同重信用企业

关于我们
广州联享信息科技有限公司成立于2011年,是成熟的企业互联网解决方案服务商。致力于帮助每个企业实现互联网智能经营。截止目前,联享科技在全国设有26家分公司,拥有员工200余人,总公司现设有客服事业部、运营事业部、网络事业部、行政事业部四大职能部门...
联享科技已覆盖互联网主要城市
目前总部设立于广州,并在深圳、上海、北京、杭州、长沙、武汉、郑州、石家庄等全国26座城市设有分公司及30余家核心城市代理,更多城市正在筹建中,敬请期待

Copyright © 2007-2022 联享信息科技有限公司(a020.cn)版权所有

常年法律顾问:广东梵意律师事务所 周乙飞律师(主任)