浅议面向电子商务的WEB日志挖掘系统


  [摘 要]介绍了Web挖掘模式在电子商务中的四大应用方向,建立面向电子商务的Web挖掘应用系统模型,并提出一种改进站点设计的算法,实践证明,通过该方法可以改进网站的设计和布局,方便用户访问站点,为用户提供方便、快捷的服务,实现为客户的个性化服务。

  [关键词]Web挖掘 电子商务 个性化服务

   

    电子商务是指个人或企业通过国际互联网,采用数字化方式进行商务数据交换和开展商务活动。目前,电子商务正在企业和商贸领域占据着越来越多的市场份额, 网络信息挖掘主要用于对商品的市场定位和消费分析,以辅助制定市场策略,分析购物模式,预测销售行情改进站点设计和提高站点效率。向特定的客户推荐有关的 商品。网络信息挖掘可以提供不同用户的特定信息,有的放矢地传播网络广告。利用网络数据挖掘技术建立客户关系管理系统,可以极大地提升企业的竞争优势。

  一、Web挖掘模式的应用

    (一)发现潜在客户。对一个电子商务网站来说,了解、关注在册客户群体非常重要,但从众多的访问者中发现潜在客户群体也同样非常关键。如果发现某些客户 为潜在客户群体,就可以对这类客户实施一定的策略,使他们尽快成为在册客户群体。对一个电子商务网站来说,也许就意味着订单数的增多、效益的增加。通过利 用WEB挖掘的分类技术先对历史数据进行挖掘,可以有效的发现潜在客户。

  (二)延长客户的驻留时间。对客户来说,传统客户与销售商之间的空 间距离在电子商务中已经不存在了,Internet上每一个销售商对于客户来说都是一样的,那么如何使客户在自己的销售站点上驻留更长的时间,这对销售商 来说将是一个挑战。为了使客户在自己的网站上驻留更长的时间,就应该了解客户的浏览行为,知道客户的兴趣及需求所在,动态地调整Web页面,以满足客户的 需要。通过运用数据挖掘中的序列模式发现技术对客户访问信息的挖掘,就能知道客户的浏览行为,从而了解客户的兴趣及需求。

  (三)改进站点设 计。站点上页面内容的安排就如超级市场中物品在货架上的摆设一样,把具有一定支持度和信任度的相关联物品摆放在一起有助于销售,利用关联规则发现可以针对 客户动态调整站点的结构,使客户访问的有关联的文件间的链接能够比较直接,让客户更容易访问到想访问的页面。

  (四)针对不同客户提供个性化产品。商家可以对客户登记注册记录中和Web日志进行挖掘,从而获知访问者的个人爱好,更加充分地了解客户地需要,根据各个细分市场,甚至是每一个顾客的独特需求提供个性化产品,有利于提高客户的满意度。

  综上所说,Web挖掘技术推动了个性化推荐,使站点浏览者变为购买者,增加交叉销售和提升销售,每一次购买都增加客户的忠诚度。

  二、面向电子商务的Web挖掘应用系统模型

    当用户访问Web服务器时,Web服务器会自动建立访问日志信息。随着WWW技术的快速发展和时间的积累,Web服务器中Web日志文件将越来越大,基 于Web的电子商务服务器将保存大量的Web访问日志记录。如何对这些大量的Web日志记录进行自动分析清理存储并从中发现有用的、重要的知识,包括模 式、规则和可视化结构等是目前Web日志挖掘的主要任务。

  面向电子商务的Web挖掘系统模型包括数据采集、数据处理、数据存储、模式发现、模式分析利用及客户6个层次,见图1。

    数据采集层所采集的数据对象为Web服务器日志、客户登记信息和交易数据库等。Web服务器日志是客户访问所产生的服务器日志数据。客户登记信息必须和 访问日志集成,以提高数据挖掘的准确度。交易数据库存储用户在商务网站上购买商品的信息,其内容随数据库结构的不同而有所不同,一般包括:用户名、时间、 商品ID、采购数量及价格等。

  数据处理层实现对数据采集层所采集的源数据进行处理,包括日志文件的处理和数据仓库的建立。日志文件处理得好坏直接影响挖掘算法产生的结果,其处理过程是保证Web挖掘质量的关键。经过处理后的数据由数据存储层进行保存和管理。

  模式发现层次包括:路径分析、关联规则挖掘、序列模式挖掘以及聚类和分类分析。

  模式分析利用层由两部分组成:个性化网站及商业智能。这也代表了Web挖掘在电子商务中的两大应用方向。数据挖掘的结果可以帮助他们了解客户,调整营销策略,改进促销手段,从而达到赢得竞争的目的。

  三、改进站点设计的算法

  对Web站点的链接结构的优化可从两个方面来考虑:一是通过对Web日志的挖掘,发现用户访问页 面的相关性,从而对密切联系的页面之间增加链接,方便用户使用。二是通过对Web日志的挖掘,发现用户的期望位置。如果在期望位置的访问频率高于实际位置 的访问频率,可考虑在期望位置和实际位置之间建立导航链接,从而实现对Web站点的优化。本文对第二点做深入探讨。

  通过该算法,我们可以找 到用户的返回点,这个位置可能是期望位置,也可能是目标页面,但可以通过确定时间阈值来解决这个问题。当用户在返回点停留的时间较长,超过指定的阈值,则 认为该页面是目标页面,、否则可以认为该页面是期望位置找不到目标页面,就会在第二期望位置找,如果还找不到,会在第三期望位置找……。其中我们最关心的 是第一期望位置,而且是那些被第一期望且发生频率高于系统设计者指定值的所有页面。因此,寻找第一期望位置便成了我们关注的焦点。

  ②发现第一期望位置算法。设Ei表示第一期望位置,算法如下:先以用户的ID为主关键字,时间为次关键字,对Web日志文件建立索引,扫描Web日志索引文件,对每一个用户ID,摘取出页面序列。

  For(I=1;I<=1;I )// n为Web日志中的记录数

  {统计EI中所有页面支持数;sort page by support;

  if support(P)>=SI // SI为Web设计者指定的阈值;

  则P为被第一期望且发生频率高于系统设计者指定值的页面;}

  根据该算法的挖掘结果,我们可以及时调整Web站点链接结构,在第一期望位置和实际位置之间增加导航链接,从而优化Web站点的链接结构。

  (二)确定请求网页的相关性

  用户对Web站点的访问存在某种有序关系,这种有序关系反映的是一种用户的访问兴趣,也就是说群体用户的访问兴趣与他们的访问序列有很强的相关性,通过兴趣关联规则挖掘算法能够挖掘出这种有序关系。具体算法如下: