基于兴趣的电子商务数据挖掘技术的研究

       [摘要] 本文对电子商务Web页数据挖掘技术做了全面分析,对于个性化电子商务网站中难以发现用户兴趣行为特征问题,给出了Web页面关联算法。利用数据仓库技术可有效挖掘用户兴趣特征,从而指导电子商务网站资源的组织和分配,为商务型网站的投资者和建立者提供正确的盈利导向。
  [关键词] 电子商务数据挖掘兴趣特征
  数据挖掘技术是随着数据库技术和人工智能技术发展起来的一种新型的交叉信息技术。无论是B2B、B2C还是B2G电子商务模式,商品的采购者都需要通过Web方式与商品的供应商及其合作者之间建立信息流的交互,面向电子商务的数据挖掘的特点就是从Web数据库中,运用关联、分类、聚类等技术手段,从中提取出可以指导市场策略的有用数据。它基于“消费者过去的行为预示着其今后的消费倾向”的原理,通过收集、分析和处理从网上获取的有关消费者消费行为的数据,从潜在的、隐含的、事先不知的状态,经过提取、洗涤、加工变为潜力巨大的价值信息,从而实现网络营销的目的,确定特定消费群体或个体的消费习惯、爱好、倾向,进而预示出消费者下一步的消费行为,有针对性地提供服务。
  
  一、电子商务Web数据挖掘技术
  
  1.电子商务Web数据挖掘技术的分类
  电子商务Web数据挖掘一般可分为三个部分:内容挖掘、结构挖掘、用法挖掘。Web内容挖掘有两种策略:直接挖掘文档内容和在其他检索工具搜索的基础上进行改进。Web结构挖掘是从WWW上的组织结构和链接关系中推导知识。Web用法挖掘的主要目标是从Web的访问记录中抽取感兴趣的模式。大多数基于数据库的数据挖掘方法均可作用于电子商务Web数据挖掘。
  在研究以电子商务网上购物为应用背景的工作时发现。商家在Web上建立自己的在线商品目录,顾客(即用户)通过浏览器可以浏览商品目录、实现网上订购甚至网上支付等。用户与商家的Web服务器间交互的过程信息(包括用户的登录信息、用户的浏览记录)以及用户的个人简要信息等,都能以日志文件或顾客数据库的形式存在,从中找出规律性,对商家的市场销售是至关重要的;从大量顾客数据及日志数据中,应用到计算机并行处理、神经元网络、模型化算法和其他信息处理技术手段,挖掘出有意义的用户访问模式及相关的潜在顾客群,从中可得到商家用于向特定消费群体或个体进行定向营销的决策信息。同时有效地对这些Web日志进行定量分析,揭示其中的关联关系、时序关系、页面类属关系、客户类属关系和频繁访问路径、频繁访问页面等,不但可为优化Web站点拓扑结构提供参考,而且还可为企业更有效地确认目标市场、改进决策获得更大的竞争优势提供帮助。
  
  2.电子商务Web数据挖掘模型构建和基本流程
  电子商务Web服务器自动收集客户浏览信息并保存在访问日志、引用日志和代理日志中。典型的电子商务Web服务器日志文件包括以下信息:IP地址,请求时间,方法(如get),被请求文件的URL,HTTP版本号,返回码,传输字节数,引用页的URL和代理。
  电子商务Web挖掘,首先对日志文件进行预处理,预处理主要由两部分构成:数据清洗(data cleaning)和事务识别(transaction identification)。包括对Web日志进行清洗、过滤和转换以及无关记录的剔除,判断是否有重要的访问没有被记录,并从中抽取感兴趣的数据;并将URL、资源的类型、大小、请求的时间、在资源上停留的时间、请求者的Internet域名、用户、服务器状态作为数据cube的维数变量;再将对模块、页面和文件请求次数,来自不同Internet域请求次数、事件、会话、带宽、错误次数、不同浏览器种类、用户所在组织作为度量变量建立data cube;而将文件、图像脚本及多媒体等其他文件转换成可用于Web使摘要] 本文对电子商务Web页数据挖掘技术做了全面分析,对于个性化电子商务网站中难以发现用户兴趣行为特征问题,给出了Web页面关联算法。利用数据仓库技术可有效挖掘用户兴趣特征,从而指导电子商务网站资源的组织和分配,为商务型网站的投资者和建立者提供正确的盈利导向。
  [关键词] 电子商务数据挖掘兴趣特征
  数据挖掘技术是随着数据库技术和人工智能技术发展起来的一种新型的交叉信息技术。无论是B2B、B2C还是B2G电子商务模式,商品的采购者都需要通过Web方式与商品的供应商及其合作者之间建立信息流的交互,面向电子商务的数据挖掘的特点就是从Web数据库中,运用关联、分类、聚类等技术手段,从中提取出可以指导市场策略的有用数据。它基于“消费者过去的行为预示着其今后的消费倾向”的原理,通过收集、分析和处理从网上获取的有关消费者消费行为的数据,从潜在的、隐含的、事先不知的状态,经过提取、洗涤、加工变为潜力巨大的价值信息,从而实现网络营销的目的,确定特定消费群体或个体的消费习惯、爱好、倾向,进而预示出消费者下一步的消费行为,有针对性地提供服务。
  
  一、电子商务Web数据挖掘技术
  
  1.电子商务Web数据挖掘技术的分类
  电子商务Web数据挖掘一般可分为三个部分:内容挖掘、结构挖掘、用法挖掘。Web内容挖掘有两种策略:直接挖掘文档内容和在其他检索工具搜索的基础上进行改进。Web结构挖掘是从WWW上的组织结构和链接关系中推导知识。Web用法挖掘的主要目标是从Web的访问记录中抽取感兴趣的模式。大多数基于数据库的数据挖掘方法均可作用于电子商务Web数据挖掘。
  在研究以电子商务网上购物为应用背景的工作时发现。商家在Web上建立自己的在线商品目录,顾客(即用户)通过浏览器可以浏览商品目录、实现网上订购甚至网上支付等。用户与商家的Web服务器间交互的过程信息(包括用户的登录信息、用户的浏览记录)以及用户的个人简要信息等,都能以日志文件或顾客数据库的形式存在,从中找出规律性,对商家的市场销售是至关重要的;从大量顾客数据及日志数据中,应用到计算机并行处理、神经元网络、模型化算法和其他信息处理技术手段,挖掘出有意义的用户访问模式及相关的潜在顾客群,从中可得到商家用于向特定消费群体或个体进行定向营销的决策信息。同时有效地对这些Web日志进行定量分析,揭示其中的关联关系、时序关系、页面类属关系、客户类属关系和频繁访问路径、频繁访问页面等,不但可为优化Web站点拓扑结构提供参考,而且还可为企业更有效地确认目标市场、改进决策获得更大的竞争优势提供帮助。
  
  2.电子商务Web数据挖掘模型构建和基本流程
  电子商务Web服务器自动收集客户浏览信息并保存在访问日志、引用日志和代理日志中。典型的电子商务Web服务器日志文件包括以下信息:IP地址,请求时间,方法(如get),被请求文件的URL,HTTP版本号,返回码,传输字节数,引用页的URL和代理。
  电子商务Web挖掘,首先对日志文件进行预处理,预处理主要由两部分构成:数据清洗(data cleaning)和事务识别(transaction identification)。包括对Web日志进行清洗、过滤和转换以及无关记录的剔除,判断是否有重要的访问没有被记录,并从中抽取感兴趣的数据;并将URL、资源的类型、大小、请求的时间、在资源上停留的时间、请求者的Internet域名、用户、服务器状态作为数据cube的维数变量;再将对模块、页面和文件请求次数,来自不同Internet域请求次数、事件、会话、带宽、错误次数、不同浏览器种类、用户所在组织作为度量变量建立data cube;而将文件、图像脚本及多媒体等其他文件转换成可用于Web使摘要] 本文对电子商务Web页数据挖掘技术做了全面分析,对于个性化电子商务网站中难以发现用户兴趣行为特征问题,给出了Web页面关联算法。利用数据仓库技术可有效挖掘用户兴趣特征,从而指导电子商务网站资源的组织和分配,为商务型网站的投资者和建立者提供正确的盈利导向。
  [关键词] 电子商务数据挖掘兴趣特征
  数据挖掘技术是随着数据库技术和人工智能技术发展起来的一种新型的交叉信息技术。无论是B2B、B2C还是B2G电子商务模式,商品的采购者都需要通过Web方式与商品的供应商及其合作者之间建立信息流的交互,面向电子商务的数据挖掘的特点就是从Web数据库中,运用关联、分类、聚类等技术手段,从中提取出可以指导市场策略的有用数据。它基于“消费者过去的行为预示着其今后的消费倾向”的原理,通过收集、分析和处理从网上获取的有关消费者消费行为的数据,从潜在的、隐含的、事先不知的状态,经过提取、洗涤、加工变为潜力巨大的价值信息,从而实现网络营销的目的,确定特定消费群体或个体的消费习惯、爱好、倾向,进而预示出消费者下一步的消费行为,有针对性地提供服务。
  
  一、电子商务Web数据挖掘技术
  
  1.电子商务Web数据挖掘技术的分类
  电子商务Web数据挖掘一般可分为三个部分:内容挖掘、结构挖掘、用法挖掘。Web内容挖掘有两种策略:直接挖掘文档内容和在其他检索工具搜索的基础上进行改进。Web结构挖掘是从WWW上的组织结构和链接关系中推导知识。Web用法挖掘的主要目标是从Web的访问记录中抽取感兴趣的模式。大多数基于数据库的数据挖掘方法均可作用于电子商务Web数据挖掘。
  在研究以电子商务网上购物为应用背景的工作时发现。商家在Web上建立自己的在线商品目录,顾客(即用户)通过浏览器可以浏览商品目录、实现网上订购甚至网上支付等。用户与商家的Web服务器间交互的过程信息(包括用户的登录信息、用户的浏览记录)以及用户的个人简要信息等,都能以日志文件或顾客数据库的形式存在,从中找出规律性,对商家的市场销售是至关重要的;从大量顾客数据及日志数据中,应用到计算机并行处理、神经元网络、模型化算法和其他信息处理技术手段,挖掘出有意义的用户访问模式及相关的潜在顾客群,从中可得到商家用于向特定消费群体或个体进行定向营销的决策信息。同时有效地对这些Web日志进行定量分析,揭示其中的关联关系、时序关系、页面类属关系、客户类属关系和频繁访问路径、频繁访问页面等,不但可为优化Web站点拓扑结构提供参考,而且还可为企业更有效地确认目标市场、改进决策获得更大的竞争优势提供帮助。
  
  2.电子商务Web数据挖掘模型构建和基本流程
  电子商务Web服务器自动收集客户浏览信息并保存在访问日志、引用日志和代理日志中。典型的电子商务Web服务器日志文件包括以下信息:IP地址,请求时间,方法(如get),被请求文件的URL,HTTP版本号,返回码,传输字节数,引用页的URL和代理。
  电子商务Web挖掘,首先对日志文件进行预处理,预处理主要由两部分构成:数据清洗(data cleaning)和事务识别(transaction identification)。包括对Web日志进行清洗、过滤和转换以及无关记录的剔除,判断是否有重要的访问没有被记录,并从中抽取感兴趣的数据;并将URL、资源的类型、大小、请求的时间、在资源上停留的时间、请求者的Internet域名、用户、服务器状态作为数据cube的维数变量;再将对模块、页面和文件请求次数,来自不同Internet域请求次数、事件、会话、带宽、错误次数、不同浏览器种类、用户所在组织作为度量变量建立data cube;而将文件、图像脚本及多媒体等其他文件转换成可用于Web使用挖掘的数据格式,从而可将数据挖掘技术用于Web流量分析、典型的事件序列分析和用户行为模式分析及事务分析。
  定义函数log={ip,uid,url,time}表示电子商务Web服务器日志。其中,ip,uid,url,time分别标识客户ip、客户id、客户请求的url和浏览时间。
  在经过数据预处理阶段后,即可针对电子商务中不同的挖掘目标可以采用不同的数据挖掘方法,选择数据挖掘模式,如统计分析、关联规则、时序模式、路径分析(path analysis)及聚类、分类技术。
  进行实际的挖掘操作的要点有:首先决定如何产生假设;选择合适的工具;发掘知识的操作;证实发现的知识。

  
  二、基于兴趣的关联算法在电子商务中的Web挖掘应用
  
  关联分析是寻找在同一个事件中出现的不同项的相关性,比如在一次购买活动中所买不同商品的相关性。序列模式与此类似,它寻找的是事件之间时间上的相关性,假设I={i1 ,i2 ,…,im} 是所有项的集合, 相当于商品的所有种类的集合,D是所有事务的集合, 也即数据库中记录的集合, 事务T={t1 ,t2 , … ,tn},tiI, 相当于交易中的商品列表。设X是一个I中项的集合,如果XTk,那么称交易Tk包含项集X,若X,Y为项集,XI, YI,并且X⌒Y=Φ,则形如X==>Y的表达式称为关联规则。
  计算方法:
  交易数据集中同时包含X和Y的交易数与所有交易数之比:
  support(XY)=P(X∪Y)=|{T:XYT,T∈D}|/|D|×100%(其中|D|是交易数据集D中的所有交易数),给定一个交易集 D, 挖掘关联规则问题就是产生支持度和可信度分别大于用户给定的最小支持度 (minsupp)和最小确信度(minconf)的关联规则。当规则的确信度和支持度分别大于minsupp、minconf 时,我们认为规则是有效的,称为强关联规则。当数据项集X的支持度大于minsupp时, 称X为高频数据项集。
  关联规则发现任务的本质是要在数据库中发现强关联规则。在电子商务中关联规则的发现也就是要找到客户对网站上各种文件之间访问的相互联系。例如,用关联规则发现技术,我们可以找到以下的相关性:40%的客户访问页面/company/product1时,也访问了/company/product2。30%的客户在访问/company/special时,在/company/product1进行了在线定购。利用这些相关性,可以更好的组织站点,实施有效的市场策略。
  
  三、数据挖掘技术的工具
  
  随着电子商务和数据库技术的发展,越来越多的公司、厂家开始开发数据挖掘工具。如Oracle公司通过从Thinking Machine公司获得Darwin产品来增强其数据挖掘功能;IBM公司的Intelligent Miner提供了基于DB2的数据挖掘能力,提供了支持C++类和方法的API(应用程序接口);SAS公司推出的SAS/EM(Enterprise Miner)数据挖掘软件可以对Oracle、Informix、Sybase、DB2的数据集进行操作。Accrue公司更是推出了一个综合性Web数据挖掘工具,能够对网站的运行状况进行深入、细致和准确的分析。
  
  四、小结
  
  电子商务Web数据挖掘很好地解决了从数据到知识转化的问题,为我国的商务网站个性化定制提供了技术的可行性,并为网站实现经济效益提供了一条发展的新路。

分享到: 微信 更多