电子商务网站中不断增长的商品数量和商品规模对数据管理提出了新的挑战,其中一项重要基本任务是商品归一化,即识别属于同一个客观实体的所有商品.商品归一化的实现有助于提高商品搜索的准确性、改善用户的体验.但由于在电子商务网站中,特别是在C2C(Customer-to-Customer)模式下,商品信息的数据质量很低且缺乏统一的模式定义规范,导致已有的商品归一化方法难以适用.针对这一问题,文中设计了一种将数据集成、数据清理和商品归一化相结合的混合框架.该框架首先基于图的方法进行模式集成,然后利用商品的描述信息进行数据清理,从而得到数据质量更高且模式统一的商品信息数据;在数据集成和数据清理之后,利用逻辑斯蒂回归(Logistic regression)模型训练分类器,从而得到商品之间的相似度矩阵,最后对相似度矩阵聚类实现商品归一化.通过与已有的方法在真实数据上进行对比实验,验证了文中提出的方法的有效性.

国家自然基金(61103039,61232002); 国家“九七三”重点基础研究发展规划项目基金(2012CB316200); 国家“八六三”高技术研究发展计划项目基金(2012AA011003)资助~~;

实体识别; 模式集成; 数据清理; 逻辑斯蒂回归; 聚类; 电子商务;

TP391.3

计算机学报

Chinese Journal of Computers

2014年02期

ISSN:0254-4164

中文核心期刊

661312-32514371K
在线咨询 用户反馈