基于bloomfilter的去重方法研究

基于bloomfilter的去重方法研究

ID:28073717

大小:17.97 KB

页数:5页

时间:2018-12-08

基于bloomfilter的去重方法研究_第1页
基于bloomfilter的去重方法研究_第2页
基于bloomfilter的去重方法研究_第3页
基于bloomfilter的去重方法研究_第4页
基于bloomfilter的去重方法研究_第5页
资源描述:

《基于bloomfilter的去重方法研究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。基于BloomFilter的去重方法研究  摘要:在个性化新闻推荐系统中,文章去重是一个重要的模块,避免了同一篇文章被重复推荐的现象。在海量用户场景下,采用传统的基于队列的去重方法将会消耗大量的内存。BloomFilter是一种空间效率很高的随机数据结构,适用于允许有一定误判率的场景。本文基于BloomFilter,设计双BloomFilter位数组结构和BloomFilter位数组链结构。实

2、验证明,基于BloomFilter位数组链的去重方法,不仅大大降低了程序对服务器内存要求,而且具有较好的灵活性和扩展性。  关键词:信息超载;个性化推荐系统;BloomFilter  中图分类号:TP3文献标识码:A  1引言为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系

3、统的使用和维护。  随着互联网技术的迅速发展,新闻数据呈爆炸式的增长,用户很难从海量的新闻中找到自己真正感兴趣的内容,信息超载问题严重[1]。个性化推荐系统是目前解决信息超载问题最有效的工具,它能主动地从用户注册信息、用户浏览日志、历史评分记录等方面进行分析,挖掘出用户的兴趣偏好和项目特征,并根据用户需求和项目信息的变化及时调整推荐的内容和服务方式,实现“以用户为中心”的个性化服务[2]。一个完整的推荐系统包括收集用户信息、建立用户兴趣模型和推荐算法三部分,推荐算法是最为核心的部分。协同过滤、基于内容推荐、基于图结构推荐和混合推荐是目前较为常见的推荐方法[3,4]。在

4、传统的新闻系统中,用户仅仅通过聚合页面浏览新闻,同一条新闻可能不断地出现在用户的推荐列表中,降低了用户的体验度。为了避免同一篇文章被重复推荐的现象,在个性化新闻推荐系统中添加了去重模块,如果该新闻用户近期已经阅读过,则从推荐列表中删除。文章去重是一个重要的模块,保证了用户每次阅读的新闻都是最新的。  在个性化新闻推荐系统中,传统的去重方法为每个用户维护一个长度为N的队列,队列中始终保持着最近向用户推荐过的N篇文章的ID。推荐时,将队列中存储的文章ID解析出来,存放到map或者hash表中,用做去重。但是当用户量较大的时候,该方法会消耗大量的内存。BloomFilter

5、[5]是一种空间效率很高的随机数据结构,它采用位数组表示一个集合,并能快速地判断一个元素是否属于这个集合。由于哈希查找的常数时间和少量的存储空间开销,使得它具有非常好的应用价值[6],而且还可以根据具体的应用场景进行扩展[7]。BloomFilter存在一定的误判率[8],不适用于严格要求100%正确的场合。在BloomFilter中,哈希函数个数k、位数组大小m、元素个数n都会影响到BloomFilter的误判率。文献[9]给出了BoomFilter取得最小误判率的情况下,k与m/n之间的关系。为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运

6、用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。  采用单BloomFilter位数组的去重方法,虽然可以节省大量的内存,但是当用户阅读数量超过BloomFilter的最大缓存数量时,BloomFilter位数组将会失效,发生误判。为了解决这个问题,本文设计了双BloomFilter位数组的去重方法,当用户阅读数量超过给定阈值的

7、时候,创建从位数组,在推荐过程中,不断地进行主/从位数组的切换和清空。双位数组的方法避免了单BloomFilter的失效问题,但是该方法扩展性较差。因此,本文又设计了BloomFilter位数组链的去重方法,不仅节省了更多的内存,而且具有较好的灵活性和扩展性。  2个性化推荐系统  个性化新闻推荐系统有三个重要的模块:用户兴趣建模模块、新闻建模模块、推荐算法模块。推荐系统把用户兴趣模型中的兴趣信息和新闻模型中的特征信息匹配,同时使用相应的推荐算法进行计算和筛选,找到用户可能感兴趣的新闻,然后推荐给用户[10]。在传统的新闻系统中,所有用户看到的新闻都

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。