科研成果
首页 > 科研成果 

高吞吐率可扩展的精确重复数据删除技术MAD2

发布者:admins  发布时间:2011-07-22  访问次数:1次  【字体:  】【背景色

    技术名称(中文)
    高吞吐率可扩展的精确重复数据删除技术MAD2
    技术领域
    信息技术
    技术特色
    随着磁盘存储系统性价比的不断提升,基于磁盘的备份系统正替代传统磁带备份系统广泛部属于政府、金融、企事业单位和专业数据中心,磁盘存储系统的随机访问特性允许用户能够根据需求灵活地访问备份数据,另一方面,不断增长的数据量也对存储系统的容量和能耗带来巨大挑战。重复数据删除技术利用磁盘存储系统的随机访问特性,构建海量数据的指纹索引,检索并消除重复数据片断,从而达到节约存储空间和降低系统能耗的效果。MAD2重复数据删除技术在文件级和变长分块级分别生成备份数据流的指纹序列,创造性构造哈希桶矩阵和双缓存捕获、保存和利用指纹序列局部性,利用摘要向量阵列快速预判指纹的重复性,从而实现高吞吐率的精确重复数据识别与删除。此外,MAD2利用分布式哈希表将存储指纹的哈希桶矩阵均匀分布到多个存储节点,进而在平衡存储负载的基础上实现可扩展的重复数据删除。实验数据表明,MAD2在各存储节点的重复数据效率可轻松支撑主流存储服务器千兆网卡的线性吞吐率,能够实现实时重复数据删除;对测试备份数据集的压缩率可达17:1至19:1,极大节约了存储空间消耗;可扩展性测试表明消除重复内容后的数据能够在多节点之间均匀分布。
    应用领域
    数据中心,政府机关、事业单位、金融、各级企业等备份/归档数据管理
    联系人
    周可
    联系方式
    027-87793003,k.zhou@hust.edu.cn