首页 > DAO > 上海储迅联合创始人&CTO冷波:从硬盘到分布式存储
世链财经  

上海储迅联合创始人&CTO冷波:从硬盘到分布式存储

摘要:2021年9月17日,由上市公司信维股份主办"赋能·共赢——2021信维Web3.0分布式存储行业峰会"于深圳中洲万豪酒店隆重启幕。
2021年9月17日,由上市公司信维股份主办“赋能·共赢——2021信维Web3.0分布式存储行业峰会”于深圳中洲万豪酒店隆重启幕。本次峰会荣幸邀请到上海储迅联合创始人&CTO冷波作为特邀嘉宾,从“硬盘、网络存储、传统分布式存储、去中心化存储、数据所有权变更”等方面出发,发表主题为“从硬盘到分布式存储”的精彩演讲。
 
 
以下为现场演讲内容整理:
 
冷波:作为一个从事存储行业将近20年的老兵,我今天简单讲解一些关于数据存储的理解。首先上海储迅是一家专业做分布式存储软件和解决方案的公司,致力于企业存储系统的开发,现在也做web3.0去中心化存储的整体解决方案,目前运行存储集群总容量超过500PiB。
 
随着技术的日益发展,我们发现电脑主要存储设备先是从“容量较小”、“可靠性较差”的软盘,发展到“容量更大”“速度更快”的硬盘。硬盘是将盘片和驱动机合在一起,能够轻松满足存储需求。但是当硬盘用久了,有时候会出现各种各样的错误,尤其会对数据量庞大,硬盘很多的企业生产数据造成影响。所以行业衍生出类似RAID的磁盘技术,通过将多个硬盘组合在一起的方式,提供更大的容量空间,融通性也更好。
 
比如说RAID6,假设任意损坏一个盘或者两个盘,RAID6都可以通过数据校验值算出原始数据,并且多个硬盘可以同时输入,数据可以进行并读写,它的性能也会更好。因此,很长一段时间RAID成为企业存储数据的主要基础技术。
 
然而当数据越来越多,大家对数据要求也越来越高,RAID可能也无法满足需求,所以行业又衍生出类似SAN或者NAS的网络存储,支持一台服务器插多个硬盘,通过网络的方式来对外提供服务,比如共享访问。它让多台机器,多个客户端,多个业务的主机同时访问存储,让数据的利用价值更高,而且容量扩展也会更好。
 
因为每台服务器有更多的硬盘位,可以通过类似扩展柜的方式不断连接,运行专业为存储定制的操作系统。比如现在大多数基于NAS定制的一个企业版存储OS,尤其是对这种读和写的性能做特定优化,提供一系列的管理工具,比如说通过Web/CLI工具实现简便管理,也能提供类似快照、复制或者监控等更多的专业功能,让存储使用起来更为容易。
 
但是单机网络存储也存在一些弊端,它的扩展级别有限,只支持纵向扩展级联,而且所有数据都要经过主机传输,性能上难以提升。从可靠性上来讲,它不支持节点故障,只要主柜损坏,所有柜子均无法访问。所以业内推出可以横向扩展的分布式存储,我把它叫做分布式存储1.0,主要运行在局域网里面。
 
它的好处在于横向扩展,每台存储服务器可以独立接入网络,当容量不够或者性能不足的时候,我们可以动态增加节点。因为每台机器可以独立接入网络,一台机器损坏对其他机器不会产生影响,它可以提供统一的命名空间,大家都可以通过单一数据卷进行访问。然后性能可以叠加,避免传统存储的单点性能瓶颈。如果有很大数据请求的话,数据可以通过网络,通过不同的机器进来,达到性能叠加和负载平衡的功能。它的冗余性上面,比如说损坏一台或者多台存储,数据均可正常读取,业务系统不会宕掉,卷划分更灵活,管理更方便。
 
目前像这种分布式存储系统也有很多,其中两个典型的是GlusterFS 和 Ceph,这两个系统我们都进行了一些深度参与,许多企业级系统中也会基于它对用户提供服务。比如GlusterFS 是一个主流的分布式文件存储,稳定可靠,没有元数据架构,扩展性也非常好,但是缺点就是小文件性能不好。如果有元数据操作的话,性能也比较慢,主要适合非结构化数据存储。
 
Ceph目前应该说最为流行的开源分布式存储解决方案,它的接口齐全,块、对象、文件等接口应有尽有。社区也比较活跃,功能众多,有大量公司基于它推出商业化解决方案。但是也有一些缺点,它的硬件配置要求高,文件存储在生产环境中不太稳定,而且对于运维要求也相对较高。
 
总结来讲,就是传统分布式存储存在一系列的缺陷,比如说中心化缺陷。因为所有设备都是集中放在一个局域网里面,它的安全性、可靠性依赖于中心化的强运维,设备部署在局域网中,想要跨地理区域部署或者实现更高级别的容载比较困难。而且成本更加高昂,因为它更多依赖于一些定制硬件,部署和运维成本相对较高。在数据安全性上面,它的保障措施也相对有限,比如说对数据的恶意删除和篡改,对网络的安全防护等手段,并且管理起来非常复杂,操作维护系统大规模扩展不太容易。
 
基于这种背景之下,去中心化存储出现了。比如IPFS是一个全球范围内的去中心化文件系统,解决了区块链的数据存储问题。目前是取代中心化的低效HTTP协议。IPFS能够提供一个更大范围的统一命名空间,全世界各地都可以通过统一接口访问数据,并且是通过HASH值来定位查找数据。内容确定,文件的访问路径确定,可以确保文件不篡改,这个特性可以用在很多新技术里面,比如说NFT。当然由于节点是分布存放的,本身来讲它就构成一个大规模的P2P网络,能够加快热点数据的并发获取速度。
 
对于去中心化存储,我把它定义为分布式存储2.0。它从网络架构以及技术架构上面进行很大的革新,比如说支持防篡改,实现去中心化,具有更大部署规模。除此之外,它也可以带来新的业务模式变更,比如说数据所有权的变更。实际上在传统存储中,我们经常会有一些疑惑,谁是数据的真正所有者?究竟是存放数据的机构,比如说网站、公有云、医院...还是产生数据的设备,还是贡献数据人。
 
但是去中心化存储就可以解决这个问题,让自己的数据自己做主,让数据拥有权和存放途径进行分离,能够加强隐私,强化数据所有者利益。因此这会产生一个新的数据交易市场,它能够解决数据隐私、商业利益与技术进步的矛盾,通过一系列技术手段,数据所有者可以自行决定是否授权数据,商业机构可以购买授权数据进行商业分析,利益共享实现多方收益,收益分配也变得更加透明合理,给数据交易市场打下一个可靠基础。
 
在去中心化存储中,比如IPFS它能给数据便捷获取和处理提供技术保障,像加密技术能够保障数据安全,类似代理重加密技术,可以不共享私钥,安全地授权给多个使用者,让大家能够更加方便的,通过自动化的方式来合理合法地获取数据。以上就是我自己对存储行业进行的一些简单总结和分享,谢谢大家。
免责声明
世链财经作为开放的信息发布平台,所有资讯仅代表作者个人观点,与世链财经无关。如文章、图片、音频或视频出现侵权、违规及其他不当言论,请提供相关材料,发送到:2785592653@qq.com。
风险提示:本站所提供的资讯不代表任何投资暗示。投资有风险,入市须谨慎。
世链粉丝群:提供最新热点新闻,空投糖果、红包等福利,微信:msy2134。