首页 > IPFS > Filecoin提供全面的大型数据集存储解决方案
盘古开源  

Filecoin提供全面的大型数据集存储解决方案

摘要:随着大数据应用的爆发性增长,已经衍生出了自己独特的架构,且直接推动了存储、网络以及计算技术的发展。而Filecoin的出现也有效的解决大数据存储在容量问题、安全问题、数据的积累、成本问题等方面的难题。

随着大数据应用的爆发性增长,已经衍生出了自己独特的架构,且直接推动了存储、网络以及计算技术的发展。而Filecoin的出现也有效的解决大数据存储在容量问题、安全问题、数据的积累、成本问题等方面的难题。具体的内容,我们可以从协议实验室产品负责人-Pooja的演讲视频中去寻找答案。

数据

以下是视频内容翻译原文:

 

Filecoin发展至今,已经取得显著的成绩,而今天我们主要来谈一谈Filecoin为什么很适合大数据集,接下来将从几个不同的角度审视我们一直合作的研究案例为什么将极其重要的数据集放在Filecoin上,以及他们具体的独特性。

 

Filecoin by the members

首先,通过去年的数字来看看Filecoin,让我深刻意识到Filecoin是全球性的,Filecoin网络上有超过3,400名存储提供商,他们跨越了全球45个国家和数百个城市。将这3400多个存储提供商加在一起,代表了15+EiB的存储容量,这真是一个令人难以置信的数字。仅1年的时间里就已经真正成为了地球上最大的存储网络之一,且目前以每天43+PiB的速度增长。

数据众所周知,存储市场在价格方面的竞争十分激烈,在过去30天的时间里,一年1TB的存储容量在Filecoin网络上的平均存储费用不超过1美元,如果您将其与诸如亚马逊这类的传统竞争对手进行比较,它是Filecoin网络存储成本的20多倍。

 

此外,Filecoin还有一个非常庞大的开发者生态系统。有超过7,500名开发人员,他们积极为 Filecoin生态系统中的许多不同项目做出贡献。有超过400个应用程序建立在Filecoin堆栈上,其中还有超过100家风险投资初创公司。

 

目前,通过我们专门为应用程序开发人员构建的一些产品,现在有超过10,000名应用程序开发人员正在使用Web3.storage、NFT.storage和Estuary等在Filecoin网络上构建真正适用的新用例和应用程序。

 

Filecoin存在的核心原因之一是存储人类最重要的数据。目前超过600个组织已经将他们的数据存储在Filecoin网络上,这些组织加在一起代表了200 PB的数据。此外,我们还扩展到了NFT板块,在过去的几个月里,已经有超过700万个NFT存储在Filecoin网络上。因此,我希望通过这些数字,让大家真正了解Filecoin网络的规模和潜力。

 

Why Filecoin for large data

接下来我们将讨论,Filecoin有哪些特性和功能是特别适合大数据集的。众所周知,云存储是互联网基础设施的重要组成部分,但Filecoin认为,这些基础设置存在根本性的问题,尤其是最有价值的数据存储几十年和几个世纪以后时,这些问题变得非常令人担忧。

 

目前存在的问题,首先是云存储是中心化的,大型的云存储市场的公司控制了绝大的市场,且这种寡头垄断性质,可能会作出符合其业务最佳利益的政策决策,但绝不会向用户提供他们想要的灵活性和控制权,比如:用户会选择在所看到的位置构建和维护数据中心作为云服务,但在全球范围内提供的服务可能不是最好的,因为所有的决定都是集中在一个有自己优先级的单个公司中,这就不符合用户的最佳利益。

 

所以它对用户来说是一种限制。同时,由于这些云存储公司大多拥有专有接口,让用户很难通过协议层面的创新去解决自己的问题。所以,这个极其关键的基础设施的集中化是一个大问题。

 

除此之外,在过去的几年里我们肯定看到过这样的事件:网络不稳定会导致可访问性问题,用户已经存储了一些内容,但是由于云存储商的网络问题导致存储的数据无法访问,且这些网络往往无法真正实现集中的自我修复、冗余和弹性水平,而真正的去中心化存储网络可以做到这一切。这是我们在此类基础设施中看到的脆弱性。

 

因此,我们认为风险集中也是非常脆弱的。将一个组织的数据转移到一个云存储商也有风险,因为数据取回非常困难,也将风险集中在您选择的存储商身上。而选择Filecoin,将不会再遇到这样的风险。

 

最后一个问题是随着我们变得越来越数字化,数据正在疯狂的增长。而很多人认为存储是一种商品,价格非常便宜。但是当我们涉及非常大的数据集上时,特别是在数据出口或检索数据方面,你会发现热存储中的云数据出口成本如此之高。如果选择放弃数据,或将数据用磁带来存储,这个基础设施的数据成本是一般人不能承受的。

 

所以Filecoin要做的是,基于这些问题,把人类建立了几个世纪的最有价值的数据存储起来,为人类稳定创建一个去中心化、高效和强大的基础设施平台。Filecoin专注于去中心化,由 3,400 多个存储提供商组成的网络,没有单点故障的问题。

 

用户可以选择只与一个存储提供商合作,也可以选择与更多的存储提供商合作,这是客户端在Filecoin网络上的自由选择权。此外,基于Filecoin开源的构建方式,用户可以选择想要的特定功能。由于Filecoin网络是开源的,能够使用户自己解决问题及与合作的对象,构建以进行协议级别的创新应用。

 

Filecoin的许多机制都经过精心设计,以确保用户将数据存储在Filecoin网络上,确保数据能够被长期存储。Filecoin在许多加密机制、不同的证明上进行了创新,拥有一个非常强大的加密经济模型,进行了大量的研究、模拟和验证。过去一年的数据,我们不难发现,Filecoin可以确保您的数据得到正确存储,并在需要时随便使用。

 

最值得一提的是,Filecoin可作为一个市场,正如我们在其他行业的市场中看到的那样,可以自由定价,这就是为什么我们已经看到存储和Filecoin的价格如此之低,比传统云存储便宜20多倍。同时Filecoin市场中存储类型的效率和流动性为用户提供了更大的灵活性。

 

 

Case studies

接下来为更具体的案例来解释Filecoin作为最优大型数据集解决方案的原因,我将举一些例子来说明我们是如何与组织合作的,以及Filecoin对于他们的特殊性。

 

· USC Shoah Foundation & Starling Lab

数据我想谈论的第一个案例是我们与USC Shoah Foundation & Starling Lab的合作。USC Shoah Foundation是一个非营利组织,管理着世界上最大的种族灭绝幸存者证词档案。Starling lab是一个与其他团体(例如斯坦福大学)合作构建框架的组织。这是一个数据完整性框架,随着我们正朝着这个日益数字化的社会迈进,我们可以真正信任最重要的数字记录,而不会觉得受到诸如错误信息之类的事情影响。这个特殊的种族灭绝见证档案被称为视觉历史档案,记录着来自超过 62 个国家、44 +种语言、55,000 多名种族录制灭绝幸存者的超过8段的视频见证数据。现已被存放在Filecoin网络上。

 

Filecoin为这个案例中提供的核心好处是,它确实更倾向于Filecoin加密证明的想法,且这是一个实际上可公开验证的标记。证明存储在Filecoin网络中的数据是正确存储并长期安全可用并实际将这些加密组公开给用户,以便他们自己可以去验证,给予用户更多的信心。

 

Filecoin也倾向于像IPFS网络内容寻址数据,它本质上是一种通过数据本身的指纹来引用数据的方式,而不仅仅是一个任意的名称。这是许多档案社区的最佳实践,因为它有助于减轻数据篡改。如果你使用特定的内容标识符来寻找一段数据,那就是你会得到的原始的数据,而不是被篡改的内容。

 

所以Filecoin在保持数据完整性是真的非常有效。Filecoin区块链也是一个开源记录,其中包括有关谁拥有数据的信息。这些内容标识是什么?这个数据是什么时候公布的?它存储在哪里等?当我们谈论这种档案数据集时,这些公共出处记录也非常有价值。

 

最后我们已经看到了Filecoin网络的灵活性和可配置性有极高的价值。USC shoah foundation &starling lab在他们选择与什么存储服务商合作时,有很多特定需求,希望在发送数据前进行加密,例如,在网络上存储的副本数量,以及哪些地理区域应该拥有这些数据等等。而Filecoin支持这些灵活的选择,这样就是价值所在。

 

· Slingshot & Filecoin Discover

数据接下来我们要说的是一个非常特别的项目,它有两个部分,一部分被称为Slingshot,另一部分称为Filecoin Discover,而这两个部分都是有协议实验室启动的,slingshot一个社区竞赛,动员你身边的人,将数据存储在Filecoin网络上,它更像是一个开放的市场,存储提供商可以在其中购买他们想要存储的数据集并保留在Filecoin网络上。

 

在这两个板块中,我们存储了超过42PB的数据,这是Filecoin真正实现全球化的一个优势,因为我们可以存储来自全球各地的数据,正如上图所示,其中一些数据集已经存储在十多个国家。

 

当你考虑社区拥有的数据时,对于某些数据集,例如社区将构建的本地镜像,希望该数据集的副本离他们更近。这是Filecoin网络启用的功能。所以它只是让数据更多,高度可用,访问速度更快,且更具弹性。这就像你有10份副本而不是一份副本,这就使得你的数据从互联网上消失的可能性大大降低。

 

另外值得一提的是,我们一直在与由数百名社区成员组成的真正庞大的社区合作,这些社区成员共同努力保护这些数据集,因此我们还开发了类似关于如何保存这些数据集的文档库,与大型数据集交互,实现处理和载入PB规模数据在Filecoin网络上真的很容易。

 

· The Internet Archive

数据我们最近合作的一个项目是The Internet Archive-互联网档案馆。它是一个非营利的图书馆,包含数百万免费书籍、电影、软件和网站。现在,我们正在与互联网存档合作的目的是存档所谓的网络数据集。

 

所以互联网档案所做的基本上是在每个总统任期结束时,他们会浏览并抓取美国的所有政府网站,并对所有这些网站进行快照。这样我们就可以保留这个记录,即我们的政府对其所从事的工作、使命和所做的事情的看法、如何从不同的管理变化到另一行管理等。目前有超过60,000个网站是该档案的一部分,而这些网站正在加入Filecoin,我们已经获得70+PB的互联网档案。

 

如果是这些将数据存储在几台服务器中确实没有意义,他们需要一个非常强大的基础设施,其中具有良好的机制、弹性和自愈特性,以便在未来千年发生的不可预见的情况下,这些数据可以继续存在。因此,Filecoin设计方式确实旨在长期保存数据,去中心化性质以及其中自我修复等特性也成为这些数据的选择它的理由。

 

· Columbia University & Max Planck Institute

数据这是我要说的最后一个案例是Columbia university & max planck institute。他们正在为气候数据集构建一个新的数据共享解决方案,他们都希望将这些数据贡献给一个类似的共享池,这样他们就可以对自己生成的数据以及来自其他研究人员的数据进行分析。目前有超过1.5PB的气候数据集、40多个研究机构参与到类似共享池和研究合作项目中。

 

所以Filecoin的优点在于,有一个统一的访问层,一旦数据存储在Filecoin网络上,任何组织的任何研究人员都够访问同一层的数据。Filecoin开放性的使得这一切成为可能,这也是Filecoin非常有竞争力的一个方面。其中提到的平均成本每年每TB不到1美元,但到目前为止,所有数据实际上都是以零成本存储的,大部分成本都发生在数据处理和传输上。因此Filecoin不想其他公司会在存储上花费数亿美元。

 

同时Filecoin和IPFS本地相互操作性也值得大家关注,我们希望能够利用极其广泛的IPFS网络作为这些科学数据的分发层。Filecoin在过去一年的发展得到了大众的认可,Filecoin确实是一种适用于high-sla data服务的的解决方案,上面的案例中,我们也不难发现,Filecoin本身是为了存储大型数据集而构建的。


来源:盘古开源

 
免责声明
世链财经作为开放的信息发布平台,所有资讯仅代表作者个人观点,与世链财经无关。如文章、图片、音频或视频出现侵权、违规及其他不当言论,请提供相关材料,发送到:2785592653@qq.com。
风险提示:本站所提供的资讯不代表任何投资暗示。投资有风险,入市须谨慎。
世链粉丝群:提供最新热点新闻,空投糖果、红包等福利,微信:msy2134。