首页 > 世链号 > 分布式机器学习——挖掘矿机剩余算力?
IPFS星际联盟  

分布式机器学习——挖掘矿机剩余算力?

摘要:近十年来,由于机器学习技术的进步和硬件加速的推动,我们对人工智能的需求有了很大的增长。

     近十年来,由于机器学习技术的进步和硬件加速的推动,我们对人工智能的需求有了很大的增长。但是,为了提高预测质量,使机器学习的解决方案适合更复杂的应用,需要大量的训练数据和计算资源。

     因为对训练数据处理的需求已经超过了计算机的计算能力,所以需要把机器学习的工作分散在多台机器上,把集中式系统变成分布式系统。但是,随着机器学习技术的发展,训练数据集的数量越来越多,必然会给分布式存储市场带来更多的价值数据。与此同时,模型训练庞大,可否挖掘出出矿机的剩余算力?无论是从网络存储和检索价值的角度,还是从矿工收益的角度,都会让去中心化存储市场的总体经济盈余大幅增长。

     该文从机器学习的角度谈了分布式存储在分布式机器学习中的优势,以及它对分布式存储的价值。

     分布式机器学习是什么?

     近几年来,随着技术的飞速发展,数据的增长达到了前所未有的高度。在数据分析和决策系统中,机器学习算法的应用日益广泛,但对于某些复杂问题,单一的机器学习算法是无法解决的。比如自动驾驶,语音识别,量化预测,消费行为预测等等。

总的来说,机器学习问题可以分为两个阶段:训练阶段和预测阶段。通过向机器学习模型注入大量的训练数据,训练阶段不断地更新优化该模型。预报阶段是将新的数据作为实际的输入,让训练好的模型输出其预报结果。可用下图表示:
518947797e5df987bc337a1cf1c6f926.jpg

     因为复杂应用的训练集很容易达到 TB级,所以考虑到模型的训练时间,大家只好将机器学习方法应用于分布式系统,充分利用其并行处理和 I/O总带宽的优势。有时候,如果数据本身是分布式的,或者大到无法存储在单一设备上,那么传统的中央模式自然是行不通的。

     要让这类数据集能作为机器学习模型的训练数据,我们需要选择能进行并行或分布式计算,数据分布式存储的算法。说到用分布式方案来解决机器学习问题,即分布式机器学习,我们可以归结为数据分布和模型分布两种方法,把问题分解到多个设备之间(当然,这两种方法也可以同时使用)
b7ab4561df3a42afaec61aad53037b7b.jpg

     分布式系统中,节点数的多少决定了数据块的大小,因此,所有节点对不同的节点采用相同的算法。同一模型可供所有节点使用(通过集中分布或复制分布),因此,聚合后自然会得到与传统机器学习训练一致的结果。这种方法可用于现有的任何机器学习算法,只要数据的分布是独立、同分布(i. i. d)。

对于模型分布式,将模型分解为不同的组件,每个节点接受一个或多个组件的请求,然后将整个数据集作为输入进行训练。也就是说,每个节点都要处理相同的数据,并最终形成一个聚合最终的模型。因为模型参数通常不能被分割,所以模型分布式方法不适合所有的机器学习算法。

     下一步,我们将通过具体示例来探索机器学习和分布式存储网络的结合。

深度学习主要依靠数据表征,而非针对特定任务的算法。“深度”这个词在深度学习中用来描述模型输入和输出之间的层次关系(尽管我们不能完全解释每个层次的具体含义)。这两个层将数据转换为各种表示,然后给出其结果。移动性学习(Transfer learning)提供了一种新的深度学习方法。

     “迁移学习”希望通过学习和解决一系列问题,存储和积累所获得的知识,并试图将这些知识应用于其他类似的问题。在学过自行车之后,我们会利用以前的经验去学骑摩托车,虽然这两者并不完全一样。在算法上,它就像是把识别鸟类所获得的知识应用到飞机和其它飞行物体上。常规机器学习使用来自同一领域的数据进行学习和预测,相对于迁移学习,迁移学习使用来自其他领域的知识(例如,重复其他模型中预先训练的权重)来完成目标领域的任务。

     想象一下,我们可以构建一个区块链框架:建立一个深度学习模型,该模型是经过数据预训练的,然后在该模型上实现一个智能合约,该合约通过网络共享给其他用户,条件是满足智能合约的限定条件,例如支付通证。这使得模型的使用更加广泛——使用预先训练好的大数据模型来处理用户自己的小数据模型。

     其中,区块链提供的不仅仅是一种通讯机制,而是一种知识产权保护制度。在区块链上的智能合约可以确保预先培训的模型或创建模型的人拥有这些知识产权(模型、数据和资源),并且分享数据的个人可以获得报酬,从而推动这种“机器知识”的传播。
fbb8ea44aa237f8c33f4dfc8dc5da527.jpg

     po”视点

     Filecoin开发团队一直强调“价值数据”存储的重要性,从 Filecoin网络测试阶段开始,他们就开始研究如何让那些存储“价值数据”的节点获得更高的效率。自2021年1月 FilecoinPlus正式启动 Datacap分配过程以来,公证人分配给验证客户机的 Datacap数量很少,原因之一是公证人进行人工审核的时间周期较长,而且未发现大量可信客户机释放。在 Filecoin网络上存储机器学习训练集或模型等有意义的数据时,按照目前的规则,理想情况下,矿工可以得到10倍的有效算力,这对网络的价值也很有帮助。

     分布机器学习是把分布式存储与分布式计算(即存储量+算力)结合起来的一个很好的实验平台。如今挖掘计算大多是没有多少实际生产意义的,消耗的电能和污染也不少。能够为市场提供一个模型和数据,参与者也能根据需求共享模型培训的结果。

也可能是,利用机器学习算法模型的训练过程来挖掘数据,使计算更有意义?

     Filecoin矿工不仅可以获得不仅仅是“存力”的奖励,还可以利用他们手中没有使用的计算资源获得更多的收益(例如,社区没有决定的15%空白奖励),同时减少设备的空置率。这样做不仅能为用户提供更多在线计算能力的选择,或许还能吸引大型传统服务商的加入。

 

免责声明
世链财经作为开放的信息发布平台,所有资讯仅代表作者个人观点,与世链财经无关。如文章、图片、音频或视频出现侵权、违规及其他不当言论,请提供相关材料,发送到:2785592653@qq.com。
风险提示:本站所提供的资讯不代表任何投资暗示。投资有风险,入市须谨慎。
世链粉丝群:提供最新热点新闻,空投糖果、红包等福利,微信:msy2134。