蜡炬教育:如何处理机器学习中大型数据的加载问题?

5年前 (2020-07-27)阅读972回复0
艾维迪斯
艾维迪斯
  • 管理员
  • 发消息
  • 注册排名645
  • 经验值115
  • 级别管理员
  • 主题23
  • 回复0
楼主

  原标题:蜡炬教育:如何处理机器学习中大型数据的加载问题?

  蜡炬教育老师表示,在处理机器学习算法时,经常会因为数据库太大而导致无法放入内存中,而遇到这样几个问题:当运行数据集算法而导致崩溃时如何解决?当需要处理大容量数据文件时该如何加载?如何方便快捷的解决内存不足的问题?

  针对以上问题,蜡炬教育老师给出7个建议:

蜡炬教育:如何处理机器学习中大型数据的加载问题?

  1.分配更多内存

  某些ML工具或数据库默认内存配置不合理,可以看看是否可以手动分配。

  2.使用较小样本

  确认是否需要处理所有数据?在对最终数据拟合前,使用随机抽取数据样本这个示例即可。

  3.使用内存更大的设备

  可以租用大内存的服务器,这样可以在物理手段上获取更大的计算能力。

  4.更改数据格式

  可以通过更改数据格式来加快数据加载并降低内存使用率,比如二进制格式。

  5.流数据或使用渐进加载

  可以将数据逐步加载到内存中进行使用。

  6.使用关联数据库

  从内部来看,存储在磁盘上的数据可以逐步加载,并可以使用标准语言(SQL)来进行查询。

  7.使用大型数据平台

  比如用Mahout机器学习库的Hadoop以及用MLLib库的Spark,它们是为处理非常大的数据集专门设计的平台。

  蜡炬教育老师说到,如果遇到数据库太大无法放入内训的相关问题,可以从如上7个方法中寻找解决办法。

0
0
收藏0
回帖

蜡炬教育:如何处理机器学习中大型数据的加载问题? 期待您的回复!

取消
载入表情清单……
载入颜色清单……
插入网络图片

取消确定

图片上传中
编辑器信息
提示信息