V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
wangpugod2003
V2EX  ›  问与答

分布式的计算平台方案选择

  •  
  •   wangpugod2003 · Dec 1, 2023 · 1962 views
    This topic created in 887 days ago, the information mentioned may be changed or developed.
    一个研究型机构的很多研究员,需要提交 C/C++,java 或 python 写的算法,然后进行计算密集型的运算,得到结果。

    目前都是在单机上进行,效率较低,通常一台服务器需要计算几小时甚至天,崩溃了不好维护,然后物理的资源又不够,闲置的时候又是浪费。

    现在想搭建一个云平台,目的是方便这些人提交算法任务,属于计算密集型的分布式计算,能否利用多台云服务器,搭建一个分布式的计算平台(因为分布式是趋势,所以也有经费的考虑(*^_^*)),可以叠加利用 CPU ,内存,存储等。但是目前的分布式系统(mapreduce/spark)主要在数据密集型上发挥作用吧?这种计算密集型的是否有合适的方案?

    是 hadoop + mapreduce ?还是 spark ,或者 k8s 呢?

    大家帮忙给点意见,谢谢!
    7 replies    2023-12-03 10:29:09 +08:00
    rrfeng
        1
    rrfeng  
       Dec 1, 2023 via Android
    肯定是 k8s
    但是问题是怎么拆分你的任务,除非你的计算框架自己支持分布式
    jgh004
        2
    jgh004  
       Dec 1, 2023
    我记得天河还是哪个超算是开放的吧,你试试呗。
    jgh004
        3
    jgh004  
       Dec 1, 2023
    http://www.cngrid.org/yhfw/zhsq1/ 试用免费,1 个月。
    Philippa
        4
    Philippa  
       Dec 1, 2023
    k8s + ray
    litguy
        5
    litguy  
       Dec 2, 2023
    算法并行化的工作量不小
    先单机挖掘挖掘瓶颈吧
    就算上云,也可以 on-demand 方式临时租借高配置主机
    集群并行计算要有个路径规划
    dogcraft
        6
    dogcraft  
       Dec 3, 2023
    slurm
    joynvda
        7
    joynvda  
       Dec 3, 2023
    可考虑 MLOps 的框架,类似 Kubeflow 。虽然基于 k8s ,上层有为算法和学习优化的模块。
    实现这个也不容易,运维的要会写代码。

    至于多云,不要轻易尝试。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3150 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 95ms · UTC 14:25 · PVG 22:25 · LAX 07:25 · JFK 10:25
    ♥ Do have faith in what you're doing.