ppn029012
V2EX  ›  问与答

如何在分钟级别里处理 50G 数据?

  •  
  •   ppn029012 · May 14, 2017 via iPhone · 3729 views
    This topic created in 3329 days ago, the information mentioned may be changed or developed.
    目前有一个需要处理 500 万条目大约 50GB 数据,数据目前放在 mongoDB 上,每次处理需要读出来,处理再写入,耗时在 5-6 个小时不等。请问目前市面上有什么样的云端数据处理框架可以帮助我能在分钟级或者秒级处理这些数据吗?
    12 replies    2017-05-15 13:15:07 +08:00
    lynnworld
        1
    lynnworld  
       May 14, 2017
    为什么每个条目这么大?
    ppn029012
        2
    ppn029012  
    OP
       May 14, 2017 via iPhone
    @lynnworld 文本数据
    ETiV
        3
    ETiV  
       May 14, 2017
    这么大数据,还要这么短时间。。。
    要是硬盘给力的话,最快的处理方式恐怕就只有 rm -fr 了
    billion
        4
    billion  
       May 14, 2017
    如果你的 MongoDB 用的是阿里云,那么你可以试一试 MaxCompute
    dexterzzz
        5
    dexterzzz  
       May 14, 2017
    用内存,列存储数据库
    Kilerd
        6
    Kilerd  
       May 14, 2017
    50GB /60 s = 1G/s
    就算是连续读写这个速率都不低啊, 还要进行处理
    wanglaihuai
        7
    wanglaihuai  
       May 14, 2017 via Android
    @ETiV 哈哈哈哈,这个最快了。
    powergx
        8
    powergx  
       May 14, 2017
    ramdisk 可以, 延迟 /吞吐量能达标。 云端不可能有
    rrfeng
        9
    rrfeng  
       May 14, 2017
    如果还会增长的话趁早改 Hadoop 平台,各种选择
    如果永远这么点儿的话 MongoDB SSD 多加内存也是可以的,但是要注意主机网络带宽(云主机内网带宽),一定会成为第一个瓶颈。解决方案是分片
    kaneg
        10
    kaneg  
       May 14, 2017 via iPhone
    hanadb
    chocolatesir
        11
    chocolatesir  
       May 14, 2017 via Android
    或许 conoha 可以。。
    ihuotui
        12
    ihuotui  
       May 15, 2017 via iPhone
    业务是怎样?单数据量有什么好说
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5318 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 73ms · UTC 07:53 · PVG 15:53 · LAX 00:53 · JFK 03:53
    ♥ Do have faith in what you're doing.