V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
dongyado
V2EX  ›  云计算

阿里云大坑!,擅自重启服务器,还不提前通知,这什么服务。。。

  •  
  •   dongyado · 2016 年 3 月 23 日 · 12855 次点击
    这是一个创建于 3592 天前的主题,其中的信息可能已经有所发展或是发生改变。

    生产环境的服务器,连通知都没有 半夜就重启了。 服务器上一大堆脚本全部停了,出现过好几次服务器半夜被擅自重启,阿里云太坑,,求推荐靠谱的云主机

    第 1 条附言  ·  2016 年 3 月 23 日
    公司 10 台服务器,两年不到重启了不下于五次,这就有点不正常了。。。开机启动是肯定有必要的,不过阿里云的服务。。。确实有一点。。最早的那台服务器,磁盘 IO 是新服务器的 1/3 不到,同样的配置,同样的语句, mysql 查询慢到天,。直接停用了。。
    77 条回复    2016-03-29 23:52:49 +08:00
    cst4you
        1
    cst4you  
       2016 年 3 月 23 日
    Qingcloud uptime 300 天的路过, 之前因为升级 debian 到 8 重启了.
    kozora
        2
    kozora  
       2016 年 3 月 23 日
    额 建议弄个进程守护或者把需要启动的写进开机启动里
    em70
        3
    em70  
       2016 年 3 月 23 日 via iPhone
    不会设置开机自启动你早说啊
    kevinzhow
        4
    kevinzhow  
       2016 年 3 月 23 日
    青云或者国内 AWS
    zjxubinbin
        5
    zjxubinbin  
       2016 年 3 月 23 日
    @em70 我不设置成开机自启动他就可以不通知就重启服务器?
    Andy1999
        6
    Andy1999  
       2016 年 3 月 23 日 via iPhone
    13:20:00 up 1141 days, 15:56, 1 user, load average: 7.16, 7.14, 7.13
    yghack
        7
    yghack  
       2016 年 3 月 23 日
    阿里云之前一直用的不错
    由此故障我的数据库的主从的写入集群的网络断了
    6 个小时才修复
    呵呵哒
    lianz
        8
    lianz  
       2016 年 3 月 23 日
    @Andy1999 略吊
    virusdefender
        9
    virusdefender  
       2016 年 3 月 23 日
    一般是物理机挂了,虚拟机迁移导致的。我也遇到过。
    Andy1999
        10
    Andy1999  
       2016 年 3 月 23 日 via iPhone
    @lianz 运维群里有 2000 天的
    yexm0
        11
    yexm0  
       2016 年 3 月 23 日
    搬去外国
    ayang23
        12
    ayang23  
       2016 年 3 月 23 日
    13:26:54 up 516 days, 14:49, 1 user, load average: 0.11, 0.10, 0.12
    阿里云除了速度慢别的还不错
    lxy
        13
    lxy  
       2016 年 3 月 23 日
    https://help.aliyun.com/knowledge_detail/5973775.html
    云服务器是部署在物理机上的,底层物理机性能出现异常或者其他原因都会导致物理机宕机,当检测到云服务器所在的物理机机发生故障,系统会启动保护性迁移,将您的服务器迁移到性能正常的宿主机上 ,一旦发生宕机迁移,您的服务器就会被重启,如果您希望您的服务器重启以后应用服务器自动恢复,需要您把应用程序设置成开机自动启动,如果应用服务连接的数据库,需要在程序中设置成自动重连机制。
    vwhenx
        14
    vwhenx  
       2016 年 3 月 23 日
    我目前大约 30 台左右阿里云,遇到过 2 次宕机迁移的情况,其实这个很难避免的。
    你应该让你的脚本开机自动启动。
    nicevar
        15
    nicevar  
       2016 年 3 月 23 日
    没有发短信提示?
    QK8wAUi0yXBY1pT7
        16
    QK8wAUi0yXBY1pT7  
       2016 年 3 月 23 日
    这些云服务器没有办法保存状态进行平移吗?
    就像 vmware 的暂停恢复那样
    odirus
        17
    odirus  
       2016 年 3 月 23 日
    我们最多的时候二十多台,用得很欢乐,有些已经开机很久很久了。

    不开机自启的服务不是好服务,不用负载均衡的网站不是好网站。
    aheadlead
        18
    aheadlead  
       2016 年 3 月 23 日
    我唯一的一台 azure 也重启过…
    lhbc
        19
    lhbc  
       2016 年 3 月 23 日 via Android
    @lxy 阿里云不支持热迁移吗?
    GhostFlying
        20
    GhostFlying  
       2016 年 3 月 23 日
    我倒是碰到过 Linode 物理机故障重启的,阿里目前还没碰到过。。
    lxy
        21
    lxy  
       2016 年 3 月 23 日
    @lhbc 呃,忘了说,我不是阿里的员工,我也不知道。只是前段时间刚开通的服务,刚好认真看过使用说明的这部分内容而已。
    shaoS
        22
    shaoS  
       2016 年 3 月 23 日
    23:07:55 up 1569 days, 2:01, 1 user, load average: 0.26, 0.11, 0.09
    huage
        23
    huage  
       2016 年 3 月 23 日
    物理机出现问题然后,迁移重启应该是会有的。
    我也同样造成,不能开机自启动的服务或者软件都不是好服务或者软件。
    dongyado
        24
    dongyado  
    OP
       2016 年 3 月 23 日
    @kozora 正有这个打算,暂时只有这个方法了
    dongyado
        25
    dongyado  
    OP
       2016 年 3 月 23 日
    @em70 并不是会不会设置开机启动的问题,几行代码的而已,而是阿里云的方法太坑了。。生产服务器不打招呼直接重启,,
    wu1990
        26
    wu1990  
       2016 年 3 月 23 日
    @dongyado 就算是物理机器也有可能硬件问题,自动重启什么的。。
    lhbc
        27
    lhbc  
       2016 年 3 月 23 日
    @dongyado 物理机直接挂掉的话,内存里的内容就没了,就必须冷迁移了
    而且,物理机挂掉是必然会发生的概率事情

    做好监控,在物理机出现可能的故障时热迁移并检查硬件,能极大降低冷迁移的发生
    em70
        28
    em70  
       2016 年 3 月 23 日
    @dongyado 哪个云服务敢保证永远不自重启,既然这种情况不可避免,无论几率大小,就算你换了一个号称永远不自重启的云,一样要设置自启动先堵死这个漏洞
    blues9
        29
    blues9  
       2016 年 3 月 23 日
    我的机器也是,去年到现在已经被无故重启过 3 次了,开始还和阿里的人吵架,每次都是赔个代金券了事,后来也麻木了。。同样跑在 aws 的备份系统就 3 年没有重启,直到不久前被通知需要升级 instance ,那也是提前好几个月打招呼了。阿里云的水平还有挺长的路要走。
    dongyado
        30
    dongyado  
    OP
       2016 年 3 月 23 日
    @vwhenx 看来遇到这个问题的人很多,开机启动是次要的,这次启动的只是脚本服务器,下次说不定直接重启 web 服务器了,,,这用户的体验就蛋疼了
    dongyado
        31
    dongyado  
    OP
       2016 年 3 月 23 日
    @lxy 保险的做法是很有必要开机启动服务,不过这种擅自关机启动的问题肯定会导致脚本处理数据异常。。
    dongyado
        32
    dongyado  
    OP
       2016 年 3 月 23 日
    @kozora 是的,这个很有必要。吐槽的是不通知直接重启 还是在半夜。。。
    dongyado
        33
    dongyado  
    OP
       2016 年 3 月 23 日
    @lhbc 小公司暂时没有监控,近期在处理监控这个事, zabbix 已经测试一段时间了
    LioMore
        34
    LioMore  
       2016 年 3 月 23 日
    试试美团云?
    3dwelcome
        35
    3dwelcome  
       2016 年 3 月 23 日
    "做好监控,在物理机出现可能的故障时热迁移并检查硬件,能极大降低冷迁移的发生"+1

    必要的时候,还是要另外开一台服务器作为监控的,间隔一段时间连接一下服务,随时给自己的手机发短信通知。
    usedname
        36
    usedname  
       2016 年 3 月 23 日 via Android
    3 楼也是搞笑, linode do 重启都要提前几天发邮件通知的好吗
    ipconfiger
        37
    ipconfiger  
       2016 年 3 月 23 日
    物理机故障导致切换计算节点, 这个云计算很难避免的
    Zzzzzzzzz
        38
    Zzzzzzzzz  
       2016 年 3 月 23 日
    要保障可靠性容灾、监控、异地冗余都是必须做的, 靠服务商保证基本是不可能的, 别说给 VPS host 打 0day patch 或者机器硬件问题会发生突然性挂掉, 即使是用独立服务器, 机房上架新机器时候蹭掉周围机器的网线或者电源都是不少见的.

    @usedname 很多情况是不可预料的, aws 和 linode 最不缺无预警的机房级故障, linode 历史上光 fremont 机房突然断电整个机房挂半天就不是一次两次了.
    coolzjy
        39
    coolzjy  
       2016 年 3 月 23 日   ❤️ 1
    我是来看三楼搞笑的
    yangxiongguo
        40
    yangxiongguo  
       2016 年 3 月 23 日
    AntonChen
        41
    AntonChen  
       2016 年 3 月 23 日
    iwannaflytomoon
        42
    iwannaflytomoon  
       2016 年 3 月 23 日
    top - 15:40:52 up 156 days, 1:29, 4 users, load average: 0.31, 0.13, 0.09

    我这边 10 多台阿里云的机器,没遇见过擅自重启的情况,可能是小概率事件吧
    dongyado
        43
    dongyado  
    OP
       2016 年 3 月 23 日
    @blues9 感觉 有点不靠谱,已经遇到好几次了。
    dongyado
        44
    dongyado  
    OP
       2016 年 3 月 23 日
    @em70 恩 开机启动是必须加上的,,不过阿里云重启次数太多了,一年内都好几次了。。这就不正常了。。。。
    em70
        45
    em70  
       2016 年 3 月 23 日
    @dongyado 阿里云不要自己在 ECS 搭建 MYSQL,直接用 RDS,性能超强,备份,日志也方便
    dongyado
        46
    dongyado  
    OP
       2016 年 3 月 23 日
    @em70 现在全部都在阿里云上,日均 700 万 PV 暂时没任何压力,后面如果再出大问题 就考虑搬迁了。。
    odirus
        47
    odirus  
       2016 年 3 月 23 日
    @em70 +1 阿里云 RDS 性能超强,还不够?阿里云分布式关系数据库 DRDS 。
    9hills
        48
    9hills  
       2016 年 3 月 23 日
    底层物理机损坏,除非你做了虚拟机热备,否则无论如何都是会导致冷迁移的
    aheadlead
        49
    aheadlead  
       2016 年 3 月 23 日
    LZ 留意下系统日志 看有没有 kernel panic 类似的东西...
    lygmqkl
        50
    lygmqkl  
       2016 年 3 月 23 日
    top - 18:36:55 up 125 days, 7:28, 1 user, load average: 0.00, 0.00, 0.00
    fds
        51
    fds  
       2016 年 3 月 23 日
    配置启动脚本呗,另外避免单点故障
    mornlight
        52
    mornlight  
       2016 年 3 月 23 日
    物理机宕机导致的迁移应该是有短信提醒的,你问问客服。
    jimzhong
        53
    jimzhong  
       2016 年 3 月 23 日
    难道 Aliyun 还不支持热迁移吗,我一向都不写自启动脚本的。
    russj
        54
    russj  
       2016 年 3 月 23 日
    没有开机启动?没有自动重启?
    青云的 ubuntu deploy meteor app 不行。 update upgrade 后也不行,大陆香港的都不行。懒得去给他们 debug 了
    huijiewei
        55
    huijiewei  
       2016 年 3 月 23 日
    买了阿里云服务器,一台还没开始用硬盘就挂了。。汗。。正在等处理,我晕
    akira
        56
    akira  
       2016 年 3 月 23 日
    不可预知的重启是没有办法提前通知的。。但是如果事后他没通知你的话,就去骂吧
    gpw1987
        57
    gpw1987  
       2016 年 3 月 23 日
    我觉得如果你的集团大了。还是考虑自己弄吧,依靠在云上面毕竟很多东西还受制于技术或者邻居和阿里在这方面的投入,不过阿里搞这个可能刚刚开始关系吧。
    unixbeta
        58
    unixbeta  
       2016 年 3 月 23 日 via iPhone
    700 万 pv 没有监控,运维咋做的
    msg7086
        59
    msg7086  
       2016 年 3 月 23 日
    #25 @dongyado "生产服务器" 括弧笑
    生产服务器老实上集群,后端两三台,前级两三台,挂了机器就赶紧切,什么都好说。
    7m PV 都要考虑上独服了。
    alexapollo
        60
    alexapollo  
       2016 年 3 月 23 日
    估计是进了超卖池
    Aspx
        61
    Aspx  
       2016 年 3 月 23 日
    我是来看 3 楼搞笑的
    Showfom
        62
    Showfom  
    PRO
       2016 年 3 月 23 日 via iPhone
    可能你所在母鸡硬件坏了 所以只能重启咯 不过不通知确实不好 Linode 的母鸡也整天硬件坏 但是都会通知
    special
        63
    special  
       2016 年 3 月 23 日
    服务关联太多,自启动也未必解决到问题...
    aliyunservice
        64
    aliyunservice  
       2016 年 3 月 23 日
    您好,方便的话可以微博私信阿里云客户满意中心提供下您的服务器信息我们查询下具体情况,如果是宕机迁移导致的重启我们会有短信和邮件通知您的,同时建议您的程序或者软件设置开机启动的机制保证应用正常运行。
    lovejoy
        65
    lovejoy  
       2016 年 3 月 23 日
    @hxd 毕竟不是虚拟机吧?另外物理机突然挂了,谁也没辙吧
    dongyado
        66
    dongyado  
    OP
       2016 年 3 月 23 日
    @msg7086 现在已经是 两台代理 后面加 3 台 web 服务器了 单点故障并不担心。
    dongyado
        67
    dongyado  
    OP
       2016 年 3 月 23 日
    @unixbeta 没出现过大问题,阿里云的监控以前基本够用,现在发现有必要自己做了, 运维我都是挤出时间做的,最近在测 zabbix 这一周可以上线
    yishenggudou
        68
    yishenggudou  
       2016 年 3 月 23 日
    你确定不是你欠费了
    goodryb
        69
    goodryb  
       2016 年 3 月 24 日
    如果重启 1 台机器都能对业务造成影响,那只能说运维有问题。物理机还有宕机掉电,别说虚拟机了
    jadecoder
        70
    jadecoder  
       2016 年 3 月 24 日
    要是服务商没办法保证机器稳定,能否付费前告诉用户,我们的机器会经常重启,请确保服务可以开机自启动。

    退一万步讲,宕机重启也应该发邮件通知用户吧。

    反正我用我司的云主机从来没有被重启过
    aliyunservice
        71
    aliyunservice  
       2016 年 3 月 24 日
    @huijiewei 您好,您的这边问题解决了吗,如果还有问题可以通过微博通过微博联系阿里云客户满意中心,私信提供下您的服务器信息我们核实下。
    aliyunservice
        72
    aliyunservice  
       2016 年 3 月 24 日
    @huijiewei 您好,您的这边问题解决了吗,如果还有问题可以通过微博通过微博私信提供下您的服务器信息我们核实下。
    huijiewei
        73
    huijiewei  
       2016 年 3 月 24 日
    @aliyunservice 你好,已经解决了。
    crbee
        74
    crbee  
       2016 年 3 月 24 日
    @cst4you sakura 400 天无重启记录~😂
    chousb
        75
    chousb  
       2016 年 3 月 24 日
    楼主可以试试青云 QingCloud 最起码迁移会通知你。
    coko156
        76
    coko156  
       2016 年 3 月 25 日
    mysql 查询慢到天?
    ddou
        77
    ddou  
       2016 年 3 月 29 日
    @lxy AWS 如有类似情况,大概会提前一个月通知。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5534 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 45ms · UTC 09:00 · PVG 17:00 · LAX 01:00 · JFK 04:00
    ♥ Do have faith in what you're doing.