技术性话题 · 2024-05-30 1

关于砸钱试稳intel 13 14代的全默认状态下的稳定性问题,目前已经有了重要的发现与阶段性总结,暂时可以画上句号

关于intel baseline/default setting设定测试总结,尚未完全解决第13和14代13900K 14900K酷睿i9处理器的稳定性问题,生产力场景仍然不可靠】不了解前情的请先通过本文查看前情。

%title插图%num
先分享近期我购买的i9 14900KS记录,大部分是选择二手盒装产品,目的是验证比较二手盒装产品与全新到底有无差异。目前结论是二手盒装与全新盒装无差异(手残折腾坏的除外)。BTW:全新盒装14900KS我也买了几个先不晒图。
%title插图%num
这里表扬一下华硕那边主动站内信跟我联系,安排技术跟我这边对接,让我出乎预料。看来CHH论坛卧虎藏龙果然名不虚传。
%title插图%num
这是前几天我与华硕那边人员大概确定问题结论后的部分聊天记录。

经过最近两周的调测,我们的结论已经比较石锤,所以打算抢先一步在板卡厂商更新BIOS前,先透露我们自己的结论。

BTW:目前我们还没把发现与细节明确告诉华硕或任何第三方,先发出来目的是为了等后大范围的新版本BIOS更新后,确定与我们的发现是否一致。

故事

首先分享下自上次我CHH论坛发表砸钱试稳帖子后,期间发生的故事:

  • 不到两天时间,收到站内信,与华硕技术沟通,我也将这边测试的过程和方法告知华硕那边。
  • 后续几天里我们开始采购14900KS处理器进行普遍测试。初期结论是14900KS在intel baseline设定下表现稳定性确实有提高,明显比14900K更稳定。
  • 由于认识从事服务器的大佬,所以借用大佬的机房,在后续十多天时间里机器都放机房里进行重复调测。有一次帮大佬调测第五代至强铂金服务器在默认设定状态下非常卡顿的问题,我在十多次调测中偶然发现了造成性能异常卡顿的原因。忽然意识到既然这个选项跟处理器的某个设定有关,立刻联想到关于13、14代处理器限制上限后不稳定因素极有可能跟这个相关,于是我立刻进行验证。
  • 随后十多天时间里,我用十多台机器,总计进行不下一百次的重复调测,最终锁定了原因。

说了这么多,现在回到关于13、14代不稳定主题,目前我们的阶段性总结吧。

结论

问题可以总结为两方面,分别是‘上限’与‘下限’问题。

上限问题是在不加以限制情况下容易立刻显现的,比如此前高负载瞬间崩溃或特定程序容易立刻引发不稳定的问题。

下限问题是潜在性的只有在特定类型工作负载下才会显现,比如全默认或处于baseline或default设定且不超频情况下某些游戏或程序运行期间出现不稳定随机崩溃问题。

截止目前,我们几乎可以肯定一切的主要问题源自于‘下限’方面,应该是intel过于借鉴以往经验,从9代、10代、11代直到12代的成功都是如此。但是从13代开始红利到头了,在压榨处理器极限同时未对稳定性进行充分考量与测试。

我们的猜想:应该是intel急于求成推出能与AMD锐龙抗衡的产品,因此疏忽或忽略了某些本该严格的测试流程。BTW:我不对这句话负责,这只是猜想。

  • 关于上限问题,intel和各大厂商及时通过更新BIOS限制上限(所谓的intel baseline也好,default setting也罢)来解决,确实对不加以限制从而容易立刻显现的上限导致的不稳定有改善。但是导致了性能损失。
  • 限制上限后,紧接着的不稳定因素源自于‘下限’,‘下限’是比较潜在性的,在常规拷机与压力测试中无法触发,必须在特定类型负载或状态下会有较大概率触发。这里‘下限’我暂时不指名具体是什么。
  • 通过我们近百次测试,关于对‘下限’相关的问题因素进行规避设定,目前实测生产力场景基本可以稳定使用,并在B板Z板同步测试。
  • 后续我们又扩展了测试,对‘下限’相关的问题规避,同时适当在Z板上解除上限限制,14900K和14900KS终于可以Z板既稳定性能又畅快淋漓。
  • 我会在后续单独发表文章和帖子说明这个‘下限’问题具体是什么。

此致,为今年这一场无厘头的砸钱试稳故事画上句号。虽然心累但好在已经知道了问题原因。

特别感谢我的那位服务器大佬无私提供机房机位资源,让我能够以不可能的效率进行近百次的测试快速寻找原因。而且也正是机缘巧合下让我发现了处理器‘下限’问题。

基于无私互助原则,我已经率先将问题详细原因和解决方法分享给了服务器大佬,帮助他们机房解决了全部13、14代处理器生产力的可靠性问题,优先确保他们的业务顺利运行。目前初期效果反馈很好。

那么接下来,就看intel和各大厂商表演的时刻了,有请intel和各厂商开始你们的表演!

我计划等后续intel和板卡厂将问题解决之时,或者几个月后下一代产品上市之前intel和板卡厂还是折腾不好,我们再公布具体的发现和原因。当然intel也可能会选择摆烂这一代,毕竟下一代产品马上就出了。

补充

为避免装腔作势故弄玄虚嫌疑。我按目前经验先给大家一个可能有助于减轻不稳定问题解决的解决方案:

现阶段,采取定频定压(不超频且不超默认设定)+系统电源配置设定为高性能或卓越性能(让最低处理器状态是100%),是缓兵之计。

因为这个模式下,处理器不需要频繁调整自身状态,会在稳定的舒适区下工作,进而很可能有助于提高稳定性,只是这个舒适区不太好摸,有一些门槛。

具体我没这样试过,这只是根据目前已知的原因给出一个理论上的偏方,我认为会有效果。目前我也十分期待下一版BIOS更新intel和板卡厂的工作到底能否见成效。