蚂蚁矿机S9K S9SE算力板如何维修?

蚂蚁矿机1年前 (2023)发布 YKK
1.2K 0 0

蚂蚁矿机S9K S9SE算力板维修指南

版本日期:2019.7.9

文件类别:维护计划

本卷内容:主要讲述S9K S9SE各种故障的排除,以及如何使用测试工具进行准确定位。

※ 本文版权归Bitmaintech Pte. Ltd所有。(比特大陆)。转载、摘录或以任何其他方式使用该文章须经版权人许可。如有转载或引用需求,请联系比特大陆官方客服。

一、维护平台要求

1、恒温烙铁(350-400℃)。烙铁头用于焊接贴片电阻、电容。

2、散热烟囱用于芯片拆焊,注意不要长时间加热,以免PCB起泡。

3、APW3++电源(输出12V,最大133A),用于算力板的测试测量。

4、Fluke 15b+万用表、镊子、S9k S9se 测试治具(有条件可配置 示波器)。

5、助焊剂、无水酒精清洗面板水;清洗面板水用于清洗维护后的助焊剂残留物和外观。

6.修复后使用导热胶重新粘贴散热片。

如果您需要维修蚂蚁S9k S9se,除了上面提到的必要工具外,还需要万能测试夹具862D拆焊台刮锡刀等高效工具。

当然,这种选择可能比较麻烦,也可以选择方便的比特大陆蚂蚁矿机算力板修复捆绑包

二. 维护操作要求

1、维修人员必须具备一定的电子知识,一年以上维修经验,掌握QFN封装焊接技术。

2、修复后,算力板必须经过两次测试,确认OK才可以通过!

3、更换芯片时要注意操作方法。更换任何配件后,PCB板无明显变形,检查更换的配件及其周围是否有断路、短路现象。

4、确定维修站对象及相应的测试软件参数和测试治具。

5、检查工具、夹具是否能正常工作。

(功率输出是否与jig config文件中的设置相同。不同的BIN级别和芯片封装模式需要对应单板测试治具程序的config和single-board-test文件。)

三.原理及结构

1、原理概述

1.1 S9K S9SE算力板由6个电压域串联组成。每个电压域有10颗BM1393芯片,整板上有60颗BM1393芯片。

1.2 单颗BM1393芯片有208个核心,域电压1.6V,整板上6个域总电压9.6V-9.9V

1.3 S9K S9SE时钟由两个25M有源晶振(Y1、Y2)组成,Y1从第1个芯片串联传输到第30个芯片,Y2从第31个芯片串联传输到第60个芯片

1.4 S9K S9SE算力板每个芯片正反面 都有独立的小散热片。正面的小散热片是SMT贴片,背面的小散热片经过初步测量后通过导热胶固定在IC的背面。维修更换的芯片测试合格后,需要在IC表面均匀涂抹黑色导热胶并加热固定。

笔记:

在维修过程中,更换电路板元件或芯片时,为了减少吹气枪的高温对PCB板和芯片的损坏,需要先将故障元件附近的小散热片拆掉。以及更换前PCB板的背面。

PCB芯片表面有测试点。制造和维修时,如果PCB芯片上没有贴散热片,可以使用芯片表面的测试点;对于成品维修(售后维修),由于PCB的正反面均被散热片覆盖,因此需要通过PCB芯片表面的测试点来定位故障。可以使用特制的细长测试引线探查散热片间隙进行测量。但由于SMT小散热片与各电压域的地相连,因此测量时需要注意表笔的绝缘,避免表笔造成短路。

2. 要点分析

2.1 下图为S9K S9SE信号板的芯片域分布、信号路径及电路分布:

蚂蚁矿机S9K S9SE算力板如何维修?蚂蚁矿机S9K S9SE算力板如何维修?

TMP451温度传感

CLKO信号流向由Y1 25M晶振产生,从芯片U1传输到芯片U30;由Y2 25M晶振产生,从芯片U31传送到芯片U60。待机和计算时电压为0.9V。

信号CO(CI、C0)从IO口(J4)的7脚进入,然后从芯片U1传输到芯片U60;未插IO线时电压为0,计算时电压为1.8V。

信号RI(R1、RO)从芯片U60返回芯片U1,再从IO口(J4)8脚返回控制板;未插入IO信号时电压为1.8V,计算时电压为1.8V。

信号BO(BI、BO)从芯片U1流向U60,降低电平;没有插IO线时电压为0V,待机时,计算时有0.3左右的脉冲信号,一般测不到电压是正常的。

信号NRSTO(NRSTO、NRSTI)从IO口的引脚(J4))3进入,然后从芯片U1传输到芯片U60;无IO信号插入和待机时电压为0V,计算时电压为1.8V。

2.2 S9K S9SE算力板关键电路

2.2.1 U122电源管理示意图

蚂蚁矿机S9K S9SE算力板如何维修?

2.2.2 DC to DC电路原理图

蚂蚁矿机S9K S9SE算力板如何维修?

2.2.3 EEPROM IC 原理图(单板测试会改变EEPROM中的幻数、温感信息和CRC信息)

蚂蚁矿机S9K S9SE算力板如何维修?

2.2.4 钳位电路原理图

蚂蚁矿机S9K S9SE算力板如何维修?

2.2.5 PIC U102 原理图

蚂蚁矿机S9K S9SE算力板如何维修?

2.2.6 各芯片信号测试点(放大后如下图):

蚂蚁矿机S9K S9SE算力板如何维修?

1. 域1、3、5的信号测试点

2. 域2、4、6的信号测试点

2.2.7 Domain 1、3、5各芯片引脚电路图

蚂蚁矿机S9K S9SE算力板如何维修?

2.2.8 Domain 2、4、6各芯片引脚电路图

蚂蚁矿机S9K S9SE算力板如何维修?

2.2.9 IO口J4电路图

蚂蚁矿机S9K S9SE算力板如何维修?

2.2.10 0.8V、1.8V电路原理图

蚂蚁矿机S9K S9SE算力板如何维修?蚂蚁矿机S9K S9SE算力板如何维修?

2.2.11 电平信号转换示意图

蚂蚁矿机S9K S9SE算力板如何维修?

2.2.12 Y1、Y2晶振原理图

蚂蚁矿机S9K S9SE算力板如何维修?蚂蚁矿机S9K S9SE算力板如何维修?

2.2.13 LDO 0.8V、1.8V 和晶振测量

蚂蚁矿机S9K S9SE算力板如何维修?蚂蚁矿机S9K S9SE算力板如何维修?

S9K S9SE保养思路

维修时,对主测试芯片前后进行10次测试(芯片前后各5次:CLKO、CO、RI、BO、NRSTO);DC-DC输出和PIC电压

核心电压;LDO(0.8V 1.8V),PLL-0.8V。

检测方法:

1、不插IO线,只插12V时:DC-DC输出0V左右,升压输出0V左右。必须给PIC供电3.3V电源。其余测试电压均为0;

2、插入IO线且未按下测试按钮时,DC-DC和Boost均无电压输出。按下测试按钮后,PIC开始工作。此时,DC-DC输出PIC治具测试程序设定的电压,并在工作时升压。然后jig输出WORK,计算完成后返回noce。此时各测试点的正常电压应为:

时钟脉冲:0.9V

CO:1.6-1.8V,治具刚送入WORK时,由于CO为负,直流电平会降低,瞬时电压约为1.5V。RI:1.6-1.8V,计算时电压异常或过低时,算力板异常或算力为零。

BO:0V没有运算时,运算时会有0.1-0.3V之间的脉冲跳变。 

内阻:1.8V。每次按下夹具的测试按钮时,都会重新输出复位信号。

当上述测试点状态或电压异常时,请根据测试点前后电路判断故障点。

S9K S9SE芯片配置文件详解及区别

蚂蚁矿机S9K S9SE算力板如何维修?蚂蚁矿机S9K S9SE算力板如何维修?

PCBA标签图

蚂蚁矿机S9K S9SE算力板如何维修?蚂蚁矿机S9K S9SE算力板如何维修?

芯片对应关系说明

四.日常维护流程

蚂蚁矿机S9K S9SE算力板如何维修?

1、例行检测:首先对待修复算力板进行目视检查,是否有位移、变形、小散热片烧毁等情况?如果出现这种现象,必须先进行处理;如果小散热片移位,请先将其取下,然后清除黑色粘合剂,修复后重新粘合。

其次,目视检查确认没有问题后,可以先检测各电压域的阻抗,以检测是否存在短路或开路。如果发现,必须首先处理。

接下来检查各个电压域的电压是否达到1.6V,电压域之间的电压差不得超过0.3V。如果某个电压域的电压过高或过低,则相邻电压域的电路一般都会出现异常现象,需要首先查找原因。

2、例行测试确认没有问题后(例行测试需要进行短路检测,避免上电时因短路烧毁芯片或其他材料),可以使用测试盒进行芯片检测,并可根据测试盒的检测结果来判断位置。

3、根据测试盒检测结果,从故障芯片附近开始,检测芯片测试点电压(CLK IN OUT/RI IN OUT/CO IN OUT/BO IN OUT/NRST IN OUT )和LDO 0V8 1V8。

4、根据信号流向反向传输RI信号(U60至U1芯片),并正向传输几个信号CLK CO BO NRST(U1-U60),通过电源找到异常故障点供应顺序。

5. 定位到故障芯片后,需要重新焊接芯片。方法是在芯片周围添加助焊剂(最好是免清洗助焊剂),将芯片引脚的焊点加热至溶解状态,轻轻上下左右移动,压紧芯片;推动芯片引脚重新接合焊盘,收集锡,以便再次上锡。如果重新焊接后故障相同,可直接更换芯片。

6、算力板修复后,必须对测试箱进行两次以上检查。两次测试的时间:第一次,更换部件后,算力板需要冷却;测试通过后,先放在一边。第二次,几分钟后算力板完全冷却后,进行测试。虽然两次测试每次都只持续几分钟,但并不影响工作。将修复好的板子放在一边,修复第二块板,修复完第二块板后,放置冷却,然后测试第一块板。方式上,修复是错开的,总时间长度没有延迟。

7、对于修复后的单板,首先需要对故障进行分类,并记录所更换部件的型号、位置、原因,反馈给生产、售后、研发。

8、烧录完成后,安装整机进行正常老化。

五、故障类型

S9K S9SE算力板常见故障类型:

1、散热片掉落、移位、变形

算力板芯片背面PCB板上的散热片在通电前不允许移位或碰撞,特别是不同电压的散热片。不同电压域的散热片接触意味着不同电压点存在短路的可能。

并且确定算力板上的各个散热片导热良好且固定牢固。

更换或重新安装散热片时,应清除散热片及芯片上残留的粘合剂,然后重新涂抹。残留的导热胶可用无水酒精清洗干净。

2、各电压域阻抗不平衡

当某些电压域的阻抗偏离正常值时,表明异常电压域存在开路、短路现象。一般来说,芯片是最有可能引起的。但每个电压域有3个芯片,出现故障时往往只有1个芯片出现问题。查找问题芯片的方法可以检测并比较各个芯片测试点的接地阻抗,从而找到异常点。

如果出现短路,首先拆下同电压芯片上的散热片,然后观察芯片引脚的锡是否连接。

如果从外观上找不到短路点,可按电阻法或电流切断法寻找短路点。

3、电压域电压不平衡

当某些电压域的电压过高或过低时,通常会在异常电压域或相邻电压域内出现异常IO信号,导致下一个电压域工作异常,电压不平衡。通过检测各测试点的信号和电压可以发现异常点,有的需要通过比较各测试点的阻抗来发现异常点。

请注意,CLK 信号和 NRST 信号是最有可能导致电压不平衡的两个信号。

4.缺乏芯片

缺芯片是指在检查测试盒时,并没有检测到所有60个芯片,而且往往实际上并没有检测到所有芯片。实际丢失的(未检测到的)异常芯片不在显示位置。这时就需要通过测试来准确定位异常芯片。

定位方法可以采用RI截断法来查找异常芯片的位置。即将某个芯片的RI信号接地,例如电压域第50个芯片的RI输出接地后,理论上如果前面所有芯片都正常,测试盒上应该显示50个芯片都正常检测到。如果未检测到全部50个芯片,则说明异常发生在第50个芯片之前;如果检测到50个芯片,则说明异常芯片在第50个芯片之后。利用这个二分法找出异常芯片所在的位置。

5.断链

断链与缺筹码类似,但在断链中,并不是所有找不到的筹码都是异常的,而是异常筹码之后的所有筹码都因某个筹码异常而失效。例如,某个芯片本身可以工作,但它不会转发其他芯片信息;此时整个信号

链条会突然终止,失去大部分,称为断链。

可以显示断链端口信息。例如,测试盒检测芯片时,只检测到30个芯片。如果测试盒中没有检测到预设的芯片数量,则不会运行,所以只会显示检测到了多少个芯片,此时根据显示的数字“30”,通过检测即可发现问题第30颗芯片前后各测试点的电压和阻抗。

6. 禁止跑步

不运行表示测试盒检测不到算力板芯片信息,但显示NO算力板;这种现象最为常见,涉及的故障范围也较广。

1)在一定电压域内电压异常导致不运行;通过测量各个电压域的电压就可以发现问题。

2)芯片异常引起的异常可以通过测量各测试点信号来发现。

CLK信号:0.9V;信号从芯片U1芯片输出到芯片U60。目前版本只有两个晶振,Y1从第1芯片传到第30芯片,Y2从第31芯片传到第60芯片,根据信号方向查找CLKO信号异常传播。

CO信号:1.8V;该信号通过芯片U1、U2、、、、、U60传输,当二进制方法中的某一点出现异常时,可以向前检测。

RI信号:1.8V;该信号由芯片U60、、、、、、U2、U1返回,通过芯片信号趋势确认故障原因;当S9K S9SE算力板不运行时,该信号优先级最高,首先搜索该信号。

BO信号:0V,当芯片检测到RI返回信号正常时可将该信号拉低为高电平,否则为高电平。

NRST信号:1.8V;算力板上电并插入IO信号后,信号从U1、U2、、、、、U60传输到最后一个芯片。

3)LDO 0.8V、1.8V异常维修

LDO 0.8V IC输出的对地阻抗正常值为50-100Ω,LDO 1.8V IC输出的正常阻抗为0.9KΩ。

单算力板有6块LDO 1.8V,12块LDO 0.8V(例如域1 U1-U10供电为U61 LDO 1.8V,U1-U5供电为0.8V U117,域1 U1-U10供电为U61 LDO 1.8V,U1-U5供电为0.8V U117, U6-U10为0.8V U79),由于LDO是串联工作的,所以LDO对地短路可以用五分之二的方法修复。首先,取出中间的芯片,将其一一取出,找到问题芯片进行更换;

4)单板Patter NG修复

串口打印日志(标识信息),单片机和全片算力板none恢复率需要达到98%,如果noce响应率低于98%,则报Patter NG;根据串口打印日志,优先更换单片noce恢复率最低的芯片;

5)整机J:4次维护

  1、J:4不存储温度传感芯片位置,需要用测试治具测试一次,通过单板测试治具将温度发送信息写入EEPROM芯片IC;

  2、单板jig配置文件错误(算力板的芯片,BIN级别与jig配置文件不匹配),导致整机报J:4;

六.保养说明

1、维修时,维修人员必须熟悉各测试点的功能和流向、正常电压值和对地阻抗值。

2、必须熟悉芯片焊接,以免造成PCB发泡变形或引脚损坏。

3、BM1393芯片封装,芯片两侧16脚。焊接时极性和坐标必须对齐,不得错位。

4、更换芯片时,必须清理芯片周围的导热固定胶,避免IC焊接时悬挂或散热不良造成芯片二次损坏。

● 注意:

1、由于芯片背面的散热片与芯片相连,因此必须使用专用的细长测试引线来检测测试点信号;表笔除了接触端裸露的金属外,其余部分必须用热缩管密封,以防止表笔同时接触散热片和测试点。特别是上下两排电路电压压差较大,在不同电压域接触地(散热片)和测试点时会造成芯片损坏,需特别注意。

2、焊接时,由于芯片背面靠近PCB有小散热片,导热快。因此,焊接时需要采用底部辅助加热(200度左右),这样可以提高效率,减少对PCB板的损坏。如果没有底部加热装置,请在更换芯片前将芯片背面PCB上的小散热片拆掉。

如有新的故障类型,请及时联系我公司工程部。我们将不断分析和更新此内容!

© 版权声明

相关文章

暂无评论

暂无评论...