蚂蚁矿机S9K S9SE算力板维修指南
版本日期:2019.7.9
文件类别:维护计划
本卷内容:主要讲述S9K S9SE各种故障的排除,以及如何使用测试工具进行准确定位。
※ 本文版权归Bitmaintech Pte. Ltd所有。(比特大陆)。转载、摘录或以任何其他方式使用该文章须经版权人许可。如有转载或引用需求,请联系比特大陆官方客服。
一、维护平台要求
1、恒温烙铁(350-400℃)。烙铁头用于焊接贴片电阻、电容。
2、散热烟囱用于芯片拆焊,注意不要长时间加热,以免PCB起泡。
3、APW3++电源(输出12V,最大133A),用于算力板的测试测量。
4、Fluke 15b+万用表、镊子、S9k S9se 测试治具(有条件可配置 示波器)。
5、助焊剂、无水酒精清洗面板水;清洗面板水用于清洗维护后的助焊剂残留物和外观。
6.修复后使用导热胶重新粘贴散热片。
如果您需要维修蚂蚁S9k S9se,除了上面提到的必要工具外,还需要万能测试夹具、862D拆焊台、刮锡刀等高效工具。
当然,这种选择可能比较麻烦,也可以选择方便的比特大陆蚂蚁矿机算力板修复捆绑包。
二. 维护操作要求
1、维修人员必须具备一定的电子知识,一年以上维修经验,掌握QFN封装焊接技术。
2、修复后,算力板必须经过两次测试,确认OK才可以通过!
3、更换芯片时要注意操作方法。更换任何配件后,PCB板无明显变形,检查更换的配件及其周围是否有断路、短路现象。
4、确定维修站对象及相应的测试软件参数和测试治具。
5、检查工具、夹具是否能正常工作。
(功率输出是否与jig config文件中的设置相同。不同的BIN级别和芯片封装模式需要对应单板测试治具程序的config和single-board-test文件。)
三.原理及结构
1、原理概述
1.1 S9K S9SE算力板由6个电压域串联组成。每个电压域有10颗BM1393芯片,整板上有60颗BM1393芯片。
1.2 单颗BM1393芯片有208个核心,域电压1.6V,整板上6个域总电压9.6V-9.9V
1.3 S9K S9SE时钟由两个25M有源晶振(Y1、Y2)组成,Y1从第1个芯片串联传输到第30个芯片,Y2从第31个芯片串联传输到第60个芯片
1.4 S9K S9SE算力板每个芯片正反面 都有独立的小散热片。正面的小散热片是SMT贴片,背面的小散热片经过初步测量后通过导热胶固定在IC的背面。维修更换的芯片测试合格后,需要在IC表面均匀涂抹黑色导热胶并加热固定。
笔记:
在维修过程中,更换电路板元件或芯片时,为了减少吹气枪的高温对PCB板和芯片的损坏,需要先将故障元件附近的小散热片拆掉。以及更换前PCB板的背面。
PCB芯片表面有测试点。制造和维修时,如果PCB芯片上没有贴散热片,可以使用芯片表面的测试点;对于成品维修(售后维修),由于PCB的正反面均被散热片覆盖,因此需要通过PCB芯片表面的测试点来定位故障。可以使用特制的细长测试引线探查散热片间隙进行测量。但由于SMT小散热片与各电压域的地相连,因此测量时需要注意表笔的绝缘,避免表笔造成短路。
2. 要点分析
2.1 下图为S9K S9SE信号板的芯片域分布、信号路径及电路分布:
TMP451温度传感
CLKO信号流向由Y1 25M晶振产生,从芯片U1传输到芯片U30;由Y2 25M晶振产生,从芯片U31传送到芯片U60。待机和计算时电压为0.9V。
信号CO(CI、C0)从IO口(J4)的7脚进入,然后从芯片U1传输到芯片U60;未插IO线时电压为0,计算时电压为1.8V。
信号RI(R1、RO)从芯片U60返回芯片U1,再从IO口(J4)8脚返回控制板;未插入IO信号时电压为1.8V,计算时电压为1.8V。
信号BO(BI、BO)从芯片U1流向U60,降低电平;没有插IO线时电压为0V,待机时,计算时有0.3左右的脉冲信号,一般测不到电压是正常的。
信号NRSTO(NRSTO、NRSTI)从IO口的引脚(J4))3进入,然后从芯片U1传输到芯片U60;无IO信号插入和待机时电压为0V,计算时电压为1.8V。
2.2 S9K S9SE算力板关键电路
2.2.1 U122电源管理示意图
2.2.2 DC to DC电路原理图
2.2.3 EEPROM IC 原理图(单板测试会改变EEPROM中的幻数、温感信息和CRC信息)
2.2.4 钳位电路原理图
2.2.5 PIC U102 原理图
2.2.6 各芯片信号测试点(放大后如下图):
1. 域1、3、5的信号测试点
2. 域2、4、6的信号测试点
2.2.7 Domain 1、3、5各芯片引脚电路图
2.2.8 Domain 2、4、6各芯片引脚电路图
2.2.9 IO口J4电路图
2.2.10 0.8V、1.8V电路原理图
2.2.11 电平信号转换示意图
2.2.12 Y1、Y2晶振原理图
2.2.13 LDO 0.8V、1.8V 和晶振测量
S9K S9SE保养思路
维修时,对主测试芯片前后进行10次测试(芯片前后各5次:CLKO、CO、RI、BO、NRSTO);DC-DC输出和PIC电压
核心电压;LDO(0.8V 1.8V),PLL-0.8V。
检测方法:
1、不插IO线,只插12V时:DC-DC输出0V左右,升压输出0V左右。必须给PIC供电3.3V电源。其余测试电压均为0;
2、插入IO线且未按下测试按钮时,DC-DC和Boost均无电压输出。按下测试按钮后,PIC开始工作。此时,DC-DC输出PIC治具测试程序设定的电压,并在工作时升压。然后jig输出WORK,计算完成后返回noce。此时各测试点的正常电压应为:
时钟脉冲:0.9V
CO:1.6-1.8V,治具刚送入WORK时,由于CO为负,直流电平会降低,瞬时电压约为1.5V。RI:1.6-1.8V,计算时电压异常或过低时,算力板异常或算力为零。
BO:0V没有运算时,运算时会有0.1-0.3V之间的脉冲跳变。
内阻:1.8V。每次按下夹具的测试按钮时,都会重新输出复位信号。
当上述测试点状态或电压异常时,请根据测试点前后电路判断故障点。
S9K S9SE芯片配置文件详解及区别
PCBA标签图
芯片对应关系说明
四.日常维护流程
1、例行检测:首先对待修复算力板进行目视检查,是否有位移、变形、小散热片烧毁等情况?如果出现这种现象,必须先进行处理;如果小散热片移位,请先将其取下,然后清除黑色粘合剂,修复后重新粘合。
其次,目视检查确认没有问题后,可以先检测各电压域的阻抗,以检测是否存在短路或开路。如果发现,必须首先处理。
接下来检查各个电压域的电压是否达到1.6V,电压域之间的电压差不得超过0.3V。如果某个电压域的电压过高或过低,则相邻电压域的电路一般都会出现异常现象,需要首先查找原因。
2、例行测试确认没有问题后(例行测试需要进行短路检测,避免上电时因短路烧毁芯片或其他材料),可以使用测试盒进行芯片检测,并可根据测试盒的检测结果来判断位置。
3、根据测试盒检测结果,从故障芯片附近开始,检测芯片测试点电压(CLK IN OUT/RI IN OUT/CO IN OUT/BO IN OUT/NRST IN OUT )和LDO 0V8 1V8。
4、根据信号流向反向传输RI信号(U60至U1芯片),并正向传输几个信号CLK CO BO NRST(U1-U60),通过电源找到异常故障点供应顺序。
5. 定位到故障芯片后,需要重新焊接芯片。方法是在芯片周围添加助焊剂(最好是免清洗助焊剂),将芯片引脚的焊点加热至溶解状态,轻轻上下左右移动,压紧芯片;推动芯片引脚重新接合焊盘,收集锡,以便再次上锡。如果重新焊接后故障相同,可直接更换芯片。
6、算力板修复后,必须对测试箱进行两次以上检查。两次测试的时间:第一次,更换部件后,算力板需要冷却;测试通过后,先放在一边。第二次,几分钟后算力板完全冷却后,进行测试。虽然两次测试每次都只持续几分钟,但并不影响工作。将修复好的板子放在一边,修复第二块板,修复完第二块板后,放置冷却,然后测试第一块板。方式上,修复是错开的,总时间长度没有延迟。
7、对于修复后的单板,首先需要对故障进行分类,并记录所更换部件的型号、位置、原因,反馈给生产、售后、研发。
8、烧录完成后,安装整机进行正常老化。
五、故障类型
S9K S9SE算力板常见故障类型:
1、散热片掉落、移位、变形
算力板芯片背面PCB板上的散热片在通电前不允许移位或碰撞,特别是不同电压的散热片。不同电压域的散热片接触意味着不同电压点存在短路的可能。
并且确定算力板上的各个散热片导热良好且固定牢固。
更换或重新安装散热片时,应清除散热片及芯片上残留的粘合剂,然后重新涂抹。残留的导热胶可用无水酒精清洗干净。
2、各电压域阻抗不平衡
当某些电压域的阻抗偏离正常值时,表明异常电压域存在开路、短路现象。一般来说,芯片是最有可能引起的。但每个电压域有3个芯片,出现故障时往往只有1个芯片出现问题。查找问题芯片的方法可以检测并比较各个芯片测试点的接地阻抗,从而找到异常点。
如果出现短路,首先拆下同电压芯片上的散热片,然后观察芯片引脚的锡是否连接。
如果从外观上找不到短路点,可按电阻法或电流切断法寻找短路点。
3、电压域电压不平衡
当某些电压域的电压过高或过低时,通常会在异常电压域或相邻电压域内出现异常IO信号,导致下一个电压域工作异常,电压不平衡。通过检测各测试点的信号和电压可以发现异常点,有的需要通过比较各测试点的阻抗来发现异常点。
请注意,CLK 信号和 NRST 信号是最有可能导致电压不平衡的两个信号。
4.缺乏芯片
缺芯片是指在检查测试盒时,并没有检测到所有60个芯片,而且往往实际上并没有检测到所有芯片。实际丢失的(未检测到的)异常芯片不在显示位置。这时就需要通过测试来准确定位异常芯片。
定位方法可以采用RI截断法来查找异常芯片的位置。即将某个芯片的RI信号接地,例如电压域第50个芯片的RI输出接地后,理论上如果前面所有芯片都正常,测试盒上应该显示50个芯片都正常检测到。如果未检测到全部50个芯片,则说明异常发生在第50个芯片之前;如果检测到50个芯片,则说明异常芯片在第50个芯片之后。利用这个二分法找出异常芯片所在的位置。
5.断链
断链与缺筹码类似,但在断链中,并不是所有找不到的筹码都是异常的,而是异常筹码之后的所有筹码都因某个筹码异常而失效。例如,某个芯片本身可以工作,但它不会转发其他芯片信息;此时整个信号
链条会突然终止,失去大部分,称为断链。
可以显示断链端口信息。例如,测试盒检测芯片时,只检测到30个芯片。如果测试盒中没有检测到预设的芯片数量,则不会运行,所以只会显示检测到了多少个芯片,此时根据显示的数字“30”,通过检测即可发现问题第30颗芯片前后各测试点的电压和阻抗。
6. 禁止跑步
不运行表示测试盒检测不到算力板芯片信息,但显示NO算力板;这种现象最为常见,涉及的故障范围也较广。
1)在一定电压域内电压异常导致不运行;通过测量各个电压域的电压就可以发现问题。
2)芯片异常引起的异常可以通过测量各测试点信号来发现。
CLK信号:0.9V;信号从芯片U1芯片输出到芯片U60。目前版本只有两个晶振,Y1从第1芯片传到第30芯片,Y2从第31芯片传到第60芯片,根据信号方向查找CLKO信号异常传播。
CO信号:1.8V;该信号通过芯片U1、U2、、、、、U60传输,当二进制方法中的某一点出现异常时,可以向前检测。
RI信号:1.8V;该信号由芯片U60、、、、、、U2、U1返回,通过芯片信号趋势确认故障原因;当S9K S9SE算力板不运行时,该信号优先级最高,首先搜索该信号。
BO信号:0V,当芯片检测到RI返回信号正常时可将该信号拉低为高电平,否则为高电平。
NRST信号:1.8V;算力板上电并插入IO信号后,信号从U1、U2、、、、、U60传输到最后一个芯片。
3)LDO 0.8V、1.8V异常维修
LDO 0.8V IC输出的对地阻抗正常值为50-100Ω,LDO 1.8V IC输出的正常阻抗为0.9KΩ。
单算力板有6块LDO 1.8V,12块LDO 0.8V(例如域1 U1-U10供电为U61 LDO 1.8V,U1-U5供电为0.8V U117,域1 U1-U10供电为U61 LDO 1.8V,U1-U5供电为0.8V U117, U6-U10为0.8V U79),由于LDO是串联工作的,所以LDO对地短路可以用五分之二的方法修复。首先,取出中间的芯片,将其一一取出,找到问题芯片进行更换;
4)单板Patter NG修复
串口打印日志(标识信息),单片机和全片算力板none恢复率需要达到98%,如果noce响应率低于98%,则报Patter NG;根据串口打印日志,优先更换单片noce恢复率最低的芯片;
5)整机J:4次维护
1、J:4不存储温度传感芯片位置,需要用测试治具测试一次,通过单板测试治具将温度发送信息写入EEPROM芯片IC;
2、单板jig配置文件错误(算力板的芯片,BIN级别与jig配置文件不匹配),导致整机报J:4;
六.保养说明
1、维修时,维修人员必须熟悉各测试点的功能和流向、正常电压值和对地阻抗值。
2、必须熟悉芯片焊接,以免造成PCB发泡变形或引脚损坏。
3、BM1393芯片封装,芯片两侧16脚。焊接时极性和坐标必须对齐,不得错位。
4、更换芯片时,必须清理芯片周围的导热固定胶,避免IC焊接时悬挂或散热不良造成芯片二次损坏。
● 注意:
1、由于芯片背面的散热片与芯片相连,因此必须使用专用的细长测试引线来检测测试点信号;表笔除了接触端裸露的金属外,其余部分必须用热缩管密封,以防止表笔同时接触散热片和测试点。特别是上下两排电路电压压差较大,在不同电压域接触地(散热片)和测试点时会造成芯片损坏,需特别注意。
2、焊接时,由于芯片背面靠近PCB有小散热片,导热快。因此,焊接时需要采用底部辅助加热(200度左右),这样可以提高效率,减少对PCB板的损坏。如果没有底部加热装置,请在更换芯片前将芯片背面PCB上的小散热片拆掉。
如有新的故障类型,请及时联系我公司工程部。我们将不断分析和更新此内容!