如何修复蚂蚁矿机L3+算力板?

蚂蚁矿机10个月前更新 YKK
1.2K 0 0

编辑:金杰

博士。版本:2018.07.18

博士。类别:维护指南

本文档内容:主要是蚂蚁矿机L3+的故障排查和算力板测试仪定位。

※ 本文版权归Bitmaintech Pte. Ltd所有。(比特大陆)。转载、摘录或以任何其他方式使用该文章须经版权人许可。如有转载或引用需求,请联系比特大陆官方客服。

一、维护平台要求

1. 恒温烙铁350-450摄氏度,尖头烙铁头适用于rc等小贴片。

2、热风枪进行芯片拆焊,无需长时间加热,防止PCB起泡。

3. APW3电源,12V,最大输出133A,用于测试算力板。

4.万用表、镊子、L3+算力板测试仪(示波器优先)。

5、助焊剂、清洗水、无水酒精;保养后用清洗水清洗残留物及外观。

6、锡磨机、锡网、锡膏;更新时为芯片植入锡。

7. 导热胶,黑色(3461),用于维修后粘合散热片。

您还可以选择蚂蚁L3+维修配件和工具包。维修套装包含维修L3+所需的所有配件和工具,方便快捷。

二. 维护要求

1. 维修人员具有良好的电子知识,1年以上经验,熟练掌握QFN封装和焊接技术。

2、维修后检查两次以上,每次结果都OK!

3. 注意使用的技术,确保更换任何配件后PCB没有明显变形,检查零件是否有缺失/断路/短路。

4、检查维护目标及对应的测试软件参数和算力板测试仪。

5、检查工具和测试仪。

三.原理及结构

● 原理介绍

1、L3+有12个电压域串联,每个域有6颗BM1485芯片,整板有72颗BM1485芯片。

2. BM1485 芯片内置降压二极管,由芯片指定引脚决定。

3. L3+时钟上有25M单晶振荡器,串联并从第一个芯片传递到最后一个芯片。

4. L3+每个芯片背面都有独立的散热片。正面和背面的SMT贴片经过初步测试后用导热胶固定在IC背面。每次维护完成后,必须用黑色导热胶(均匀分布)固定在IC背面。

如果您有一定的维修知识,当您的蚂蚁L3+矿机出现故障时,您可以购买必要的维修工具和配件来自行维修L3+矿机,从而减少矿机故障带来的利润损失。

必要的维修工具及备件:

ANLIXIN-862D拆焊台

蚂蚁矿机 ASIC BM1485 锡工具

锡刮刀

助焊剂焊锡膏

低温锡膏

福禄克 15b+

蚂蚁矿机热固胶

● 重点分析:

1.L3+信号板信号流程图如下:

如何修复蚂蚁矿机L3+算力板?

图 1. 信号流

CLK信号流由Y1 25M晶振产生,从1号芯片传输到72号芯片;待机和运算时电压均为0.9V。TX(CI、CO)信号流,IO口引脚11进,从1号芯片传输到72号芯片;IO线未插时电压为0V,计算时电压为1.8V。

RX(RI、RO)信号流,从72号返回到1号芯片,再从IO口12脚返回到控制板;未插IO信号时电压为1.8V,计算时电压也是1.8V。

B(BI、BO)信号流,从1号芯片到72号芯片降低电平;IO线未插或待机时电压为0V,经计算信号脉冲约为0.3。

RST信号流,IO口引脚15进,从1号芯片传输到72号芯片;IO信号未插或待机时为0V,运算时为1.8V。

2. 下图为L3+算力板正面的关键电路。

1)芯片间测试点(放大后如下):图2

如何修复蚂蚁矿机L3+算力板?

图2. 芯片间测试点

在维修中,测试芯片间的测试点是最直接的故障定位方法。L3+算力板的排列如下:RST、B0、RI(RX)、C0(TX)、CLK信号。

如何修复蚂蚁矿机L3+算力板?

图3 算力板正面关键电路

2)电压域:整板有12个电压域,每个域有6个芯片。同一电压域的6颗芯片并联供电,然后串联其他电压域。电路结构如下图4:

如何修复蚂蚁矿机L3+算力板?

电压域单片机原理分析(见下图5、图6):

如何修复蚂蚁矿机L3+算力板?

图 5. BM1485 电路图

如何修复蚂蚁矿机L3+算力板?

图 6. BM1485 芯片引脚

● 以上为BM1485 芯片的引脚功能。

维修时,主要测试芯片正反面十个测试点(正反面各有5个:CLK、CO、RI、BO、RST);核心电压:LDO-1.8V,PLL-0.9V,DC-DC输出,升压电压14V。

测试方法:

1)不插IO线,只插12V时:DC-DC输出10V左右,升压电压输出14V左右。测试点中CLK必须为0.9V,RI必须为1.8V,其他电压必须为0V;

2)当插上IO线且未按下测试键时,DC-DC和升压电压无电压输出;当按下工具测试键时,PIC开始工作。此时,DC-DC输出工具测试程序设定的电压,升压电压开始工作。然后工具输出WORK,算力板计算后返回nonce。此时各测试点的正常电压应为:

时钟:0.9V

二氧化碳:1.6-1.8V。当工具刚发送 WORK 时,CO 为负极性,因此 DC 电平会降低,瞬态电压约为 1.5V。

RI:1.6-1.8V。在计算过程中,电压异常或电压过低会导致算力板异常或算力为零。BO:无运算时为0V;计算时脉冲节拍为0.1-0.3V。

复位:1.8V。每次按工具测试键时,再次输出复位信号。

当任一测试点状态或电压异常时,根据测试点前后电路推断故障点。

●从上面的列表可以看出:

CLK信号:23脚输入,5脚输出,跨域时,5脚输出,通过100NF电容,进入下一个芯片的23脚。

TX信号:引脚25输入,引脚4输出;

RX信号:Pin 3返回,Pin 26输出;

BO信号:27脚输入,2脚输出;

RST信号:引脚28输入,引脚1输出。

测试芯片各信号电压、CORE电压、LDO-1.8OV、PLL-0.9V等:

CORE:0.8V——一般该电压域的芯片CORE短路会导致该电压异常。

LDO-1.8O:1.8V — 该芯片LDO-1.8O短路或开路会导致该电压异常。

PLL-0.9: 0.8V — PLL-09V 该电压域的芯片电源短路会导致该电压异常。

3)根据工具打印窗口信息判断算力板运行情况、芯片算力、热感等。

3. IO口:IO由2X9间距2.0 PHSD 90°双列直插封装组成。各引脚定义如下图8:

如何修复蚂蚁矿机L3+算力板?

图 8. IO 口各引脚定义

如上图所示:

引脚 1、2、9、10、13 和 14:GND。

Pin 3和4(SDA、SCL):DC-DC PIC的I2C总线线,连接控制板与PIC通信;通过该控制板可以读写PIC数据,从而控制算力板的运行状态。

Pin 5(PLUG0):算力板识别信号,该信号通过算力板将10K电阻拉升至3.3V,

所以当IO信号插入时该引脚为高电平。

引脚 6、7 和 8(A2、A1、A0):PIC 地址信号。

11、12脚(TXD、RXD):算力板3.3端算力通道,通过电阻分压变为TX(CO)、RX(RI)信号;所有IO口引脚端电平为3.3V,经过电阻分压变为1.8V。

15脚(RST):复位信号3.3V端,经电阻分压变为1.8V RST复位信号

16脚(D3V3):算力板3.3V电源,该3.3V由控制板供电,主要为PIC提供工作电压

如何修复蚂蚁矿机L3+算力板?

TX_IN电压为1.8V

RST_IN电压为1.8V

4. 14V升压电路:

负责将DC-DC(10-10.4V)升压到14V,原理是通过U111 RT8537开关电源将10V升压到14V,U111产生的开关信号通过L1电感储存能量,然后D100升压整流二极管对C1072进行充放电,从而得到C1072正极的14V电压。见图11和图12:

如何修复蚂蚁矿机L3+算力板?

图 11. 14V 升压原理图

如何修复蚂蚁矿机L3+算力板?

图 12. 14V 升压 PCB 图

注:升压电路电压异常往往会导致算力板后4个电压域的LDO损坏,也容易造成芯片损坏。而升压电压异常往往是由于U111、R996、R997氧化造成的。

5. DC-PIC:由PIC16(L)F1704组成。如图13和图14所示,该设备存储了芯片频率信息和算力板的电压值,通过这些信息我们可以控制算力板的DC-DC输出电压。

如何修复蚂蚁矿机L3+算力板?

图 13.PIC 原理图

如何修复蚂蚁矿机L3+算力板?

6、DC-DC电路:由LM27402SQ和CMOS管TPHR9003NL组成。参见下图15和图16:

如何修复蚂蚁矿机L3+算力板?

图 15. DC-DC 原理图

如何修复蚂蚁矿机L3+算力板?

图 16. DC-DC 电路

DC-DC输出电压测试点为电容C948两端

当DC-DC电压异常时,首先通过工具打印信息检查PIC电压值与DC-DC输出电压的一致性;如果不一致,更换LM27402SQ周围的小电容;

若DC-DC无输出,检查R13、R14的EN电压是否为1V左右,R11的电压是否为12V,PIC工作是否正常,或PIC能否正常接收控制板的12C信号。

7. 1.8V-LDO:由1.8VLDO SPX5205M5_L_1_8组成。

见下图:

SPX5205M5,引脚 1 和 3 输入,引脚 5 1.8V 输出

PLL-0.9V电压来自LOD-1.8,通过两个电阻分压。

如何修复蚂蚁矿机L3+算力板?

8.温度传感器电路:

温度传感器芯片由传感器IC组成,通过BM1485的6、7脚,采集BM1485内置温度传感器,最后通过BM1485的15、16脚,通过RI返回到控制板的FPGA 。原理如图21:

如何修复蚂蚁矿机L3+算力板?

图 21. 温度传感器示意图

四.维修流程

● 样品:

如何修复蚂蚁矿机L3+算力板?

1.定期检查:观察目标板是否有散热片移位、变形或烧毁的情况?此类问题优先,维修后将其取下,洗掉胶水,重新涂胶即可解决移位问题。

如果没有问题,再检查各个电压域的阻抗,看看是否有短路/断路的情况,然后优先处理。

检查各域是否达到0.8V且电压差不大于0.05V。电压过高或过低表明邻近区域存在异常。

2、定期检查后(其中必须进行短路检查,以免通电时烧毁芯片或其他配件),用测试盒对芯片进行检查,根据检查结果进行判断和定位。

3. 根据测试盒结果,检查故障芯片的测试点(CLK IN OUT/TX IN OUT/RX IN OUT/B IN OUT/RST IN OUT),并

VDD、VDD0V8、VDD1V8 等

4、然后根据信号流向,除RX外,反向传输(72号到1号),CLK、C0、B0、RST信号正向传输(1号到72号),因此可以通过电源序列来识别异常情况。

5、找到故障芯片后,重新焊接芯片:在芯片周围添加助焊剂,将芯片引脚加热至溶解状态,轻移并按压芯片;将芯片引脚和焊盘重新打磨,完成。

请注意,如果重新焊接没有帮助,则应直接更换芯片。

6. 用测试盒在固定算力板上运行两次。测试时机:第一次应在更换配件后,板子冷却后进行。第二次应该在几分钟内完成,并且电路板完全冷却。两次测试之间的间隙不会影响工作。把修好的板放在一边,继续另一块,然后回到第一块和固定的第二块。

7. 记录维护后的故障类型,尤其是故障类型。型号、位置和原因。这将进一步改善对生产、CS 和研发的反馈。

8、登录后进行正式烧机。

五、故障类型

典型故障:

1、多个电压域之间的阻抗不平衡:当某些域的阻抗偏离正常时,异常域可能包括开路/短路。最有可能的是芯片的原因。但每个电压域有3个芯片;问题可能仅出在其中之一。检查并比较芯片上各测试点的接地阻抗,找到异常点,从而定位问题芯片。

短路:将同电压域芯片上的散热片拆下,观察芯片引脚是否存在桥接问题。如果通过观察找不到短路点,可采用电阻率法或截取法找到。

2、 域间电压不平衡:电压过高或过低表明异常域或邻近域的IO信号故障。这会导致下一个域显示异常状态,然后:电压不平衡。检查测试点的信号和电压,找出异常点。有些情况可能需要您比较多个测试点之间的阻抗以发现异常情况。

特别注意:CLK信号和RST信号——这两个信号的异常最常导致电压不平衡。

3、缺失芯片:缺失芯片是指在进行测试盒检查时,无法找到全部72个芯片,而只是找到其中的一部分。实际缺失(无法通过检查找到)的异常芯片并不在所示位置。需要通过测试来查明异常芯片。

可以通过拦截TX来进行精确定位。将某个芯片的 TX 信号转过地,如设置 50 号芯片的 TX 输出过地后,之前所有芯片均正常,则测试盒应显示 50 号芯片。 50号之前存在异常;如果是,则异常芯片在第 50 号之后。重复此操作,直到找到异常芯片。

4. 损坏的链接:

断开的链接类似于丢失的芯片。不同的是,并不是所有丢失的芯片都异常,而是只有一个芯片异常导致后面的芯片失效。例如,某个芯片可以工作,但它不传输来自其他芯片的信息;这个信号链就会在这里被破坏——这就是所谓的断链。

测试盒能够显示损坏的链接。如:检查芯片时,测试盒报告只有14个芯片;测试盒只有检测到预设数量的芯片后才能开始运行,因此只显示检测到的芯片数量。根据数字“14”,检查14号芯片前后测试点的电压和阻抗,可以帮助您定位问题。

5.禁止跑步:

不运行表示测试盒检测不到算力板芯片信息,显示“无算力板”;这是最常见的问题,

1)某个电压域的电压异常:检查多个域之间的电压,以定位问题。

2)芯片异常:检查测试点之间的信号,以定位异常。

CLK信号:0.9V,信号来自1号芯片到72号芯片。但当前版本仅提供1个晶振,LCK异常导致后续所有信号显示异常。按照信号传输的顺序找到目标。

TX信号:1.8V,该信号来自1号芯片,01…72,当某个点出现异常时,通过二分法查找之前的信号。

RX信号:1.8V,该信号从No.72…1返回,通过检查信号方向来确定故障原因。当S7、S9算力板不运行时,该信号优先,请先检查。

BO信号:0V,该信号表示正常状态下芯片检测到Ri返回信号时可以拉至高电平,否则应为低电平。

RST信号:1.8V,当板子上电并插入IO信号时,该信号将从01…72传输到最后一个芯片。

3)由某芯片VDD引起

检查多个域之间的PD(电位差)。正常情况下,当VDD电压为0.8V,其他电压域各测试点电压也为0.8V时,多域之间的平衡得到保证。

4)某芯片VDD1V8电压异常

检查电压域的测试点,判断某个VDD1V8是否正常。一般来说,IO电压决定了测试点的电压。所以当IO电压为1.8V时,测试点的正常电压为1.8V。

5)Buck、Boost电路异常引起

检查C948电容输出两端(左上)电压是否在10V~10.4V之间。不在范围内的用户可能需要重新升级到 U3 PIC;确保PIC电压正常,检查U111是否有14V输出;还要检查未检查的外围部件和U111本身。

6.低哈希值:

低哈希可以分为:

1)由于Nonce不足和哈希值低,测试框显示NG。串行端口显示有关每个芯片返回的随机数数量的信息。一般情况下,如果nonce数低于预设值,则应查找芯片故障。如果不是焊接不良或外围原因,则只需更换芯片即可。

2)测试盒状态正常,但安装后哈希值较低。这通常是由于芯片冷却不良造成的。特别注意散热片的涂胶,以及一般的通风。另一个原因可能是某个芯片的电压很关键,安装后12V电源与测试电源不同,从而导致测试哈希与实际运行哈希的差异。调低并使用测试盒进行测试,尤其是。采用直流可调12V电源。找到返回最小随机数的电压域。

7.某芯片NG :

指用测试盒测试时,端口信息显示某芯片返回的nonce不足或为零。如果不是焊接不良或外围原因,更换芯片即可。

● 维护注意事项

1、操作人员应熟悉各测试点的功能、流向、正常电压和接地阻抗值。

2、操作人员应熟悉芯片焊接,以免PCB起泡、变形或引脚损坏。

3、BM1485芯片采用双面14脚封装。焊接时请注意极性和坐标。

4、更换芯片时,请将芯片上的导热胶全部清理干净,避免IC焊接不良或散热不良(造成芯片二次损坏)。

© 版权声明

相关文章

暂无评论

暂无评论...