蚂蚁矿机T9+算力板如何维修?

蚂蚁矿机10个月前发布 YKK
988 0 0

博士。版本:2018.07.18

博士。类别:维护指南

本文档内容:主要是蚂蚁矿机T9+的故障排查和算力板测试仪定位。

※ 本文版权归Bitmaintech Pte. Ltd所有。(比特大陆)。转载、摘录或以任何其他方式使用该文章须经版权人许可。如有转载或引用需求,请联系比特大陆官方客服。

一、维护平台要求

1. 恒温烙铁350-400摄氏度,尖头烙铁头适用于rc等小贴片。

2、热风枪进行芯片拆焊,无需长时间加热,防止PCB起泡。

3. APW3++电源,12V,最大输出133A,用于测试算力板。

4. Fluke 15b+万用表镊子T9+算力板测试仪示波器优先)。

5、助焊剂、清洗水、无水酒精;保养后用清洗水清洗残留物及外观。

6、锡磨机、锡工具、锡膏;更新时为芯片植入锡。

7.导热胶,黑色(3461),用于维修后粘合散热片。

8.您还可以选择简单方便的比特大陆蚂蚁矿机算力板维修包,其中包含了必要的蚂蚁矿机维修工具

二. 维护要求

1. 维修人员具有良好的电子知识,1年以上经验,熟练掌握QFN封装和焊接技术。

2、维修后检查两次以上,每次结果都OK!

3. 注意使用的技术,确保更换任何配件后PCB没有明显变形,检查零件是否有缺失/断路/短路。

4、检查维护目标及对应的测试软件参数和算力板测试仪。

5、检查工具和测试仪是否能正常工作。

三.原理及结构

● 原理介绍

1、T9+有3条信号链,每条信号链有18个芯片;有18个电压域,每个域有3个BM1387芯片;整个板子有54颗BM1387芯片

2、BM1387芯片内置降压二极管,由芯片指定引脚决定。

3. T9+ 三个信号链的时钟上各有一个25M晶振,串联并从第 1 芯片传递到第 18 芯片。

4. T9+每个芯片的正面和背面都有独立的散热片。正面和背面的SMT贴片经过初步测试后用导热胶固定在IC背面。每次维护完成后,必须用黑色导热胶(均匀分布)固定在IC背面。

笔记:

在维修过程中,更换电路板配件或芯片时,为了避免风枪的热量对PCB和芯片造成损坏,需要将故障部位附近的散热片以及PCB背面的散热片清理干净。在进行配件更换之前先将其拆除。

PCB两侧都有测试点,生产中维修时使用前面的测试点,然后再在正面安装散热片;在产品维修(售后维修)时,散热片位于PCB的两侧,通过PCB的测试点定位故障,并使用特制的细长笔形仪表探入散热片的缝隙进行测试;由于SMT小散热片连接各电压域的大地,所以要注意笔形表的绝缘,避免笔形表造成短路。

● 重点分析

1.下图为T9+信号板 信号流程图

蚂蚁矿机T9+算力板如何维修?

图 1. 信号流

绿线为CLK信号流,chain0由Y5 25M晶振产生,从1-1号芯片传输到1-18号芯片;链路1由Y4 25M晶振产生,从2-1号芯片传输到2-18号芯片;链路2由Y6 25M晶振产生,从3-1号芯片传输到3-18号芯片;待机和工作时电压为0.9V。阻力为780。

橙线为TX(CI、CO)信号流,IO口引脚7(TX2)/11(TX0)/17(TX1)输入,从1号芯片传输到18号芯片;IO线未插时电压为0V,工作时电压为1.8V。阻力为580。

黄线为RX(RI、RO)信号流,从18号芯片返回到1号芯片,再从IO口引脚8(RX2)/12(RX0)/18(RX1)返回控制板;IO信号线未插时电压为1.8V,工作时电压也是1.8V。阻力为580。

紫色线 为B(BI、BO)信号流,从1号芯片到18号芯片降低电平;IO信号线未插好或待机时电压为0V,经计算信号脉冲约为0.3。阻力580。

红线为RST信号流,IO口引脚15(RST0)/21(RST1)/22(RST2)中,从1号芯片传输到18号芯片;IO信号线未插或待机时为0V,运算时为1.8V。阻力为440。

蚂蚁矿机T9+算力板如何维修?

图2

2、图4是T9+算力板 正面的关键电路。

1)芯片间测试点(放大后如下图3)

蚂蚁矿机T9+算力板如何维修?

图3. 芯片间测试点

在维修中,最直接的故障定位方法就是对芯片间的测试点进行测试。T9+算力板测试点分布如下:

下排9个电压域的顺序为:RST、BO、RI(RX)、CO(TX)、CLK。

上排9个电压域的顺序相反:CLK、CO(TX)、RI(RX)、BO、RST。

蚂蚁矿机T9+算力板如何维修?

维修时,右侧标记为下排检测点位置

蚂蚁矿机T9+算力板如何维修?

维修时,左边标记为上排测试点位置

蚂蚁矿机T9+算力板如何维修?

图4 T9+算力板关键电路

2)电压域:整板有18个电压域,每个域有3个芯片。同一电压域的3个芯片是关联的。

蚂蚁矿机T9+算力板如何维修?

图5 T9+算力板正面关键电路

3)T9+IO口TX输入和RX输出电路

蚂蚁矿机T9+算力板如何维修?

图 6. TX 输入电路

蚂蚁矿机T9+算力板如何维修?

图 7. RX 输出电路

4)14V升压电路(部分版本无此部分电路)如图8:

负责将DC-DC(8.3-9.2V)升压到14V,原理是通过U110 RT8537开关电源将9V升压到14V,U110产生的开关信号通过L1电感储存能量,然后D100升压整流二极管对C954进行充放电,从而得到C954正极的14V电压。

T9+后5个电压域的外部LDO输入电压V1.0、V1.1由14个DC-DC升压电压供电,V1.2、V1.4、V1.5由输入供电单板12V。

注意:升压电路电压异常升高往往会导致算力板后5个电压域的LDO损坏,也容易造成芯片损坏。而升压电压异常往往是由于U110、R812、R811氧化造成的。

蚂蚁矿机T9+算力板如何维修?

图 8. 14V 升压电路

5)电压域单片机原理分析(见下图9、图10):

蚂蚁矿机T9+算力板如何维修?

图 9. BM1387 电路图

蚂蚁矿机T9+算力板如何维修?

图 10. BM1387 芯片引脚

信号说明

蚂蚁矿机T9+算力板如何维修?

● 以上为BM1387 芯片的引脚功能。

维修时,主要测试芯片正反面十个测试点(正反面各有5个:CLK、CO、RI、BO、RST);核心电压;LDO-1.8V,PLL-0.8V;DC-DC输出,升压电压14V。

测试方法:

1)未插IO线,只插12V时:DC-DC输出0V左右,升压电压输出0V左右。PIC电源3.3V必须上电。其他测试电压均在0左右;

2)当IO线插上但未按测试键时,DC-DC和升压电压无电压输出;当按下工具测试键时,PIC开始工作。此时,DC-DC输出PIC工具测试程序设置的电压,升压电压开始工作。然后工具计算后输出WORK并返回NONC。此时各测试点的正常电压应为:

时钟: 0.9V

二氧化碳: 1.6-1.8V。当工具刚发送 WORK 时,CO 为负极性,因此 DC 电平会降低,瞬态电压约为 1.5V。

RI: 1.6-1.8V。在计算过程中,电压异常或电压过低会导致算力板异常或算力为零。BO:无运算时为0V;计算时脉冲节拍为0.1-0.3V。

复位: 1.8V。每次按工具测试键时,再次输出复位信号。

当任一测试点状态或电压异常时,根据测试点的信号流推断故障点。

● 从以上列表可以看出:

CLK信号:24脚输入,6脚输出,跨域时,6脚输出,通过100NF电容,进入下一个芯片的24脚。

TX信号:引脚27输入,引脚5输出;

RX信号:4脚返回,28脚输出;

BO信号:Pin 30输入,Pin 2输出;

RST 信号:引脚 32 输入,引脚 1 输出。

如下图10所示:可以检测芯片的各个信号电压,包括CORE电压、LDO-1.8O、LDO-1.8I、PLL-0.8、LDO-2.5I等。

CORE:0.45V——一般该电压域的芯片CORE短路会导致该电压异常。

LDO-1.8:1.8V — LDO-1.8 该芯片短路或开路会导致该电压异常。

PLL-0.8:0.8V — 该电压域的某个芯片的 PLL-08 电源短路或 LDO-1.8 异常都会导致该电压异常。

3)根据测试工具打印窗口信息判断算力板的运行状态、芯片算力、温度传感等。

3、IO口:IO由2×12间距2.0 PHSD 90°直插双排组成。各引脚定义如下图11:

蚂蚁矿机T9+算力板如何维修?

图 11. IO 口各引脚定义

如上图所示:

引脚 1、2、9、10、13、14、19、20、23、24:GND。

Pin 3和4(SDA、SCL):DC-DC PIC的I2C总线线,连接控制板与PIC通信;通过该控制板可以读写PIC数据,从而控制算力板的供电电压。

引脚5(PLUG0):Hash板的识别信号,该信号通过Hash板将10K电阻拉高至3.3V,所以当IO信号插入时该引脚为高电平3V。

Pin 11, 12 (TXD0, RXD0), Pin 17, 18 (TXD1, RXD1), Pin 21, 22 (TXD2, RXD2):算力通道

算力板3.3端,通过电阻分压转换为TX(CO)、RX(RI)信号;所有IO口引脚端电平为3.3V,经过电阻分压变为1.8V。

15脚(RST0)、21脚(RST1)、22脚(RST2):复位信号3.3V端,经电阻分压变为1.8V RST复位信号。

Pin 6、16(ID):算力板ID识别引脚,主要为算力板  提供控制板

ID。下图12展示了IO的各个引脚

蚂蚁矿机T9+算力板如何维修?

图 12. IO 信号

4、3.3V降压电路:为算力板提供3.3V电源,主要为PIC和EPROM提供工作电压。

负责将电压从12V降到3.3V,原理是通过U115 MP1484开关电源将12V降到3.3V,U150产生的开关信号通过L30电感储能,对C1345充放电,通过R1202/采样反馈R1203至U150从而控制C1345正极的电压。参见图 14 和图 15:

蚂蚁矿机T9+算力板如何维修?

图 14. 3.3V 降压原理图

蚂蚁矿机T9+算力板如何维修?

图 15. 3.3V 降压 PCB

5、DC-PIC:由PIC133EP16芯片和EPROM芯片AT24C02组成。见图16和图17:

PIC根据算力板的芯片频率信息和电压值来控制器件,通过它可以控制算力板的DC-DC输出电压。

蚂蚁矿机T9+算力板如何维修?

图 16. PIC 原理图

PIC工作时,需要每隔10秒左右控制发送一次心跳信号。如果没有心跳信息,PIC将在10秒后关闭。PIC 13 脚为 VDD 3.3V,8 脚为 GND,11、12 脚为连接 IO 口与控制板的 I²C 总线线,2、3、4 脚为 PIC 地址;引脚4为PIC 3.3V;24、26脚为PIC的PWM输出,23、25脚为PIC的OD输出,控制DC-DC电压;引脚6是PIC输出的EN信号,控制DC-DC工作状态。

EPROM中存储的信息包括芯片频率信息、电压值等。每次工作前,PIC首先从EPROM中读取上次算力板的运算频率、电压等数据。

蚂蚁矿机T9+算力板如何维修?

图 17. EPROM 位置图

EPROM存储了T9+算力板的电压、频率等信息,图19为EPROM原理图

6. DC-DC电路:由MAX15026和CMOS管TPHR9003NL以及MBR0540和NCP3420D组成的并联钳位电路。见图18和图19

蚂蚁矿机T9+算力板如何维修?

图 18. DC-DC 原理图

蚂蚁矿机T9+算力板如何维修?

图 19. 钳位电路原理图

MAX15026稳压器产生PWM开关信号驱动上下桥两对MOS管(Q1/Q3、Q4/Q5),并通过L2电感储存能量,NCP3420D在PIC驱动下产生PWM开关信号驱动上下桥两对MOS管(Q2/Q7、Q6/Q8),连接后经C19、C20滤波。

MAX15026主要功能引脚:

引脚1:12V电源

引脚 9:接地

Pin 4:EN控制,连接PIC pin 6,通过PIC控制DC-DC电路的工作状态 Pin 7:FB反馈,通过R14连接VO

引脚 2:VCC

引脚 13:自举电容 10V+ 引脚 12:开关信号

引脚 11:下桥驱动 引脚 14:上桥驱动

当DC-DC电压异常时,首先通过工具打印信息检查PIC电压值与DC-DC输出电压的一致性;如果不一致,更换LM27402SQ周围的小电容;

若DC-DC无输出,检查L4/L5是否掉料或烧坏;如果L4掉料,再次检查Q6、Q8、U90是否损坏;若L5掉料或烧坏,则再次检查Q2、Q7、U88是否损坏;尽量一次量出所有损坏的材料,一次更换材料,以防仍有不良材料,可能因更换部分材料而再次烧坏新材料。

7. 25M CLK:由Y 25MHZ无源晶振和100nF组成:见图20和图21。

蚂蚁矿机T9+算力板如何维修?

图 20. 25M CLK 电路

蚂蚁矿机T9+算力板如何维修?

图 21. 25M CLK 原理图

8. 1.8V-LDO:由1.8VLDO SPX5205M5_L_1_8组成。

参见下图22和图23:

SPX5205M5 引脚 1 和 3 输入,引脚 5 1.8V 输出;

注:T9+算力板的LDO供电有两种类型。第一种是Hashboard每个电压域外接一个LDO SPX5205M5,负责每个电压域3个芯片的LOD;另一种是只有最后5个电压域有外部LDO,其他电压由芯片内置LDO供电;所有BM1387芯片都内置LDO供电电路,BM1387引脚14(LDO-25I)输入,引脚12(LDO-18O)输出,并且每个芯片都有独立的LDO,互不干扰。后5个电压域的LDO-25I电源来自14V升压电路;其他电压域的LDO-25I均来自芯片本身。

PLL-08 电压来自 LOD-1.8,通过两个电阻分压。

蚂蚁矿机T9+算力板如何维修?

图 22. 1.8V 稳压电路

蚂蚁矿机T9+算力板如何维修?

图 23. 1.8V 稳压电路

9、温度传感器电路:两个温度传感器,一个是TEMP(PCB),由传感器IC组成;另一个是TEMP(CHIP),由芯片内置温度传感器(BM1387 引脚2 和引脚16)组成。这两个温度传感器采集参数,并通过BM1387的17脚和18脚从RI返回到控制板的FPGA。原理如图24:

蚂蚁矿机T9+算力板如何维修?

图 24. 温度传感器示意图

T9+温度传感器IC连接2号信号链的第一个芯片(U6)

四.T9+单板故障处理

蚂蚁矿机T9+算力板如何维修?

正常矿机测试结果

1:报告0或数字

蚂蚁矿机T9+算力板如何维修?

维修方法参考S9的0情况报告。注:1 个电压域的 3 个芯片分属 3 个信号链。如果其中一颗芯片出现问题或者安装不正确,就会影响另外两条信号链。如上图所示故障所在,芯片安装不当可能会导致三个信号链同时报0。

2:低哈希值:

维护方法参考S9的低哈希情况。

注意:T9+ 的低哈希值会导致垃圾邮件和自动重启。

蚂蚁矿机T9+算力板如何维修?

五、整机故障排除

蚂蚁矿机T9+算力板如何维修?正常矿机测试结果

T9+整机测试的故障标准及排查参考S9。

A。T9+的算力板在后台网页显示为3块板。

b. 9、10属于第一算力板,3、11、12属于第二算力板,4、13、14属于第三算力板。当不能轻易确定哪三块板属于一块哈希板时,看后面的温度。温度相同的三块板属于一块算力板。对于大多数矿工来说,三块算力板的温度是不同的。

六.维修流程

● 样品:

蚂蚁矿机T9+算力板如何维修?

1.定期检查:观察目标板是否有散热片移位、变形或烧毁的情况?此类问题优先,维修后将其取下,洗掉胶水,重新涂胶即可解决移位问题。如果没有问题,再检查各个电压域的阻抗,看看是否有短路/断路的情况,然后优先处理。检查各域是否达到0.45V且电压差不大于0.05。电压过高或过低表明邻近区域存在异常。

2、定期检查后(其中必须进行短路检查,以免通电时烧毁芯片或其他配件),用算力板测试仪对芯片进行检查,根据检查结果进行判断和定位。

3. 根据算力板测试仪的结果,检查故障芯片的测试点(CLK IN OUT/TX IN OUT/RX IN OUT/B IN OUT/RST IN OUT)和VDD VDD0V8 VDD1V8 VDD2V5

4. 除RX(No.63 至No.1)外,信号流从No.1 至No.18 是顺序的(CLK C0 B0 RST)。因此可以通过电源时序来识别异常情况。

5、找到故障芯片后,重新焊接芯片:在芯片周围添加助焊剂,将芯片引脚加热至溶解状态,轻移并按压芯片;将芯片引脚和焊盘重新打磨,完成。注意,如果重新焊接没有帮助,则应直接更换芯片。

6. 使用算力板测试仪在固定算力板上运行至少两次。测试时机:第一次应在更换配件后,板子冷却后进行。第二次应该在几分钟内完成,并且电路板完全冷却。两次测试之间的间隙不会影响工作。将修复好的板放在一边,继续安装另一块,然后回到第一块和固定的第二块

7. 记录维护后的故障类型,尤其是故障类型。型号、位置和原因。这将进一步改善对生产、CS 和研发的反馈。

8、登录后进行正式烧机。

七.故障类型

T9+的典型故障:

1.散热片缺失或散热片移位/变形:通电前,特别是在通电前,无散热片移位或接触 PCB(电路板背面)。不同电压下的散热片。不同电压域的鳍片接触可能会导致短路。确保所有翅片热传导良好且固定紧固。更换或重新植入翅片前,应先清理翅片和板上的残留物。残留物可用无水酒精处理。

2、多个电压域之间的阻抗不平衡:当某些域的阻抗偏离正常时,异常域可能包括开路/短路。最有可能的是芯片的原因。但每个电压域有3个芯片;问题可能仅出在其中之一。检查并比较芯片上各测试点的接地阻抗,找到异常点,从而定位问题芯片。

短路:从同一电压域的芯片上拆下散热片,观察芯片引脚以发现桥接问题。如果通过观察找不到短路点,可采用电阻率法或截取法找到。

3、域间电压不平衡:电压过高或过低表明异常域或邻近域的IO信号出现故障。这会导致下一个域显示异常状态,然后:电压不平衡。检查测试点的信号和电压,找出异常点。有些情况可能需要您比较多个测试点之间的阻抗以发现异常情况。

特别注意:CLK信号和RST信号——这两个信号的异常最常导致电压不平衡。

4、丢失芯片:丢失芯片是指算力板测试仪检查时,全部18个芯片(分别显示3条链)都找不到,而只是找到了一部分。实际缺失(无法通过检查找到)的异常芯片并不在所示位置。需要通过测试来查明异常芯片。可以通过拦截TX来进行精确定位。将某芯片的TX信号转过地,比如设置14号芯片的TX输出过地后,之前的芯片都正常,算力板测试仪应该显示50个芯片。如果不是,则该异常存在于14号之前;如果是,则异常芯片位于 14 号之后。重复此操作,直到通过二分法找到异常芯片。

5.断链:断链类似于丢失芯片。不同的是,并不是所有丢失的芯片都异常,而是只有一个芯片异常导致后面的芯片失效。例如,某个芯片可以工作,但它不传输来自其他芯片的信息;该信号链将在此处断开——这称为断开的链路。

算力板测试仪能够显示损坏的链接。例如在检查芯片时,算力板测试仪仅报告14个芯片;算力板测试仪只有检测到预设数量的芯片后才能开始运行,因此仅显示找到的芯片数量。根据数字“14”,检查14号芯片前后测试点的电压和阻抗,可以帮助您定位问题。

6.禁止运行:

不运行表示算力板测试仪检测不到算力板芯片信息,显示“无算力板”;这是最常见的问题。 

1)某个电压域电压异常:检查多个域之间的电压,定位问题。

2)芯片异常:检查测试点之间的信号,定位异常点。

CLK信号:0.9V;信号来自00号芯片到17号芯片。但当前版本仅提供1个晶振,CLK异常导致后续所有信号都显示异常。按照信号传输的顺序找到目标。

发射信号:1.8V;该信号来自00、01…17号芯片,当您在某个点出现异常时,请查找以前的信号。

接收信号:1.8V;该信号从17…01, 00 返回,通过检查信号方向来确定故障原因。当算力板没有运行时,该信号优先,请先检查。

BO信号:0V;该信号表示正常状态下芯片检测到RI返回信号时可以将其设置为低电平,否则应设置为高电平。

RST信号:1.8V;当板子上电并插入IO信号时,该信号将从00、01…17传输到最后一个芯片。

3)由某种芯片引起

检查多个域之间的PD。正常情况下,VDD电压为0.45V,其他测试点的电压也应为0.4V5,需要多域之间的平衡。

4)某芯片VDD1V8电压异常

检查电压域的测试点,判断某个VDD1V8是否正常。一般来说,IO电压决定了测试点的电压。因此,当IO电压为1.8V时,测试点的正常电压为1.8V。

5)某芯片VDD2V5异常

确保电压正常。电压异常与VDD电压过低有关。

6)降压和升压电路异常

检查C8电容输出(左上),看看电压是否在8.27V和9.07V之间。不在范围内的用户可能需要重新升级到 U3 PIC;确保PIC电压正常,检查U100是否有14V输出;还要检查未检查的外围部件和U100本身。

7.低哈希值:

低哈希可以分为:

1)算力板测试仪因 Nonce 不足和哈希值低而显示 NG。串口显示每个芯片返回的Nence数量信息。一般情况下,如果Nence数低于预设值,则应查找芯片故障。如果不是焊接不良或外围原因,则只需更换芯片即可。

2)算力板测试仪状态正常,但安装后算力较低。这通常是由于芯片冷却不良造成的。特别注意散热片的涂胶,以及一般的通风。另一个原因可能是某个芯片的电压很关键,安装后12V电源与测试电源不同,从而导致测试哈希与实际运行哈希的差异。调低并使用哈希板测试仪进行测试,尤其是。采用直流可调12V电源。找到返回最小 Nence 数的电压域。

8、某芯片NG:

指用算力板测试仪测试时,端口信息显示某芯片的Nence不足或返回为零。如果不是焊接不良或外围原因,更换芯片即可。

八.保养注意事项

1、操作人员应熟悉各测试点的功能、流向、正常电压和接地阻抗值。

2、操作人员应熟悉芯片焊接,以免PCB起泡、变形或引脚损坏。

3、BM1387芯片采用双面16脚封装。焊接时请注意极性和坐标。

4、更换芯片时,将芯片上的导热胶全部清理干净,避免IC焊接不良或散热不良(造成芯片二次损坏)

其他注意事项:

1. 芯片背面散热片与芯片接地,因此必须使用细长的电探针来检查测试点。探头除尖端金属外应使用热缩管充分绝缘,避免探头同时接触散热片和测试点。上下电路之间存在电压差,因此不同域(散热片)和测试点的接地可能会导致芯片人为损坏。请特别注意。

2. 焊接。芯片背面靠近PCB的地方有散热片,散热很快。所以焊接时需要底部辅助加热(200摄氏度左右)。这提高了效率并减少了对 PCB 的损坏。如果没有辅助加热装置,则需要先拆掉芯片背面PCB上的散热片,然后再更换芯片。

© 版权声明

相关文章

暂无评论

暂无评论...