蚂蚁L7算力板维修指南

蚂蚁矿机10个月前发布 YKK
1.9K 0 0

蚂蚁L7算力板维修指南

Ⅰ. 维护平台/工具/设备准备要求

1、平台要求:

静电修复工作台(工作台需接地)、防静电腕带及接地。

2、设备要求:

(1)恒温烙铁(350℃—380℃),尖头烙铁头用于焊接贴片电阻、电容等小贴片;

(2)采用热风枪和BGA返修台进行芯片/BGA拆焊;

(3)万用表,带有焊接钢针和热缩套管,方便测量(推荐使用Fluke 17B+万用表);

(4)示波器、网线

3、测试工具要求:

(1)APW12电源:APW12_14V-17V_V1.2和电源适配器线,用于算力板供电;

(2)测试治具,物料号为ZJ0001000001。测试治具电源正负极需安装放电电阻。建议使用20欧姆、100W以上的水泥电阻。

4、维修辅助材料/工具要求:

(1)锡膏千柱M705、助焊剂、洗板水、无水酒精;

(2)修复后用洗板水清理助焊剂残留物;

(3)使用导热胶(规格:Fujipoly SPG-30B)涂抹在修复后的芯片表面;

(4)植球钢网、吸锡丝、焊球(球径建议0.4mm);

(5)更换新芯片时,需要将芯片引脚镀锡,然后焊接到算力板上。将导热胶均匀涂抹在芯片表面,然后锁紧散热片。

(6) 串口扫码器。

(7) 串口转接板 RS232/TTL转接板 3.3V

(8)自制短路探头(用插针接线焊接,需要加热缩套,防止探头与小散热片短路)

5、常用维修备件材料要求:

0402电阻(0R、1K、4.7K、10K、);

0402电容(0.1uF、1uF)

二. 维修要求

1、更换芯片时要注意操作方法。更换任意配件后,PCB板无明显变形。检查更换的部件及周围是否有缺件、断路、短路现象。

2、维修人员必须具备一定的电子知识,一年以上维修经验,精通BGA/QFN/LGA封装焊接技术。

3、算力板维护后必须测试两次以上全部OK后方可通过!

4、检查工具和测试治具是否能正常工作,确定维修站测试软件的参数、测试治具的版本。

5、修复、更换芯片的测试,需要先对芯片进行测试,通过后再进行功能测试。功能测试必须保证小散热片焊接OK,大散热片安装到位(每块导热胶必须涂抹均匀,然后安装大散热片),并且冷却风扇全速运转。使用机箱散热时,应同时放置两块计算板,形成风道。制作的单面测试还要保证风道成型(重要)。

6. 测量信号时辅助4个风扇散热,并保持风扇全速运转。

7、算力板通电时,先连接电源负极铜线,再连接电源正极铜线,最后插入信号线。拆卸时,安装顺序必须相反。首先拆掉信号线,然后拆掉电源正极铜线,最后拆掉电源负极铜线。如果不按照这个顺序,很容易造成U1和U2损坏(不是所有芯片都能找到)。在测试图案之前,修复后的算力板必须先冷却后再进行测试,否则会导致测试PNG。

8、更换新芯片时,对芯片管脚进行镀锡,确保芯片预镀锡后再焊接到PCBA上进行维修。

三.测试治具制作及注意事项

测试治具配套治具应满足算力板的散热,方便信号测量。

1. 获取零件号:ZJ0001000001 测试夹具。还推荐使用新版数显蚂蚁矿机测试治具

2、首次使用7Z007系列测试治具SD卡刷卡程序更新治具控制板的FPGA,解压并复制到SD卡上,将SD卡插入测试治具卡槽;开机约1分钟,等待控制板指示灯双闪至少3次,更新完成;如果不更新,可能会导致测试时某个芯片报坏。 

蚂蚁L7算力板维修指南

3、按照要求制作测试SD卡。单面散热片检测芯片可直接解压压缩制作SD卡;测试PT1时,未插网线,未插扫码器。 

蚂蚁L7算力板维修指南

4、按照要求制作测试SD卡。PT2需要制作SD卡来运行Patter测试,如下图;PT2测试需要插入扫码枪和网线。 

蚂蚁L7算力板维修指南

5、特别注意:PT1和PT2是单独的测试程序,不需要修改Config文件。生产端、售后端、外协维修PT2在测试Pattern时需要支持扫描枪和串口工具。详细信息请参见L7测试流程文档。

四.原理概述

1、L7算力板工作结构:

算力板由120颗BM1489芯片组成,分为24个域,每个域由5个ASIC芯片组成;L7算力板使用的BM1489芯片工作电压为0.6V;第24、23、22、21组(共4组)由升压电路U13输出的19.6V给LDO(U249 U247 U243 U239)供电,使得这4个域的LDO输出1.8V和0.8V五、第20组LDO的电源由VDD 14.4V给第20域LDO供电,使其输出1.8V和0.8V,每个域向后降低0.6V域电压。如图所示: 

蚂蚁L7算力板维修指南蚂蚁L7算力板维修指南蚂蚁L7算力板维修指南蚂蚁L7算力板维修指南

2、L7算力板升压电路:

L7算力板的升压电路是由电源提供15V,转换为19.6V,如图所示。 

蚂蚁L7算力板维修指南蚂蚁L7算力板维修指南

3、L7芯片信号方向:

(1) CLK信号流向由Y1&Y2 25M晶振产生,Y1提供01号到60号芯片;Y2提供61号到120号芯片,万用表测电压约为0.8V-0.9V;

(2)RST、CI信号从IO口3脚(3.3V)转换后流入电平转换IC U1-U3-U4,然后从01芯片向120芯片传输;未插入IO线时电压为0V,工作时电压为1.8V;

(3)RX(RI、RO)信号流向,从120号芯片到01号芯片,通过U1回到信号线端子的8脚,再回到控制板;未插入IO信号时电压为0.3V,工作时电压为1.8V;

(4)BO(BI、BO)信号流向,从01号芯片到120号芯片;万用表测量为0V;

4、蚂蚁矿机L7整体结构:

整个蚂蚁矿机L7主要由3块算力板、1块控制板、APW12电源、4个散热风扇组成,如图所示。 

蚂蚁L7算力板维修指南

Ⅴ. 算力板常见不良现象及排除步骤

现象一:单板测试检测到芯片为0(PT1/PT2站)

第一步:检查电源的输出情况,请检查图中圈出的电压部分。 

蚂蚁L7算力板维修指南

第二步:检查电压域电压输出

每个电压域的电压约为0.6V,15V电源一般都有该域电压。优先测量算力板供电端的输出,以及MOS是否短路(测量1、4、8脚之间的电阻值)。如果15V供电但无域电压,继续排除故障。 

蚂蚁L7算力板维修指南

第三步:检查PIC电路

测量U6的11脚是否有输出,电压约为3.2V,如果有,请继续排查问题,如果没有3.2V,请检查测试治具排线与算力板的连接状态是否正常好的,重新编程 PIC。 

蚂蚁L7算力板维修指南

PIC编程步骤:

① 烧录算力板的PIC程序。

程序:20200101-PIC1704-BM1398-V89.hex

下载烧写工具:PICkit3,PICkit3排线的1脚对应PCB板上J3的1脚,需要连接到1、2、3、4、5、6脚。 

蚂蚁L7算力板维修指南

② 烧录软件:

(1)打开MPLAB IPE,选择器件:PIC16F1704,点击power选择供电模式。

(2)点击操作,选择文件,找到要烧录的.HEX文件;点击连接,连接正常;点击烧录按钮,完成后点击“验证”,验证完成证​​明烧写成功。 

蚂蚁L7算力板维修指南蚂蚁L7算力板维修指南

第四步:检查升压电路输出

测量图中C70电压是否为23V。 

蚂蚁L7算力板维修指南蚂蚁L7算力板维修指南

第五步:检查每组LDO 1.8V或PLL 0.8V输出 

蚂蚁L7算力板维修指南蚂蚁L7算力板维修指南

第六步:检查芯片信号输出(CLK/CI/RI/BO/RST)

参考信号方向描述的电压值范围,如果测量遇到电压值偏差较大,可以与相邻组的测量值进行比较。 

蚂蚁L7算力板维修指南

现象二:单板检测缺芯片(PT1/PT2站)

a) 液晶屏显示ASIC NG:(0),先测量域总电压,升压电路23V正常,然后用短路探头将RO测试点与1V8测试点之间短路第一和第二。然后运行查找芯片程序。查看串口日志,如果此时仍然发现0个chip,则属于以下情况之一:

a-1) 用万用表测量1V8、0V8测试点电压是否为1.8V、0.8V。如果不是,则可能是该域的1.8V和0.8V LDO电路异常,或者是该域的两块ASIC芯片没有焊接好,多数是0.8V和1.8V芯片滤波电容短路造成的(测量PCBA正反面相关贴片滤波电容的阻值)

a-2) 检查U1、U2线路是否有异常,如阻焊等。

a-3) 检查第一颗芯片是否有引脚未焊好(维修时发现,引脚从侧面上锡,但拆下芯片发现引脚根本没有上锡)

b) 如果在步骤a)中能找到一个芯片,则说明第一个芯片和前面的电路都是好的。用类似的方法检查以下芯片。例如,将第38、39芯片之间的1V8测试点和RO测试点短接。如果日志可以找到38个芯片,则前38个芯片没有问题;如果仍然找到0个芯片,先检查1V8是否正常?如果正常,说明38以后的芯片有问题,继续二分,直到找到有问题的芯片。假设第N个芯片出现问题,那么当第N-1个与第N个芯片之间的1V8和RO短路时,就可以找到第N-1个芯片。但当第N个和第N+1个芯片之间的1V8和RO短路时,并不是所有的芯片都能找到。

c) LCD 显示 X ASIC NG:固定上报某个芯片时,每次测试中上报的芯片的值通常不会改变。这种情况可按照正常测量信号电压的维修方法进行修复。 

蚂蚁L7算力板维修指南

现象三:单板Pattern NG,即回复nonce数据不完整(PT2站)

Pattern NG是由于该芯片与其他芯片特性差异较大造成的,只需更换芯片即可。根据测试治具的屏幕提示或日志信息,更换规则为:如果芯片外观没有损坏,则更换各域回复率最低的芯片。

下图为其中一份测试日志。从夹具显示可以看出,asic[10][41][69][75]这四个芯片的回复率较低。69和70在同一个域中,因此替换69和70中随机数最低的那个。同时替换10和41。

PS:需要特别注意,domain和asic的编号都是从0开始的,注意domain电压异常也会导致芯片nonce响应不足。

蚂蚁L7算力板维修指南

现象四:没有芯片坏,但回复率不达标,治具屏幕显示P:NG。

P: NG是因为某些芯片的响应较差。可以查看日志,将回复率最低的2个替换掉,这样整体回复率就可以达标了。 

蚂蚁L7算力板维修指南蚂蚁L7算力板维修指南

注:域电压异常也会导致芯片nonce响应不足。

现象5:传感器NG

蚂蚁L7算力板维修指南

维修方法:测试PT1&PT2时,查看串口打印日志,确认温度传感器报错,相应检查温度传感器电路;首先测量温度传感器第8脚供电是否为3.3V,然后检查SDA、SCL总线是否异常。

PT2测试环境要求: PT2测试环境温度应在25℃至30℃之间。当环境温度低于25℃时,软件将停止测试。

PT2测试电源要求:当PT2测试治具电源负载1500瓦时(测试单板的情况),实际输出电压不能低于配置文件中设定的0.03V。(比如配置文件要求输出13.8V,那么电源在1500瓦负载时输出电压不能低于13.77V)

Ⅵ. 控制板问题会导致以下问题

1、整机不工作

1)检查几个电压输出点电压是否正常,3.3V短路可以先断开U8,如果还是短路,拔掉CPU测量。对于其他电压异常,一般更换相应的转换器IC。

2)如果电压正常,请检查DDR/CPU的焊接情况(生产端X-RAY检查)

3)尝试用SD卡更新Flash程序;

如果控制板卡刷卡的矿机需要正常启动,需要执行以下步骤:

a) 刷卡成功后,绿色LED指示灯常亮,关闭电源重新启动;

b) 再次上电后等待30秒(开启OTP的时间过程)

c) OTP(One Time Programable)是MCU的一种存储器类型,意思是一次性可编程:程序烧录到IC后,不能再次更改或清除;

防范措施:

(1)OTP开启过程中突然断电或者时间小于30s会导致控制板无法开启OTP功能,控制板无法启动(未联网),U1(控制板主控IC FBGA)需要更换。U1不能再用于19系列;

(2)如果控制板带OTP功能,U1不能在其他系列机型上使用; 

蚂蚁L7算力板维修指南

2、全机找不到IP

大概率是由于运行异常而找不到IP。故障排除请参考第 1 点。

检查网口、网络变压器T1、CPU的外观及焊接情况。

3.整机无法升级

检查网口、网络变压器T1、CPU的外观及焊接情况。

4、整机读算力板失败或链丢失

A. 检查电缆连接。

B、检查控制板上与链条对应的部分。

C、检查排座引脚的波峰焊接质量和插件接口周围的电阻。 

蚂蚁L7算力板维修指南

Ⅶ. 整机故障现象

1、整机初步测试

参考测试工艺文档,一般问题是组装工艺问题和控制板工艺问题。

常见现象:检测不到IP、检测到风扇数量异常、检测到链条异常。如果测试过程中出现异常,应根据监控界面和测试LOG提示进行修复。整机初次测试和老化测试的维护方法相同。

蚂蚁L7算力板维修指南

2、老化测试:旧测试应根据监控接口测试进行修复,如;

1)风扇显示异常——我们要检查风扇工作是否正常,与控制板的连接是否正常,控制板是否异常。

2)少链条:少链条是指3块板少了1块板。大多数情况是算力板和控制板之间的连接有问题。检查电缆是否存在开路。如果连接正常,可以测试板子到PT2,看是否可以测试。如果能测试的话,基本可以确定是控制板的问题。若测试失败,则采用PT2维修的修复方法。

3)温度异常:一般是温度较高。我们的监控系统设定的PCB最高温度不能超过90℃。

风扇会报警,无法正常工作。一般是环境温度过高,风扇运转异常也会造成温度异常。

4)找不到所有芯片(同样可以开启,但运算能力是正常值的2/3或1/3) 芯片数量不够:如果芯片数量不够,您可以参考PT2进行测试和修复。 

蚂蚁L7算力板维修指南

5)运行一段时间后,没有算力,矿池连接中断,检查网络; 

蚂蚁L7算力板维修指南

6)正常良好矿机的老化测试状态; 

蚂蚁L7算力板维修指南

八.其他注意事项

维护流程图

蚂蚁L7算力板维修指南

1、常规测试:首先目视检查待修复的算力板,观察PCB是否有变形、烧焦的情况。如果有,必须先处理;各部件是否有明显的烧痕、部件撞击偏移或缺失部件等;其次,目视检查没有问题后,可以先检测各个电压域的阻抗,是否有短路或开路的情况。如果发现,一定要提前处理。然后检查各域电压是否在0.6V左右。

2、例行检查OK后(一般例行检查的短路检查是必要的,避免上电时因短路而烧毁芯片或其他材料),可以用测试来检查芯片夹具,根据测试夹具的测试结果确定定位。

3、根据测试治具检测到的显示结果,从故障芯片附近开始,检查芯片测试点(CI/NRST/RO/XIN/BI),以及VDD 0V8和VDD 1V8的电压。

4、然后根据信号流程,除了RX信号反向传输(芯片120到1)外,其他信号CLK、CI、BI、RST都是正向传输(芯片1到120)。通过供电时序,查找异常故障点。

5、当定位到故障芯片后,需要重新焊接芯片。方法是在芯片周围添加助焊剂(最好是免清洗助焊剂),将芯片引脚的焊点加热至溶解状态,促进芯片引脚和焊盘重新研磨和收集锡。以达到重新镀锡的效果。如果重新焊接后故障仍然存在,则可以直接更换芯片。

6、算力板修复后,使用测试治具测试时,必须通过两次以上才能判断正常。更换部件完成后,等待算力板冷却。第一次使用测试治具测试通过后,冷却前放置一旁。等待几分钟,让算力板完全冷却,然后再进行第二次测试。

7、算力板修复后OK。需要做好相关维修/分析记录(维修报告要求:日期、SN、PCB版本、标签号、故障原因、故障责任归属等)。以便反馈回生产、售后、研发。

8、文件记录完成后,再组装成整机进行常规老化。

9、生产端修复好的产品,应该从生产第一站开始精简(至少是外观检验和PT1/PT2测试站)!

10、修复后的有缺陷的算力板,导热胶必须去除,大散热片重新喷漆才可以精简!

© 版权声明

相关文章

暂无评论

暂无评论...