如何修复蚂蚁矿机D3算力板?

蚂蚁矿机1年前 (2023)发布 YKK
1.3K 0 0

日期:2017年10月30日

文件类型:维护计划

本册子内容: 主要讲述D3算力板。如何利用测试治具准确定位算力板的各种故障。

适用范围:适用于所有D3生产、售后、外包维护现场。

一、维护平台要求

1.恒温烙铁(350度至400度)。烙铁头用于焊接贴片电阻、电容等小贴片。

2、便携式拆焊枪用于芯片拆焊。注意不要长时间加热,以免PCB起泡。

3. APW3电源(输出12V,最大133A)用于对算力板进行测试和测量。

4.万用表 Fluke 15b+、D3 测试夹具(可根据条件配置示波器)。

5、助焊剂锡膏、清洗水、无水酒精;清洗水用于清理修复后的助焊剂残留物和外观。

6、植锡治具、植锡钢网、锡膏;更换新芯片时,必须对芯片进行镀锡。

7.蚂蚁矿机热固胶,用于修复后重新粘贴散热器。

二. 操作要求

1、维修人员必须具备特定的电子知识,一年以上维修经验,熟练掌握QFN封装焊接技术。

2、修复后必须对算力板进行两次以上测试,才能通过!

3、更换芯片时要注意操作方法。更换任意部件后,PCB板无明显变形。检查更换部件及周边部件是否有开路、短路问题

4、确定维修站对象及相应的测试软件参数和测试治具。

5.检查工具、夹具是否正常工作。

三.原理与结构
●原理概述

1. D3由10个串联的电压域组成。每个电压域有6颗BM1760芯片;整板上有60颗BM1760芯片。

2. BM1760芯片内置降压二极管。芯片的指定引脚决定了降压二极管的功能。

3. BM1760时钟是25M单晶振,从第1个芯片串联到最后一个芯片。

4、D3每个芯片背面都有独立的小散热片。板子初次测试后,将背面的小散热片用蚂蚁热固胶固定在IC背面。维修更换芯片测试通过后,需要在散热片上涂抹蚂蚁矿机热固胶并加热固定。

重点分析:
1、下图为D3算力板信号走势示意图: 如何修复蚂蚁矿机D3算力板?

CLK信号流向由Y1 25M晶振产生,依次从芯片1传输到芯片60;待机和工作时电压均为0.9V。

TX(CI、CO)信号从IO口的11脚流入,然后依次从芯片1传输到芯片72;未插入IO线时电压为0,工作时电压为1.8V。

RX(RI、RO)信号流向,从芯片72返回到芯片1,再从IO口的12脚返回到控制板;未插入IO信号时电压为1.8V,运行时电压也是1.8V。

BI(BI、BO)信号流向,从芯片1拉低电平到72;未插入IO线时,待机时为0V,运行时为0.3左右的脉冲信号。

RST信号从IO口的15脚流入,然后从芯片1传输到芯片60;未插入IO信号时,待机时为0V,运行时为1.8V。

2. 下图为D3算力板正面的关键电路。

1)各芯片之间的测试点:

如何修复蚂蚁矿机D3算力板?

维修时,测试芯片之间的测试点是最直接的故障定位方式。D3算力板的测试点排列为RST、B0、RI(RX)、C0(TX)、CLK信号。

如何修复蚂蚁矿机D3算力板?

2)电压域:整板有10个电压域,每个电压有6个芯片。同一电压域的6个芯片分别并联供电,然后与其他电压域连接。电路结构如下图4所示:

如何修复蚂蚁矿机D3算力板?

电压域单片机原理分析(如下图5、图6)

如何修复蚂蚁矿机D3算力板? 如何修复蚂蚁矿机D3算力板? ● 以上为BM1760芯片各引脚功能

维修时主要测试点为芯片前后10个测试点(芯片前后5个:CLK、CO、RI、BO、RST);核心电压;LDO-1.8V,PLL 0.9V,DC-DC 输出。

检测方法:

1)不插IO线,只插12V时:DC-DC输出8.0V左右。测试点必须有CLK 0.9V、RI 1.8V电压,其他测试电压均为0;

2) 插入IO线。当未按下测试按钮时,DC-DC和升压没有电压输出。之后,PIC开始工作。此时,DC-DC输出工具测试程序依次设置电压后,工具输出WORK,芯片返回计算出的随机数。此时各测试点的平均电压应为:

时钟:0.9V

二氧化碳:1.6-1.8V。当工具刚刚发送WORK时,由于CO的负极性,DC电平会被拉低。瞬时电压约为1.5V。

RI:1.6-1.8V。如果运行过程中电压异常或过低,会导致算力板异常,或者算力为0。

BO:不进行计算时为0V。工作时,会出现0.1-0.3V之间的脉冲跳变。

复位:1.8V。每次按下工具的测试按钮,都会再次输出低电平复位信号。

当上述测试点状态及电压异常时,请根据测试点前后电路判断故障点。

从上图可以看出:

CLK信号:从芯片的23脚输入,从5脚输出。跨电压域连接时,通过100NF电容连接从5脚到下一个芯片的23脚。

TX信号:从芯片25脚输入,4脚输出;
RX信号:芯片从3脚返回,26脚输出;
BO信号:芯片27脚输入,2脚输出;
RST信号:由芯片28脚输入,1脚输出。

测试各芯片信号电压、CORE电压、LDO-1.8OV、PLL-0.9V等电压:

核心:0.8V。当电压异常时,通常是电压域内的芯片CORE短路

LDO-1.80:1.8V。当电压异常时,芯片LDO-1.8O短路或开路。

PLL-0.9:0.8V。当电压异常时,其电压域内特定芯片的PLL-09V电源发生短路。

3.IO口定义

IO由2X9间距2.0 PHSD 90度直插双排组成。引脚定义如下图8所示: 如何修复蚂蚁矿机D3算力板?

如图所示:

1、2、9、10、13、14脚:为GND。

3、4脚(SDA、SCL):DC-DC PIC的I2C总线,连接控制板与PIC之间的通信。控制板可以通过它读写PIC数据,从而控制算力板的运行状态。

5脚(PLUG0):算力板的识别信号。该信号由10K电阻从算力板拉至3.3V,因此插入IO信号时该引脚应为高电平。

6、7、8引脚(A2、A1、A0):PIC地址信号。

11、12脚(TXD、RXD):是算力板3.3端算力的通道,经电阻分压后成为TX(CO)和RX(RI)信号。IO口引脚电平均为3.3V。通过电阻分压后电压变为1.8V。

15脚(RST):复位信号的3.3V端经电阻分压后成为1.8V RST复位信号。

16脚(D3V3):为算力板提供3.3V电源。3.3V由控制板提供,主要为PIC提供工作电压。

如何修复蚂蚁矿机D3算力板?

TX_IN 电压为 1.8V
RST_IN 电压为 1.8V

4.PIC控制部分

PIC控制部分由PIC16(L)F1704组成。如图13和图14所示,存储算力板芯片的频率信息和电压值的装置也可以用来控制算力板的DC-DC输出电压。

如何修复蚂蚁矿机D3算力板? 如何修复蚂蚁矿机D3算力板?

PIC工作时,需要每分钟控制发送一次心跳信号。有了心跳信息,PIC 将工作一分钟,然后关闭。PIC引脚1为VDD 3.3V,14为GND,引脚9、10为IO口与控制板连接的I2C总线,引脚5、6、7为PIC地址;引脚4为PIC 3.3V;8脚为PIC输出的FB输入,用于控制DC-DC电压;11脚是PIC输出的EN信号,控制DC-DC工作状态。

5、DC-DC电路

它由LM27402SQ和CMOS管TPHR9003NL组成。如下图15、图16所示:

如何修复蚂蚁矿机D3算力板? 如何修复蚂蚁矿机D3算力板?

DC-DC输出电压测试点为电容C948两端

当DC-DC电压异常时,首先通过工具打印信息检查PIC电压值是否与DC-DC输出电压相同;如果不是,请先更换LM27402SQ周围的小电容;

若DC-DC无输出,请检查R13、R14的EN电压是否为1V左右,R11电压是否为12V,PIC是否工作异常,PIC能否正常接收控制板的I2C信号。

6. 1.8V和0.9V电路组成

1.8V-LDO由1.8VLDO SPX5205M5_L_1_8组成。

如下所示:

SPX5205M5的1、3脚为输入,5脚为1.8V输出;

PLL-0.9V电压是通过两个电阻对LOD-1.8的电压进行分压得到的。(LDO的位置在散热器下方,我们在实际维修中通过拆下散热器就可以看到,与L3+、S9类似)。

如何修复蚂蚁矿机D3算力板?

注:两个 LDO U82 和 U83 具有 EN 控制功能。如果这两个LDO没有电压输出,请检查该组件的3脚是否为1.8V。如果不是1.8V,请检查高压域LDO控制部分。

7、温度传感电路:

它由传感器IC组成。温度传感芯片通过BM1760的6.7脚采集BM1760内置的温度传感器。温度传感参数采集完毕后,最终通过BM1760的15、16脚,从RI返回到控制板的FPGA。原理如图21所示:

如何修复蚂蚁矿机D3算力板? 四.日常维护流程 ● 参考步骤: 如何修复蚂蚁矿机D3算力板?

1、日常检查:首先目视检查待修复的算盘,观察小散热片是否有移位、变形、烧焦等情况,如有必须先处理;如果小散热器移位,请先拆下松动的散热器。拆卸后,将原来的胶水洗掉,清洁干净,然后用热固性粘合剂重新粘贴。

其次,目视检查没有问题后,可以先测试各个电压域的阻抗,检测是否存在短路或开路的情况。如果发现,必须首先处理。

再次检查各电压域电压是否达到0.8V,各电压域电压差不得超过0.05V。如果某一特定电压域的电压过高或过低,则相邻电压域的电路一般都会出现异常现象。我们需要先调查一下原因。

2、常规测试没有问题后(一般需要进行常规测试的短路测试,以免烧坏芯片或其他材料),用测试治具检查芯片,据此判断、定位结果。

3、根据测试治具显示的测试结果,检查芯片测试点(CLK IN OUT/TX IN OUT/RX IN OUT/B IN OUT/RST IN-OUT)及VDD、VDD0V8、VDD1V8等电压从故障芯片附近。

4、然后根据信号流向,除了RX信号被反相(60转1片)外,还有几个信号CLKCO BO RST被转发(1-60),通过串口电源查看发现异常故障。

5、当找到故障芯片后,需要重新焊接芯片。方法是在芯片周围添加助焊剂(最好是免清洗助焊剂),将芯片引脚的焊点加热至溶解状态,然后轻轻向下、向左移动压住芯片;促进芯片引脚与焊盘重新熔合,并收集锡。达到再次镀锡的效果。

如果重新焊接后故障依旧,可直接更换芯片。

6、算力板修复后,测试盒必须检查两次以上。前后两次测试:第一次,更换零件完成后,需要将算力板冷却,合格后再测试,放置一边。第二次,几分钟后,等待算力板冷却,再次测试。虽然两次测试的时间都是几分钟,但这并不影响工作。将修复好的算力板放在一边,继续修复第二块板,等待第二块板修复完毕并放置冷却,然后测试第一块板。这样,只是时间错开,总时间并没有延迟。
7、需要对修复后的算力板故障进行分类,记录更换部件的类型、位置、原因等,做好生产、售后、研发反馈的准备。

8、烧录完成后,安装到整机上进行正式老化。

五、故障类型
1、各电压域阻抗不平衡;

当某些电压域的阻抗偏离正常值时,表明异常电压域存在开路、短路现象。一般的芯片错误很可能导致它。然而,每个电压域有三颗芯片,当它出现故障时,只有一颗有问题。找出问题芯片的方法可以通过每个芯片的测试点对地的阻抗来检测并比较异常点。

如果遇到短路现象,可以先拆下同电压芯片上的散热片,然后观察芯片引脚是否有焊锡连接。

如果从外观上找不到短路点,可以根据电阻法或电流截取法找到短路点。

2、电压域电压不平衡;

当某些电压域的电压过高或过低时,一般是由于电压域异常或相邻电压域IO信号条件异常导致下一个或下一个电压域工作状态异常,电压不平衡。只需检测各测试点的信号和电压即可发现异常点。单独而言,需要通过比较各个测试点的阻抗来找出异常点。

特别注意CLK信号和RST信号。这两种异常最有可能造成电压不平衡。

3、缺少芯片;

缺少芯片意味着测试盒在测试过程中无法检测到所有这些。对于每个芯片,通常不可能检测到尽可能多的芯片。而实际缺失(无法检测到)的异常芯片并没有显示。这时就需要通过测试准确定位异常芯片。

定位方法可以采用TX切断分配的方法,找到异常芯片的位置。要将特定芯片的 TX 信号转换为地,请连接前 50 个芯片的 TX。输出电压域的地后,理论上,如果前面的芯片都正常的话,测试治具应该显示检测到50个芯片?如果没有检测到50个芯片,说明异常发生在50个芯片之前;如果检测到50个芯片,则异常芯片在第50个芯片之后。以此类推,用二分法找到异常芯片的位置。

4. 链接失效;

断链类似于缺少芯片,但断链并不意味着所有找不到的芯片都是异常的,而是因为某个特定的芯片异常,导致该异常芯片后面的所有芯片都失效。例如,某个芯片本身可以工作,但它不会转发其他芯片信息;这时,整个信号链就会戛然而止,失去很大一部分,成为断环。

一般来说,损坏的链接可以显示在测试夹具中。例如,测试治具检测芯片时,只检测到14个。如果测试治具中没有检测到预设数量的芯片,则不会运行,只显示检测到了多少个芯片。这时,只需根据显示的数字“14”,在14中,检查每个芯片前后各测试点的电压和阻抗即可发现问题。

5.不运行;

不运行表示测试治具无法检测到算力板的芯片信息,显示NO算力板;这种现象最为常见,涉及的故障范围也很广。

1)特定电压域内电压异常导致不动作;通过测量各个电压域的电压就可以发现问题。

2)芯片异常引起。通过测量各测试点的信号即可发现异常情况。

CLK信号:0.9V;信号从芯片1到60输出,但当前版本只有一个晶振。因此,只要有异常的CLK信号,后续的所有信号都会被搜索到,直接传输到异常信号处。发射信号:1.8V;该信号由芯片1、2、3、、、、60发送。当二分法的某一点出现异常时,可以向前检测。

接收信号:1.8V;该信号是从60、59、58、、、、1发出的。如果返回数字,请通过芯片信号趋势确认故障原因。例如,如果S7和S9算力板没有运行,则该信号的优先级最高,首先搜索该信号。

BO信号:0V,在芯片RI上检测到字母号。当返回信号正常时,可以将其拉高。否则,它是低的。

RST信号:1.8V;上电插上算力板IO信号后,信号传输方向将从01、02、、、、、、60改变到最后一个芯片。

3)某芯片VDD引起。

可以测量各电压域的电位差是否正常。一般情况下,当VDD电压为0.8V时。其他电压域各测试点正常电压也为0.8V,保证各电压域间电量平衡。

4)某芯片VDD1V8电压异常。

通过测量VDD1V8各测试点的某个值来判断电压是否正常。一般情况下,IO电压决定了各个测试点的电压,当IO电压为1.8V时,其他电压域的测试点也为1.8V。

5、算力低;

低算力可分为:

1) 测试治具测试时,治具收到Nonce Insufficient,显示为NG。这种现象可以直接通过测试治具的串口打印信息看到每个芯片nonce返回的判断数量。一般情况下,如果芯片数量低于设定值,排除的芯片可直接更换,焊接及外围原因除外。

2)测试治具时,安装整台矿机后算力较低。这种情况主要与芯片的散热条件有关,需要特别注意各芯片小散热片所用的胶水以及整机的通风性能。另一个原因是一些芯片的电压很关键。整台矿机安装完毕后,12V电源与测试时电源的差异导致测试算力与运行算力存在偏差。将测试夹具调低,调整电压至12V直流可调电源后,即可使用测试箱进行测试。输出后再次测试,看看返回的随机数。这是因为芯片检查电压域的最小数量。

6. 芯片NG;

指测试治具串口信息显示特定芯片通过测试治具测试时返回的随机数不足或为零,除了消除虚焊和外围元件问题外,还可以直接更换芯片。

● 保养说明:

1、维修时,维修人员必须熟悉各测试点的功能及流向、正常电压值、接地阻抗值。

2、必须熟悉芯片焊接,以免造成PCB起泡变形或引脚损坏。

3、BM1760芯片封装,芯片两侧14个引脚。焊接时必须对准极性和坐标,不得错位。

4、更换芯片时,必须将芯片周围的导热固定胶清理干净,防止焊接时IC悬空或散热不良,造成芯片二次损坏。

© 版权声明

相关文章

暂无评论

暂无评论...