编辑:李艳
博士。版本:2019.07.02
博士。类别:维护指南
本文档内容:主要是蚂蚁矿机S15 T15的故障排查和算力板测试仪定位。
一、维护平台要求
1. 恒温烙铁300-350摄氏度,尖头烙铁头适用于rc等小贴片。
2、芯片拆焊采用热风枪,不可长时间加热,以免PCB起泡(焊接温度260±2摄氏度)。
3、APW8电源,16.32V-20.04V输出,用于测试算力板。
4. Fluke 15b+万用表、镊子、V9-1.2算力板测试仪(示波器优先)。
5、助焊剂、清洗水、无水酒精;保养后用清洗水清洗残留物及外观。
6、锡磨机、锡网、锡膏(低温OM550);更新时为芯片植入锡。
7.导热胶,黑色(6223),用于维修后粘合散热片。
二. 维护要求
1. 维修技术人员,具有良好的电子知识,1年以上经验,熟练掌握QFN封装和焊接技术。
2、维修后检查两次以上,每次结果都OK!
3. 注意使用的技术,确保更换任何配件后PCB没有明显变形,检查零件是否有缺失/断路/短路。
4、检查维护目标及对应的测试软件参数和算力板测试仪。
5、检查工具和测试仪是否能正常工作。
三.原理及结构
● 原理介绍
1、蚂蚁矿机S15 T15有12个电压域串联,每个电压域有5个BM1391,整板有60个BM1391芯片。
2. BM1391芯片内置3个串联的小电压域。
3、BM1391有12个电压域;S15 T15时钟上有25M单晶振荡器,串联并从第一个芯片传递到最后一个芯片。
4、S15 T15每个芯片的正反面都有独立的小散热片。正面散热片为SMT贴片,背面散热片经过初步测试后通过导热胶固定在IC背面。每次维护完成后,必须用黑色导热胶(均匀分布)固定在IC背面。
5、S15 T15的电源为APW8,其输出由控制板调节。正常电压为220V,如果没有控制板调节电压,APW8将没有输出。
笔记:
在维修过程中,更换板卡配件或芯片时,为了避免风枪的热量对PCB和芯片造成损坏,需要将故障部位附近的散热片以及PCB背面的散热片清理干净。在进行配件更换之前先将其拆除。
PCB两面都有测试点,生产维护时使用前面的测试点,然后再在正面安装散热片;在产品维修(售后维修)时,散热片位于PCB的两侧,通过PCB的测试点定位故障,并使用特制的细长笔形仪表探入散热片的缝隙进行测试;由于SMT小散热片将各电压域接地,请注意笔形表的绝缘,避免笔形表造成短路。
● 重点分析:
2.1 S15 T15信号流程(图1)
图 1. T15 信号流
红色为CLK信号流,由Y1 25M晶振产生,从1号芯片传输到60号芯片;待机和计算时电压均为0.9±0.1V。
红色为TX(CI、CO)信号流,IO口引脚7进,从00号传输到62号;IO信号线未插时电压为0V,计算时电压为1.8V。
黄色为RX(RI、RO)信号流,从60号返回到00号,再从IO口8脚返回到控制板;IO信号线未插时电压为0V,计算时电压也是1.8V。
红色为B(BI、BO)信号流,从00号电平降低到60号电平;IO信号线未插好或待机时电压为0V,计算时信号脉冲约为0。
红色为RST信号流,IO口引脚3中,从00号芯片传输到62号芯片;IO信号线未插或待机时为0V,计算时为1.8V
2.2 算力板正面关键电路(图2)
图2 算力板T15正面关键电路
2.2.1 芯片间测试点(图3)
图3 芯片间测试点
在维修时,测试芯片之间的测试点是最直接的故障定位方法。
算力板S15 T15上测试点的排列如左图所示。
2.2.2 电压域
整板上有12个电压域,每个电压域有5个芯片。同一电压域的5个芯片由相关电源供电,然后与其他电压域串联。电路结构如下图4所示:
图4 算力板S15 T15正面关键电路
单片机在电压域的原理分析(见下图5):
图5 BM1391电路图
以上是芯片BM1391各引脚的功能。
大修时,主要测试芯片前后各10次测试(芯片前5个、后5个:CLK、CO、RI、BO、RST)。
测试方法:
① 治具未测试时,APW8 只向治具控制板输出 12V,无 19.2V 输出;
② 当治具开始测试时,APW8将输出19.2V电压给控制板电源。测试时,治具各测试点电压如下:
时钟:0.9V
CO:1.6-1.8V,治具刚发出WORK时,由于CO为负,直流电平会降低,瞬时电压约为1.5V。
RI:1.6-1.8V,计算时,如果电压异常或过低,算力板会异常或算力为零。
博:0V。不计算时为0V;计算时,会有0.1-0V之间的脉冲抖动。
复位:1.8V。每次按下治具的测试按钮,都会重新输出复位信号。
当上述测试点状态或电压异常时,请根据测试点前后电路判断故障点。从上面的列表可以看出:
CLK信号:从芯片的29脚输入,从8脚输出,跨电压域连接时,从8脚输出,通过0欧电阻连接到下一个芯片的29脚。
TX信号:从芯片28脚输入,9脚输出;
RX信号:从芯片的10脚返回,从27脚输出;
BO信号:从芯片的25脚输入,从12脚输出;
RST信号:从芯片的26脚输入,从11脚输出。
3.IO口
IO 由 2X9 间距 2.0 PHSD 90 度直插双排组成。
各引脚定义如下图6所示:
图6 IO口各引脚定义
如上图所示:
引脚 5.6.17.18:GND。
引脚15.16(SDA、SCL):DC-DC PIC 的I2C 总线,连接控制板和PIC 之间的通信。控制板可以通过它读写PIC的数据来控制算力板的运行状态并连接U6-EPROOM。该IC主要存储PCB、BOM和芯片,并扫描信息。
引脚13(PLUG0):算力板的识别信号。该信号从算力板上的 10K 电阻拉至 3.3V。因此,当IO信号插入时,该引脚应为高电平。
引脚 11.12.14 (A2、A1、A0):PIC 地址信号。连接到 U6-EPROOM。
7.8引脚(TXD、RXD):算力板3.3端算力通道。经过电阻分压后,变成信号TX(CO)和RX(RI)。IO口引脚电平为3.3V。经过电阻分压后,变成1.8V。
3脚(RST):3.3V端复位信号,经电阻分压后成为1.8V RST复位信号。
4脚(D3V3):给算力板供电3.3V,由控制板提供,主要为PIC提供工作电压。
4. 23V升压电路
它负责将DC-DC(19.2v)升压至23V。原理是通过U7开关电源将电压从19.2V升到23V。U7产生的开关信号通过L4给储能电感,D4通过升压整流二极管对C73-C75充放电,再经EC26滤波,在EC26正极得到23V电压。23V电压输出到U170,u170输出1.8V,再通过u171输出0.8V,如图7所示。
图7 23V升压电路
5. 直流-PIC
它由 PIC16(L)F1704 组成(图 8、图 9)。
存储算力板芯片频率信息和电压值,同时控制算力板DC-DC输出电压的装置。
图9 PIC原理图
图10 PIC电路
6、DC-DC电路
它由2N7002和CMOS管组成(图11、图12)。
图11 DC-DC原理图
图12 DC-DC物理图
电路不工作时:PIC-EN9脚输出低电平,拉低Q10的1脚,使Q10不导通,并引起Q7-8-9-11MOS管4脚高电平,截止MOS,不导通。电压输出。
7. 25M LCK
它由一个Y 25MHZ无源晶体振荡器和12pF组成(图13和图14)。
图13 25M LCK电路
图14 25M LCK原理
正常时,R1154两端电压约为1V±0.1。
8.温度传感电路
温度传感器有4种:一种是TEMP(PCB),由传感器IC组成;另一种是TEMP(PCB),由传感器IC组成。另一个是TEMP(CHIP),即内置温度传感器组(BM1391第21、22脚)。这两个温度传感器的参数采集完毕后,最终由RI通过BM1391的23、24引脚返回到控制板的FPGA。原理如图15所示:
图15 温度传感原理图
四.单板测试故障排除示例
1.单板治具测试ASIC=0
故障分析:
1.1治具排线与算力板是否接触良好。
1.2 如果是S15 T15算力板,测试治具时J4-J5电压应为18.36V。
1.3 测试治具时,测量12个电压域之间是否有电压。
1.3.1 若电压域无电压,则需查看Q7、Q8、Q9、Q11的4脚正常工作电压是否为0V。如果为高电平,则看Q10的1脚是否为高电平或等于3.3V,如果Q10没有3.3V电压,则U3-PIC丢失固件或不上电。
PIC原理图
19.2V输出控制电路
1.3.2 如果供电正常,电压域有电压,则需要测量芯片的RI信号,看RI信号是否有1.8V的电压。测量RI信号时,应从最后一块芯片的测试点开始。如果最后一个芯片有电压,则可以测量第36个芯片是否有RI -1.8v;当芯片没有RI输出电压时,首先测量该芯片的1.8V电源,如果没有1.8V电源,则需要检查1.8V电源电路。1.8V 经过电压域分压后得到 3.2V 供给 LDO 引脚 1。LDO引脚5输出1.8V,(每个电压域有一个芯片供电-1.8V LDO),如果没有输出,应该是这个LDO的问题,如果1.8V正常,断电后测量测试点的接地电阻,与OK板比较,看是否有电阻异常。如果电阻正常,焊接也没有问题,则芯片应该有缺陷。(将拆下来的芯片重新焊接到好的板上验证一下,如果没有RI信号,则该芯片有缺陷,更换新芯片)。
1.8V供电电路
1.3.3 本文介绍的方法适用于S15 T15部分算力芯片或LDO损坏引起的故障。由于短路或焊接不良造成的ASIC不足也可采用此方法进行定位。
第一步:首先检查故障算力板的外观,散热片是否完整,电路板是否烧毁,MOS管是否烧坏,电容是否烧坏等。
步骤 2:在不通电的情况下测量 LDO 输出到该 LDO GND 的电阻。LDO的引脚安装如图1所示,测量Pin5到Pin2的电阻。
图1 LDO引脚安装
如图2测得,0.868K是普通1.8V LDO的阻值,41.4欧姆是普通0.8V LDO的阻值。第三个数字是一个不好的指示。一般情况下LDO已经被烧毁,相应域也有电源芯片损坏。此时应更换LDO并重新测试阻值。若电阻正常或电阻较大,则可进行下一步操作。
表1 LDO列表
图2 万用表读数
第三步:上电,短接RI到对应的1.8V,进行单板搜索芯片测试。
当LDO损坏时,更换LDO后,可从此域开始检查。当RI短接1.8V时,恢复的芯片数量应为短接点之前所有芯片的数量。如果数字正确,则继续向后看。如果为零,说明测试点之前的芯片有问题,需要更换。
RI短接1.8V查看芯片数量的方式分为跨域芯片和域内芯片两种。如图3所示,红色为跨域芯片。建议检查每个红色跨域芯片,快速确定域,然后定位域内芯片。(可以轻松查看问题域的第二、第三散热片,进行问题排查)。
图3 芯片布局
以下是通过 PCB 短接的方法:
① 跨域短连接
将RI短接到1.8V,运行单板治具找到芯片:
② 域内短连接
请注意,域中的 RI 位置有两种类型,如下图所示:
2. 单板治具测试ASIC = 23
故障分析:
2.1 单板测试可以找到23个芯片,并且可以确定RI信号正常;如果找不到24号芯片,则直接测量23号芯片的U33 CLK-RST-CO电压,看供电是否正常,如果CLK无0.8V电压,则看CLK的供电电路。
2.2 CLK电路分析:如果CLK没有0.8V,首先检查坏芯片电压域的0.8V供电是否正常,通过电压域内的分压器得到0.8V供电电路作为1.8V供电模式; 5脚输出0.8V,维修方法可参考1.8V维修方法(注意S15 T15每个域6个芯片中有2个芯片输出0.8V LDO供电,每个LDO给3个LDO供电)芯片)。
0.8v供电原理图
如果0.8V电源电路不输出0.8V,则查看0.8V LDO电源是否有3.2V左右的供电电压。如果有,查看LDO是否有虚焊或短路现象。如果有0.8V输出,检查芯片的接地电阻;如果阻值正确,则应该是芯片故障。
五、整个矿机状态的检测与判定
整个矿机运行是否正常主要看矿机是否能够正常启动,算力是否正常。如果算力正常,首先输入矿机IP查看以下参数:
矿机测试界面图
1.是否检测到3条链。如果检测不够,看看是否是线断了或者线没插好,如果升级线后还是链不足,可以对链不足的算力板进行单板测试,看看是否没问题。
1.1 算力板基本没问题,可以确定问题出在控制板,可以通过替换法排除。
1.2 如果算力板测试ASIC0,则按照单板维修方法进行维修。
2.检查芯片数量是否足够,如果芯片数量不够,可以直接进入IP-LOG查看链是否可以检测到芯片,然后根据单芯片进行修复。
3、查看3条链的运行频率是否正常,频率决定算力;一条链算力=频率×芯片核心数256×芯片数60;如果达不到这个理论算力,证明这条链的芯片有很多坏核。如果你想提高算力,可以进入IP-LOG查看芯片频率是否较低,然后更换该芯片。
4、一般矿机正常运行情况下,3条链的PCB和芯片温度在25度到95度之间。如果一条链的温度仅低于25度,则证明该链的算力板没有工作,需要测试单板,看单板是否正常。如果高于95度,则证明散热不好,需要检查风扇运转情况和通风情况,还要注意散热片是否脱落。
5、如果输入IP后看不到任何数据,只看到如下图界面,则需要进入IPlog查看日志中打印了哪些信息,根据信息修复矿机;可能存在网络中断或其他问题。
6、整台矿机修复时,根据挖矿情况和LOG进行修复。直接用好的元件替换认为有问题的元件并判断。
六.控制板原理及结构
1、控制板结构
控制板各部件名称及分布
2、网口线电路图
无法识别IP(即找不到网络):首先看坏板的外观,有无伪焊,有掉料,如果
外观正常,找一根好的网线(正在使用的网线,插入J7网络接口)看是否能找到IP,如果还是找不到
找到IP,拿一块好的控制板,和坏的控制板比较电阻;首先从引脚 J7 1、2、3、6 测量,然后从 T1 1、2、3、6、7、8 测量,
也可以将2块控制板接12V,比较测量各点电压,U4信号直接接CPU,一般情况下T1为
更有可能是坏的。
3、电源稳压电路
调压电路中,CPU直接读取算力板PIC采集到的信号电压,从J11输出信号直接控制APW8电源,调整APW8输出,稳定所需电压。
IO块电路直接连接到CPU。如果外观和焊接都没有问题,基本就是CPU的问题。
4.小型电压转换输出电路