文件类型:维护计划
本手册内容:主要介绍如何排查T1.T2算力板的各种故障以及如何利用测试准确定位。
适用范围:适用于所有T1生产、售后、外包维修站点
1、维护平台要求:
1、恒温烙铁(350度-400度),尖头烙铁头用于焊接贴片电阻、电容等小贴片。熟练掌握。
2、热风筒用于芯片拆卸和焊接。注意不要长时间加热,以免PCB起泡。
3、直流稳压电源(输出12V、20A),用于算力板的测试测量。
4. Fluke 15b+万用表、镊子、调试、G7维修专用控制板、示波器。
5、助焊剂锡膏、清洗水和无水酒精;清洗水用于清理修复后的焊锡残留物和外观。
6、植锡治具、植锡钢网、锡膏;更换新芯片时,必须给芯片植锡。
7.导热胶为黑色高温,灰色低温用于维修后重新粘贴散热片。
2、维护操作要求:
1、维修人员必须具备一定的电子知识,一年以上维修经验,掌握QFN封装焊接技术。
2、修复后算力板必须测试两次并确认OK才可以通过!
3、更换芯片时要注意操作方法。更换任何配件后,PCB板无明显变形,检查更换的配件及其周围是否有断路、短路现象。
4、确定维修站对象及相应的测试软件参数和测试治具。
5、检查工具、夹具是否能正常工作。
三、原理及结构:
● 原理概述
1、T1由21个电压域串联组成,每个电压域有3个芯片,整板有63个T1558芯片。
2、T1558时钟是两个12M晶振,从第一个芯片串联到第30个,31个到最后一个芯片。
3、 T1每个芯片背面 都有一个独立的小散热片。板子初次测试后,将背面的小散热片用导热胶固定在IC背面。测试合格后维修更换芯片,需要在IC表面均匀涂抹黑色导热胶并加热固定。
● 要点分析:
下图显示了PCB板的SPI趋势和电压域以及芯片序列位数。
图1
测试报错芯片的SPI波形是否正常。
1、图中每个黄色框为一个电压域,共有二十一个电压域,每个电压域平均为0.42V。
2. 黑色数字代表芯片的序号和位数。
3、图中红色箭头表示CLK信号方向。
黄色箭头表示SCK信号的方向;
绿色箭头表示CS信号的方向;
蓝色箭头表示DI信号的方向;
紫色箭头表示 DO 信号的方向。
4、每两个芯片之间有1‑7个CLK信号测试点1;RST信号测试点2;EN 信号测试点 3;SCK信号测试点4;CS信号测试点5;DI 信号测试点 6;DO 信号的测试点 7。
DI信号流向,从63号芯片到1返回芯片号,然后返回控制板;
DO信号流向,由1号芯片向63拉低电平;未插IO线,待机0V,计算时0.3左右脉冲信号。
RST信号从控制板流入,然后由1号芯片向63号芯片传输。
2.2 下图为T1算力板正面关键电路。
图2
1)。各芯片之间的测试点(放大后如图所示):图2
图2.修复芯片间测试点时,测试芯片间测试点是定位故障最直接的方法。T1运算板的测试点排列为:CLK、RST.EN、SCK、CS、DI、DO信号。
图 1. 信号趋势
2)电压域:整板有21个电压域,每个电压域有3个芯片。同一电压域的三个芯片并联供电,并联后与其他电压域的芯片串联。电路结构如下图4所示:
电压域单片机原理分析(见下图3)
图3
● 以上是T1558 芯片各引脚的功能。
维修时主要测试芯片前后14个测试点(芯片前后七点:CLK、RST、EN、SCK、CS、DI、DO);DCDC电压输出8.82V;升压11V、LDO–1.8V等
左边C56电容两端是总的DCDC输出电压,应该是8.82V左右
左边C57电容两端是升压电压,应该是11V左右
图6. BM1558电路图
图7. BM1760芯片引脚
CLK:0.9V,由Y1 12M晶振提供;
DO:控制板提供的从第一个芯片到最后一个芯片,可以用示波器测量信号;
DI:从最后一个芯片返回到第一个芯片,可以用示波器测量信号;
SCK:控制板提供0.12V左右用于计算时,电压异常或偏低会导致计算板异常或计算能力低;
EN : 1.8V 由控制板提供;
CS:由控制板提供;
复位:1.8V。由控制板提供,每次按下测试键,都会再次输出低电平复位信号。
当上述测试点状态和电压异常时,请根据测试点前后的电路判断故障点。
从上图可以看出:
CLK信号:由芯片32或31脚输入,17脚输出,跨电压域连接时,由5脚输出,通过100NF电容连接到下一个芯片二十三脚的输入。
DO信号:从芯片的6脚输入,12脚输出;
DI信号:芯片从5脚返回,从13或14脚输出;
CS信号:从芯片的3脚输入,15脚输出;
RST信号:从芯片30引脚输入,从118引脚输出。
测试各芯片信号电压,LDO‑1.8OV
CORE: 0.8V 当此电压异常时,通常是该电压域的芯片 CORE 短路
LDO-1.8O:1.8V 当该电压异常时,芯片 LDO-1.8O 短路或开路
3)根据制造工具打印窗口中的信息判断算力板的运行状态、芯片的算力以及温度敏感性。
3.3 IO接口定义
IO由2X7间距2.0 PHSD 90度直插双排组成。
引脚定义如下图8所示:
如图所示:
1针为LED
2 针用于 VIDD
10、14脚:接GND。
3针为EN
4 针用于 STAR
7针是插头
12 针用于 SCK
13针为CS
8.9 针(DI、EO)
6脚(RST):是复位信号3.3V端,经过电阻分压后,变成1.8V RST复位信号。
5脚(3V3):是算力板3.3V电源,该3.3V由控制板提供,主要为PIC提供工作电压。
图 8. 各引脚 IO 定义
TX_IN电压为1.8V
RST_IN电压为1.8V
4、日常维护流程:
● 参考步骤:
1、例行检查:首先对待维修的运算板进行目视检查,观察小散热片是否有移位、变形、烧焦等情况?如有,必须先处理;如果小散热片移位,先将其拆下,洗掉原来的胶水,修复通过后重新粘贴。
其次,目视检查没有问题后,可以先测试各个电压域的阻抗,检测是否存在短路或开路的情况。如果发现了,就必须先处理掉。
第三,检查各个电压域的电压是否达到0.4V,电压域之间的电压差不得超过0.05。如果某个电压域的电压过高或过低,则相邻电压域的电路一般都会出现异常现象,需要首先查找原因。
2、常规检测没有问题后(一般情况下常规检测的短路检测是必要的,以免上电时因短路而烧毁芯片或其他材料),即可使用DEBUG连接进行芯片检测,根据检测结果进行判断定位。
3、根据测试检测的显示结果,从故障芯片附近开始,检查芯片测试点(CLK、RST、EN、SCK、CS、DI、DO);DCDC电压输出8.82V;升压电压 11V、LDO‑‑ 1.8V 等
4、然后根据信号流向,除DI信号外,信号反向传输(芯片6到1)。其中几个信号CLK、RST、EN、SCK、CS、DO正向传输(1-63),通过供电时序发现异常故障点。
5、当找到故障芯片后,需要重新焊接芯片。方法是在芯片周围添加助焊剂(最好是免清洗助焊剂),将芯片引脚的焊点加热至溶解状态,上下左右轻轻移动压住芯片;促使芯片引脚和焊盘重新熔化并收集锡。以达到再次镀锡的效果。如果重新焊接后故障依旧,可直接更换芯片。
6、修复后的运算板在测试时必须进行两次或多次测试。前后两次测试:第一次,更换零件完成后,算力板需要冷却,测试合格后先放在一边。第二次,几分钟后等待运算板完全冷却后,再次进行测试。虽然两次测试的时间都是几分钟,但这并不影响工作。将修复好的板子放在一边,继续修复第二块板,等待第二块板修复完毕并放置冷却,然后测试第一块板。这样,只是时间错开,总时间并没有延迟。
7.修复后的板子。需要对故障进行分类,并记录更换部件的类型、部位、原因等。用于反馈生产、售后、研究和开发。
8、烧录完成后,安装到完整矿机上进行正式老化。
5、故障类型:
1、各电压域阻抗不平衡;当某些电压域的阻抗偏离正常值时,表明异常电压域中有部分存在开路和短路现象。很有可能是通用芯片造成的。但每个电压域有3个芯片,当出现故障时往往只有一个出现问题。找出问题芯片的方法可以通过各芯片的测试点对地阻抗来检测并比较异常点。如果遇到短路现象,可以先拆下同电压芯片上的散热片,然后观察芯片引脚是否有焊锡连接。如果从外观上找不到短路点,
2、电压域电压不平衡;当某些电压域的电压过高或过低时,一般是因为异常电压域或相邻电压域存在异常信号,导致下一个或下一个电压域工作状态异常,电压不平衡。只需检测各测试点的信号和电压即可发现异常点。单独而言,需要通过比较各个测试点的阻抗来找出异常点。
观察外观,测量阻抗,测量电压,检查各测试点的电压和电源情况。测试根据测试信息定位芯片,先重焊,重焊无效。记录故障类型并进行两次以上测试。ok可以考虑修复一下,然后相关老化。
特别要注意的是CLK信号和RST信号,这两个异常最容易造成电压不平衡。
3、缺少芯片:缺少芯片是指测试盒无法检测到全部63个芯片,往往只能检测到实际芯片数量。但实际缺失(未检测到)的异常芯片并不在显示的位置。这时就需要通过测试来准确定位异常芯片。定位方法可以利用TX截止发送方式来查找异常芯片的位置。就是将某个芯片的TX信号接地。例如,将第50个芯片的TX信号输出到电压域的地后,理论上如果前面的芯片都正常,那么测试盒中应该检测到50个芯片吧?若未检测到50个芯片,则异常在第50个芯片之前;如果检测到50个芯片,则异常发生在第50个芯片之后。类推,
4、断链:
断链与缺筹码类似,但在断链中,并不是所有找不到的筹码都是异常的,而是异常筹码之后的所有筹码都因某个筹码异常而失效。例如,某个芯片本身可以工作,但它不会转发其他芯片信息;这时,整个信号链就会突然中断,丢失很大一部分,称为断链。一般情况下,断链可以通过测试盒显示出来。例如,测试盒检测芯片时,仅检测到14个芯片。如果测试盒中没有检测到预设的芯片数量,则不会运行,所以只会显示检测到了多少个芯片,此时根据显示的数字“14”,
5. 不运行:
不运行表示测试盒检测不到算力板芯片信息,但显示NO算力板;这种现象最为常见,涉及的故障范围也较广。
1)某一电压域内电压异常导致不动作;通过测量各电压域的电压即可发现问题。
2)通过测量各个测试点的信号,可以发现某个芯片异常引起的异常。
CLK信号:该信号由1号芯片输出到63号芯片产生,但目前版本只有两个晶振,Y1(1‑30) X1(31‑63)其中只要有异常signal clk 是,后面的信号都会异常,按照信号传输方向依次查找。
DO信号:该信号由1、2、3、、、、、63号芯片引起,当二分法的某一点异常时,可以向前检测。
DI信号:该信号由63.60、59、58、1号返回,通过芯片信号方向确认故障原因。如果T1操作板未运行,则该信号优先级最高,首先搜索该信号。
RST信号:1.8V;算力板上电,插上14P信号后,这个信号就会从 01 , 02 ,,,,,, 0 63 传输的方向到最后一个芯片。
3) 某芯片 VDD 可以通过测量各电压域电位差是否正常引起。一般情况下,当VDD电压为0.42时,其他电压域各测试点的正常电压也为0.42,以保证电压域之间的平衡。
4)某芯片的 VDD1V8 电压异常 通过测量各电压的测试点来判断某 VDD1V8 电压是否正常。一般来说,LDO电压决定了每个测试点的电压。当LDO电压为1.8V时,其他电压域各测试点的正常电压也为1.8。V
5、算力低:
低算力可分为:
1)测试过程中,收到Nonce不足,算力不足,出现不良现象。这种现象可以通过串口打印信息直接查看各个芯片返回的nonce个数来判断。一般情况下,返回nonce数低于设定值的芯片应排除故障,非虚焊及外部原因可直接更换。。
2)测试治具测试时,整机安装后算力较低。这种情况大多与芯片的散热条件有关,特别要注意各芯片小散热片所用的胶水以及整机的通风性能。另一个原因是某个芯片的电压很关键。整机安装完毕后,12V电源与测试时电源的差异导致测试算力与运行算力存在偏差。可以将测试盒调小后进行测试,并稍作调整。电压直流可调电源输出12V后,再次进行测试,找出返回nonce数最少的电压域。
6、某芯片NG:
指测试通过时,测试串口信息显示某芯片返回的nonce不足或为零。除了消除虚焊和外围元件的问题外,还可以直接更换芯片。
● 保养说明:
1、维修时,维修人员必须熟悉各测试点的功能和流向、正常电压值和接地阻抗值。
2、必须熟悉芯片焊接,以免PCB起泡、变形或引脚损坏。
3、T1558芯片封装,芯片两侧16脚。焊接时必须对准极性和坐标,不得错位。
4、更换芯片时,必须将芯片周围的导热固定胶清理干净,防止焊接IC时因悬挂或散热不良而损坏芯片。