一、维护平台/工具/设备准备要求
1、平台要求:
防静电维修工作台(工作台需接地),维修人员必须佩戴防静电手腕带。
2、设备要求:
(1)恒温烙铁(350-380度)及尖头烙铁头:用于贴片电阻、电容等小贴片的焊接;
(2)热风枪及BGA返修台:用于芯片/BGA拆焊;
(3)万用表:加上焊接好的钢针,套上热缩套管,方便测量,推荐福禄克;
(4)示波器:推荐使用Agilent;
(5) 网线:连接互联网,网络稳定。
3、测试工具要求:
(1)APW12电源 (AP12_12V-15V_V1.2及电源适配器线):用于给算力板供电。
DIY:使用粗铜线连接电源和算力板。建议使用长度小于60cm的4AWG铜线,仅用于PT2和维护测试;
(2) V2.0控制板测试治具(测试治具零件号:NA)
测试治具正负极供电需加装放电电阻,建议使用20欧姆及100W以上的水泥电阻。为了方便维修, 也可以使用PicoBT多功能测试夹具。
4、维修辅助材料/工具:
(1)锡膏千柱M705、助焊剂、洗板水和无水酒精,洗板水用于清理维护后的助焊剂残留物;
(2)导热胶,规格:Fujipoly SPG-30B,用于维护后涂抹在芯片表面;
(3)植球网、吸锡线、锡球(球径建议0.5mm):更换新芯片时,需要将植球固定在芯片上,然后焊接到算力板上。将导热胶均匀涂抹在芯片表面并安装散热装置。
(4)扫描枪
(5) 端口转接板 RS232/TTL转接板 3.3V
(6)自制短路探头:采用插针接线焊接,并用热缩套管,防止探头与小散热片短路。
5、常用维修备件材料:
0402电阻器(0R、51R、10K、4.7K、);0402电容(0.1uf、1uf)
二. 维护要求
1、更换芯片时要注意操作方法。更换任何配件后,PCB板没有明显变形。检查更换的部件及周围是否有少量断路、短路现象。
2、维修人员必须具备一定的电子知识,一年以上维修经验,精通BGA/QFN/LGA封装焊接技术。
3、修复后算力板必须测试两次以上确定OK才可以通过!
4、检查工具、夹具是否能正常工作,确定维修站测试软件的参数、测试夹具的版本等。
5、对于芯片修复和更换的测试,需要先检查芯片背面的电容是否短路,合格后再做功能测试。功能测试必须保证散热器安装到位(安装散热器前必须均匀涂抹每块导热胶),并且冷却风扇全速运转。使用机箱散热时,应同时放置一块算力板,形成风道。生产的单面测试还要保证风道的形成(重要)
6、测量信号时,采用4个风扇进行冷却,风扇保持全速运转。
7、算力板通电时,必须先连接电源负极铜线,再连接电源正极铜线,最后插入信号线。拆卸时,安装顺序必须颠倒,先拆信号线,再拆电源正极铜线,最后拆电源负极铜线。如果不按照这个顺序,很容易造成U1和U2损坏(找不到完整的芯片)。在测试图案之前,修复后的算力板必须先冷却后再进行测试,否则会导致PNG无法测试。
8.更换新芯片,打印引脚和焊膏,确保芯片预镀锡,然后焊接到PCBA上进行维护。
9. 维护端治具使用Test_Mode,使用扫码模式进行测试。测试通过后,生产端从测试第一站开始精简,正常安装老化(同级安装)。
三.测试治具制作及注意事项
配套的测试治具应满足算力板的散热并便于信号的测量。
1、E9测试文件 名如下,指示灯如下;
2、根据要求制作测试SD卡,直接解压压缩包即可制作SD卡。特别注意:有时软件配置Config文件可能不是原包中的PT2,所以测试PT2时一定要确认是否是PT2配置文件,插上网线和扫描仪。
四.原理概述
1、E9算力板工作结构:
算力板由8颗BM1798芯片组成,每两颗芯片共用一组电源管理芯片。
2、E9算力板MOS电压电路:
3、信号方向:
(1)CLK(XIN)信号流向,由U1003晶振产生四组,每组传输两个芯片;电压约为0.8V-0.9V;
(2)RST、CI信号流向:从IO口的24脚(3.3V),经过电平转换IC U1-U8,然后从芯片01传输到芯片8;未插IO线时电压为0V,测试报0;
(3)RX(RI、RO)信号流向,从8号芯片流向01号芯片,经U10返回信号线端子15脚,返回控制板;未插入IO信号线时电压为0.3V,运行时电压为1.2V;
(4)BO(BI、BO)信号流向,从01号芯片到8号芯片;万用表测量0V;
4、机器结构:
整机主要由2块算力板、1块控制板、1块APW12电源、4个散热风扇组成,如图:
Ⅴ. 算力板常见故障及排除步骤
1、现象:板卡测试检测芯片为0(PT2站)
步骤1:首先检查电源输出,请检查U9000-U9010所有电压是否正常;
第二步:检查电压管输出:U9401-U10210各电压管电压是否正常,继续往下检查。
第三步:检查PIC电路:测量U6的11脚是否有3.2V左右的输出,如果有,请继续排查问题;如果没有3.3V,请检查治具排线与算力板的连接是否正常。如果没有,请重新编程 PIC。
如何烧录PIC芯片?
(1)算力板PIC文件烧录:
下载烧录工具:MPS,Server Telecom Core Power MonitorProgramming
(2)烧录软件参考烧录:
打开MPLAB IPE,选择器件:PIC16F1704,点击power选择供电方式,然后点击operate。
① 选择文件找到要烧录的.HEX文件;
② 点击“连接”即可正常连接;
③ 点击“烧录”按钮,完成后点击“验证”,会提示验证完成,证明烧录成功。
(3)测量电源管理芯片输出是否正常。如果输出异常且没有工艺问题,则需要重新烧写电源管理芯片的Core信息。具体编程可以参考以下文档:
① 安装USB转I2C驱动和服务器GUI软件;
② 点击桌面快捷方式:MPS,服务器电信核心功率监控编程
③ 点击SCAN,找到对应地址的IC(只是举例,地址和料号以实际情况为准);
④ 选择对应地址的IC,选择后会变成红色,如下:
2、现象:板子Pattern NG,即回复nonce数据不完整(PT2站)
Pattern NG是由于某些芯片的特性与其他芯片有很大不同而造成的。目前发现芯片的die损坏,所以只需更换芯片即可。根据日志信息,替换规则为:
如果芯片外观没有损坏,只需更换各个域中响应率最低的芯片即可。从日志中可以看出芯片是否正常,或者命令查询;
PS:特别要注意域和ASIC芯片的编号是从1开始的。
3、现象:检查芯片测试正常,但PT2功能测试串口不停止(长时间运行)
修复方法:PT2测试时,查看串口打印日志。串口开始长时间运行时,用短路探头短接RO&1.8V,从第一颗芯片开始短接。如果短路后串口停止长时间运行,则说明第一个芯片是好的,按照此方法查找某个芯片短路后仍然出现故障的芯片,通常是某个芯片引起的,更换即可;
PT2测试环境要求:PT2测试环境温度应在20℃至30℃之间。当环境温度超过35度时,软件将停止测试。
PT2测试供电要求:PT2测试治具在1500瓦负载下供电(测试单板的情况下),实际输出电压不能低于配置文件中设定的0.03V。(例如配置文件要求试产15V,则该电源在1500瓦负载时输出电压不能低于14.97V)。
Ⅵ. 控制板问题会导致以下问题
1、整机不运转
(1)检查几个电压输出点电压是否正常。如果出现3.3V短路,可以先断开U33。如果短路现象依然存在,可以拔掉CPU重新测量。如果其他电压不正常,请更换相应的转换器IC。
(2) 如果电压正常,请检查DDR/CPU的焊接状态(生产端X-RAY检查)。
(3) 尝试用SD卡更新Flash程序。
2、整机找不到IP
大概率是由于运行异常而找不到IP。故障排除请参考第 1 点。检查网口、网络变压器T1、CPU的外观及焊接情况。
3、整机无法升级
检查网口、网络变压器T1、CPU的外观及焊接情况。
4、整机读算力板失败或链少
A。检查电缆连接状况。
b. 检查控制板上与链条对应的部分。
C。检查排针的波峰焊质量和插件接口周围的电阻。
Ⅶ. 整机故障现象
1、整机初步测试
参考测试工艺文档,一般问题是组装工艺问题和控制板工艺问题。
常见现象:检测不到IP、检测到粉丝数异常、检测到外链异常。测试过程中,如有异常,应根据监控界面和测试LOG提示进行修复。整机初次试验和老化试验的维护方法相同。
2、老化测试:老化测试时,应根据监控的接口测试进行维护,例如;
(1)风扇显示异常:我们需要检查风扇工作是否正常,与控制板的连接是否正常,控制板是否异常。
(1)少链:少链是指2块板少了1块板。大多数情况是算力板和控制板之间的连接有问题。检查电缆是否存在开路。如果连接正常,可以用PT2测试单板,看是否可以测试。如果可以测试的话,基本可以确认是控制板的问题。如果测试失败,则使用PT2的修复方法进行修复。
(3)温度异常:一般温度较高,我们的监控系统设定的PCB温度不能超过80度。如果超过80度,机器就会报警,无法正常工作。一般是环境温度过高引起的,风扇工作异常也会引起温度异常。
(4)运行一段时间后,没有算力,矿池连接中断。检查网络。
(5)正常良品机的老化测试状态;
3、整机组装测试后单板测试OK,一块算力板运行3分钟左右没有算力:
具体分析方法如下;
(1)先对单板进行PT2测试,看单板是否OK。如果测试芯片不完整,则修复单板;
(1)如果测试后档位正常,则单独取出板子,用测试治具携带进DeBug主控芯片程序进行挖矿,将风扇转速调至95%,调整电压工作频率为整机电压和频率,让机器进行挖矿,看看机器最终是否损失算力;
(3)如果机器还是丢算力,则将频率降低到200M,其他条件不变,让机器挖矿看看是否会丢算力,算力板是否会打X,如果还是打X丢算力,即可拆下算力板散热片进行挖矿;
(4)当算力丢失时,测量域电压是否正常。一般情况下,域电压有问题的域都会出现异常,然后测量RI信号,看看RI信号在哪里断线。如果RI信号没有了,基本上是芯片短路或者是镀锡后损坏。
Ⅷ. 其他注意事项
1、例行检查:首先目视检查待维修的算力板是否有PCB变形、烧焦的情况。如有现象,必须先处理;是否有明显的零件烧焦、零件撞击偏移或零件缺失等迹象;其次,如果目视检查没有问题,可以先检测各个电压域的阻抗,以检测是否存在短路或开路。如果发现,必须首先处理。第三,检查各域电压是否在0.32V左右。
2、例行检查OK后(一般例行检查的短路检测是必要的,以免通电时因短路而烧坏芯片或其他材料),即可用测试治具对芯片进行测试,并可根据测试治具的测试结果进行判断和定位。
3、根据测试治具的显示结果,从故障芯片附近开始,检查芯片测试点(CO/NRST/RO/XIN/BI)和VDD0V8、VDD1V2等电压。
4. 找到故障芯片后,需要重新拆焊芯片。方法是芯片植球后添加助焊剂(最好是免清洗助焊剂),在BGA返修台上焊接。如果重新焊接后故障仍然存在,则可以直接更换芯片。
5、对于修复后的算力板,用测试治具测试时,必须通过两次以上,才能判断为良品。第一次,更换配件完成后,等待算力板冷却,使用测试治具测试通过,然后放在一边冷却。第二次,每隔几分钟等待算力板完全冷却后再进行测试。
6、算力板修复后OK。需做好相关维修分析记录(维修报告要求:日期、SN、PCB版本、位号、故障原因、故障责任归属等)。如有反馈回生产、售后、研发。
7、备案完成后,组装成整机进行常规老化。
8、生产端修复好的产品,应该从生产第一站开始精简(至少是外观检验和PT2测试站)!
9.对于已修复的不良算力板,必须将导热胶去除并重新打印,然后才能对散热器进行精简!