在矿机生产和使用过程中,如果用户遇到断链、算力低、硬件故障较多等情况,请参考本手册进行试修。
注:本手册无法涵盖所有可能出现的异常问题。如果遇到按照手册无法修复的问题,请查看芯动官网故障排除页面;我们会不定期更新最新内容。
一、概述
1、算力板电路布局及测试点分布
以芯动A4+算力板为例;其他型号请参考相关设计文件。
1)图中相邻的6个芯片是一个电压域[(1,2,3,4,5,6),…(67,68,69,70,71,72)],共12个电压域,并且每个电压域内的六个芯片的电压相同。启动时各电压域平均电压约为0.45V;
2)图中蓝色箭头表示CLK和通信信号的方向;
3)每两个芯片之间有1-7个测试点。测试点 1 至 7 为 CLK、RST、EN、SCK、CS、DI 和 DO 信号。
具体如下图:
4)测试点及前后芯片连接:
2.测试软件使用说明
软件 | 使用场合 | 阐明 |
测试链 | SMT后贴在散热器前。 | 用于快速检查焊接问题,不做长期功能测试,仅测试所有芯片是否通讯正常。 |
粘贴前 | 将散热器粘在非芯片侧后。 | 用于在高功率状态下尽快检查单板的各种缺陷。少了一个散热片,芯片的工作频率比正常使用时要低。 |
粘贴后分箱 | 全部散热片粘贴完毕后。 | 在4个工作电压下进行测试,根据测得的算力文件对单板进行分类。同档位单算力板加载到同一个矿机中。 |
维修 | 定位单算力板问题。 | 该程序将发送无限量的通信命令,供维护人员使用万用表、示波器检查必要的电路。 |
老化 | 矿工在出厂前都要经过老化。 | 使用官方出厂固件。如果出现异常,量产管理界面会显示错误代码。 |
3、贴签前后测试软件错误码列表
如果检测没有问题,则日志末尾打印“√”,否则打印“×”。当检测到问题时,软件会报告优先级最高的错误类型,错误优先级顺序为:E0 > E9 > E6 > E4 > E7 > E5 > E3 > E1 > E2 > E8。该报告可以指导芯片的维护和更换。
错误代码 | 描述 | 评论 |
E0 | 未找到芯片类型。 | 链条故障。 |
E1 | 单颗芯片上好的核心数量不到30%。 | 工作频率下的统计。 |
E2 | 全盘的好分数不足90%。 | 工作频率下的统计。 |
E3 | 单片机作业测试全错。 | |
E4 | 芯片PLL不锁定。 | |
E5 | 芯片温度异常。 | 软件报告 9999 或 -9999。 |
E6 | 芯片电压异常。 | |
E7 | 该命令返回错误,或者频率增加失败。 | “E7:0”表示PLL配置失败。 |
E8 | 全板作业测试总错误率大于10%。 | |
E9 | 读取芯片数量不正确。 | |
E10 | (预订的) | |
E11 | 贴后找不到合适的档位。 | |
E12 | 命令返回 CRC 错误。 | |
E13 | 降压故障。 |
4. 老化软件错误码列表
序列号 | 问题 | 解决方案 | 注意 |
1 | 控制板IO故障 | 更换控制板 | 完成后必须恢复出厂设置 |
2 | 控制板网络故障 | ||
3 | 算力板故障 | 更换算力板 | 完成后必须恢复出厂设置或重新老化。 |
4 | 芯片故障 | ||
5 | 个别芯片温度过高 | ||
6 | 停电 | 更换电源 | 完成后建议恢复出厂设置或者重新老化。 |
7 | 通讯信号线干扰 | 使用屏蔽线 | |
8 | 通讯信号线未插好 | 检查并重新插拔通讯信号线 | |
9 | 整机功耗过高 | 重新老化或降频(效率模式) | |
10 | 环境温度过高 | 改善经营环境 | |
11 | 风扇故障 | 检查风扇电缆连接,检查风扇型号是否匹配,检查风扇安装方向是否正确 | 请参阅文档控制板常见问题解答。 |
12 | 矿池设置错误 | 检查池设置或恢复出厂设置 | |
13 | 网线未插好 | 检查网线连接 | |
14 | 网络环境故障 | 检查交换机配置,例如 DHCP 和 DNS |
错误代码 | 描述 | 错误信息 | 分析 |
0 | 普通的 | – | 普通的 |
21 | 未检测到 1 个或多个算力板 | 检测到的算力板数量,如果有多个,以空格分隔 | 通讯信号线未插好/控制板IO故障/算力板故障 |
22 | 电源通讯错误 | – | 电源故障/控制板IO故障 |
23 | 所有算力板安可失败 | – | 控制板IO故障/电源故障/算力板故障 |
24 | 部分算力板安可失败 | encore 正常算力板编号,如果有多个数字以空格分隔 | 算力板故障/控制板IO故障/电源故障 |
25 | 升级失败 | 算力板编号:错误频点 | 通讯信号线干扰/算力板故障 |
26 | 设置电压失败 | 算力板数量:1/2 | 通讯信号线干扰/算力板故障 |
27 | 比斯特失败 | 算力板数量:1/2 | 通讯信号线干扰/算力板故障 |
28 | 运行时通讯信号错误无法自动恢复 | 算力板数量 | 通讯信号线干扰/算力板故障/控制板IO故障 |
29 | 运行时I2C通讯故障无法自动恢复 | – | 电源故障/控制板IO故障 |
30 | 无法连接矿池 | – | 矿池设置错误/网线未插好/控制板网络故障/网络环境故障 |
31 | 单个芯片损坏,导致哈希率膨胀 | 损坏芯片编号:算力板编号;如果有多个,用空格分隔 | 芯片故障 |
32 | 过温 | 算力板数量 | 环境温度过高/风扇故障/个别芯片温度过高/整机功耗过高 |
33 | 读取温度失败 | 算力板数量 | 控制板IO故障/算力板故障 |
34 | 通讯信号线连接异常 | 算力板数量 | 控制板通讯信号口插错/控制板IO故障 |
35 | 供电不足 | 算力板编号:芯片编号 | 电源故障 |
36 | 芯片好核数异常 | vidtype、minertype、子类型、chipnum | 算力板故障 |
37 | 控制板视频类型错误 | – | 算力板故障 |
二. 保养准备
工具:串口板、数据线、TF卡、跳线帽、示波器、万用表。
所需软件:boot.bin、SecureCRT.exe。
1、维护软件使用说明
1)如何使用boot.bin
使用方法:关机后直接复制xxx.bin到TF卡中,将TF卡插入串口板卡槽,将串口板连接到控制板,用跳线帽连接到J2接口,然后打开电源。
2)串口工具说明
电脑上安装串口测试工具,设置波特率:115200、n、8、1。
设置方法如下:
A。双击串口图标,打开如下图所示的串口工具,在红色对话框中点击“新建对话框”。
b. 在新建会话向导中选择串行端口协议。
C。设置波特率:115200等选项。
3)普通软件使用说明
粘贴前和粘贴后的软件
正常软件使用流程如下:
A。将SD卡插入插槽后,检查设备是否正确,然后上电。
b. 上电后打开串口软件检查软件版本信息是否正确。
C。测试过程中,显示测试信息并在各个阶段进行提示字符,方便硬件测试和状态监控。
d. 测试结束后,打印测试结果。如果是多链测试,结束后会将测试结果一起打印。
e. 重新测试,直接按控制面板上的Reset按钮或根据提示软件字符按Enter键。
修复软件
A。将SD卡插入插槽后,检查设备是否正确,然后上电。
b. 上电后打开串口软件检查软件版本信息是否正确。
C。测试过程中,各个阶段都会有测试信息显示和LED灯显示,方便硬件测试和状态监控。
d. 软件在运行过程中会不断发送某个固定的指令时刻,可用于测量电压和信号。
e. 测量完成后,按功能键继续向后运行并打印测试结果。
F。重新测试,直接按控制板上的复位键或根据提示软件字符按回车键。
需要注意的是,维护软件一次只能测试一块电路板。只有按下功能键时对应的指示灯熄灭,才能确保按键成功捕获。
2. 测试环境搭建
取出待测试的矿机控制板,将TF卡按如图所示位置分别插入控制板和串口板,将跳线帽插入如图所示接口。用数据线连接串口板和电脑。
三.维修流程
一、整机老化、维护不良的基本过程
1)重现老化不良问题,记录错误代码。
2) 检查故障单板对应的电源输出是否正常。
3)如果是多通道控制的电源,请将电源通道的错误板与正常板对调(注意同时调整数据线接口顺序),观察现象是否与图示一致。算力板或电源。如果跟随电源,则更换并重新老化。
4) 断开电源和网线。检查矿机外部是否有损坏。检查电源线和数据线连接是否松动或断开。
5)使用原装矿机电源和故障算力板,在桶中进行后贴测试,记录错误码和日志。
6)使用原装矿机电源和故障算力板贴在桶外后进行测试,看现象是否仍然存在并做好记录。如果芯片表面是用螺丝固定的散热片,则拆下芯片表面的散热片进行测试,看现象是否仍然存在,并做好记录。
7)继续分析单块算力板缺陷修复流程。
2、单算力板缺陷修复基本流程
维护前请确认电源、控制板及各种电缆连接正确。
1)使用预粘测试软件进行测试,得到错误代码Ex:x。对于不同类型的错误,可以采取不同的后续步骤。
2)检查算力板外观,是否有缺件、错误、外观异常等情况。例如,检查错误芯片附近是否有焊球、异物等。
3) 运行维护程序并使用 Fluke 15B+ 万用表检查输入电压。检查晶振电源。检查尾部IO升压电路。最后,检查各级LDO输出。
4)用示波器检查芯片输入输出信号CLK、SCK、DO、DI、CS、RSTN、START。
5)如果发现算力板芯片输出信号异常,不要轻易更换。首先,尝试添加焊接、重新焊接以及与该算力板上的其他芯片交换。
6)如果采用芯片交换法,可以观察问题是否出在芯片上。
7)以上方法无效后,更换芯片。
3.特殊维护程序定位断链位置
将提供的repair.bin复制到TF卡中,插入串口板。连接电源和数据线(无需风扇),然后上电。配合贴前或贴后的软件错误信息,测量相关芯片及其相邻芯片点的测试。
维护软件中功能键及指示灯说明。
1)上电控制板上灯亮(复位按钮旁边红绿灯亮);如果上电链断了,会一直发送cmd04;按USB卡槽旁边的功能键后,停止发送cmd04,程序继续执行,此时绿灯灭;
2)如果上电链已连接,则继续发送cmd04。同功能键按下后,停止发送cmd04,绿灯灭;
3)频率配置失败后,会在失败点发送cmd04。按功能键后,cmd04的发送将停止,程序继续执行,此时红灯熄灭;
4)频率配置成功后,如果在连续读链过程中出现断链,则会向断链发送cmd04。按功能键后,停止发送,同时红灯熄灭,程序继续执行。
四.典型问题分析
1.E0:1
这类问题是通讯链完全阻塞,大部分是外围电路异常造成的。已知原因有:
1)电源无输出或输出异常。
2)通讯接口连接器的引脚之间锡短路。
3)数据线未插好、接触不良、损坏、短路。
4)通讯接口与第一芯片之间的器件有缺陷,如假焊、短路、烧毁、移位、缺件等。
5)第一芯片IO被静电损坏。
6)晶振异常。
7) 零件丢失。
如果遇到此类问题,则需要根据“V Checklist”完成检查。
2.E0:无
问题是通信链被部分阻塞,并且在第 N 个芯片处被破坏。已知原因有:
1)第N个与第N-1个算力板芯片之间信号异常,两芯片相关引脚虚焊、高电平悬空、短路、IO损坏。
2)第N颗芯片外围器件虚焊、短路、烧毁、移位、缺件等。
修复步骤:
A。检查外围电路;若无异常,则进行下一步。
b. 检查前后各算力板芯片的N及IO引脚对地电阻。如果没有异常,则进行下一步。如果有异常,拆下芯片,比较新芯片的IO对地电阻。同样,如果没有明显差异,请转到下一步。否则,更换芯片。
C。重新焊接N和N-1芯片,若仍不正常则进行下一步。
d. 在其他情况下,需要使用维护专用程序来辅助定位。例如,当软件执行“开始无限发送cmd04”时进行测量。需要用Fluke 17B+万用表测量异常芯片电压 ,并用示波器测量第N和N-1芯片信号。如果第N-1个芯片的输出DO/CS/SCK异常(可以与第N-1个之前的芯片的正常波形进行比较,如果波形不一致,则为异常),则更换第N-1个芯片第 1 个芯片;如果第N个芯片输出异常,则更换第N个芯片。如果第N芯片输出正常,但输入DI异常,则更换第N+1芯片。
3.E6:无
第N芯片电压异常。保养方法:
1)用万用表确认芯片电压是否异常。如果芯片电压过低,则在该级别的三块芯片的测试点测量SCK信号,将SCK频率抖动的芯片与其他不同级别的分压较高的芯片进行比较。如果SCK正常,则将N芯片更换为分压较高的不同级别的芯片。
2) 如果问题出在芯片上,请更换芯片。
4.E7:0
当出现E7:0时,需要通过维护软件定位问题。定位方法与E0相同。测试时间是程序运行到“CRITICAL PLL CONFIGURE ERROR on Board 0 !!! Begin to Check …”时
5.E7:无
表明芯片N无返回,更换芯片。检查方法与E0:N相同。
6.E1:无
第 N 个芯片的核心数较少。如果大面积出现此问题,建议向我们的技术人员报告。如果极少数算力板出现此问题,请更换芯片N。
7.E2
算力板上的核心总数很少。首先检查电路板总电压是否异常(参考E0错误中的方法)。如果没有异常,则需要送至最近的维修中心。
8.E3:无
第 N 个芯片的 Softbist 错误率较高。处理方法与E1:N相同。
9.E4:无
第 N 个芯片 pll 未锁定。检查N-1芯片输出CLK无异常,重新焊接N-1和N芯片。如果还不能解决,则更换N芯片。
10.E5:无
如果第N个芯片温度超标,则更换该芯片。如果大面积出现问题,请检查散热片,如果仍然无法解决,则需要送往就近的维修中心进行维修。
11.E8
整个算力板softbist错误率较高。检测电路板电压和各芯片的CLK是否异常。如果不正常,请更换不正常的芯片。如果没有异常,需要送往就近的维修中心进行维修。
五、清单
此清单供维护参考。
检查项目 | 结果 |
1、过程检验 | |
检查点 1、芯片焊点是否饱满,是否有锡珠。 | |
检查点2. 是否有元件脱落? | |
检查点3.硅脂或导热垫是否覆盖芯片。 | |
2、粘贴前或粘贴后查看测试软件的错误信息 | |
检查点4.正确识别芯片类型。 | |
检查点5.默认频率下读取状态正常(所有芯片频率=60Mhz,Main PLL Lock=1,温度、电压在合理范围内)。 | |
检查点 6. 成功升至工作频率(PLL 频率。) | |
检查点7.工作频率下读取状态正常(所有芯片频率=工作频率/2,Main PLL Lock=1,温度、电压在合理范围内) | |
检查点 8. Soft Bist 错误率在合理范围内(小于 10%)。 | |
检查点9. 测试软件结果打勾。 | |
3. 功率输出 | |
检查点10、电源输出到算力板的电压无异常(具体参见具体型号规格) | |
检查点11、电源输出控制板电压12V±10%。 | |
4、控制信号(算力板上电后测量) | |
检查点12. EN_CORE=3.3V±10% | |
检查点13. RESET=1.8V±10% | |
检查点14. START=1.8V±10% | |
5、算力板芯片电压 | |
检查点15. 总CORE 电压应与电源的输出电压一致。 如果VID设置不合理或设置不生效,会导致工作异常或不稳定。如果VID设置不生效,请检查控制板软硬件程序是否正确。 | |
检查点16.各级IO电压应始终保持1.8V。 各级IO电压始终保持1.8V左右;特殊情况下,IO电压可能低于1.6V。IO引脚老化或损坏,可能导致IO电压异常。 | |
检查点 17. 启动和增加频率时的所有级别 核心电压大于 0.32V,小于 0.6V。 在默认频率下,所有CORE电压电平可能会有很大差异,合理值为0.32V至0.6V。 | |
6. 时钟信号质量 | |
检查点18、晶振输出到第一芯片的时钟为12Mhz±1%,占空比50%,无明显抖动,幅度1.8V±10%。 | |
检查点19.最后一个芯片输出时钟为12Mhz±3%,占空比在30%~70%之间,无显示抖动,幅度1.8V±10%。 | |
检查点20.中间各级芯片的输入时钟为12Mhz±3%,占空比在30%~70%之间,无显示抖动,幅度1.8V±10%。 | |
7. 测量并分析第一个通信信号链断裂的芯片前后的测试点(记为TN)。 | |
检查点21、检查报错芯片以及前后芯片引脚对地电阻是否异常。与其他普通芯片相比。 | |
检查点22. TN-1和TN的CLK均为12Mhz,没有明显的抖动,占空比基本为1:1。 | |
检查点23、维护程序发送命令时,TN-1、TN测试点通讯信号无异常。 可与N-1之前芯片的正常波形进行对比;如果波形不一致则为异常。 |