芯动A4+算力板维修指南

芯动矿机5个月前发布 YKK
1.6K 0 0

在矿机生产和使用过程中,如果用户遇到断链、算力低、硬件故障较多等情况,请参考本手册进行试修。

注:本手册无法涵盖所有​​可能出现的异常问题。如果遇到按照手册无法修复的问题,请查看芯动官网故障排除页面;我们会不定期更新最新内容。

一、概述

1、算力板电路布局及测试点分布

芯动A4+算力板为例;其他型号请参考相关设计文件。

芯动A4+算力板维修指南

1)图中相邻的6个芯片是一个电压域[(1,2,3,4,5,6),…(67,68,69,70,71,72)],共12个电压域,并且每个电压域内的六个芯片的电压相同。启动时各电压域平均电压约为0.45V;

2)图中蓝色箭头表示CLK和通信信号的方向;

3)每两个芯片之间有1-7个测试点。测试点 1 至 7 为 CLK、RST、EN、SCK、CS、DI 和 DO 信号。

具体如下图:

芯动A4+算力板维修指南

4)测试点及前后芯片连接:

芯动A4+算力板维修指南

2.测试软件使用说明

软件使用场合阐明
测试链SMT后贴在散热器前。用于快速检查焊接问题,不做长期功能测试,仅测试所有芯片是否通讯正常。
粘贴前将散热器粘在非芯片侧后。用于在高功率状态下尽快检查单板的各种缺陷。少了一个散热片,芯片的工作频率比正常使用时要低。
粘贴后分箱全部散热片粘贴完毕后。在4个工作电压下进行测试,根据测得的算力文件对单板进行分类。同档位单算力板加载到同一个矿机中。
维修定位单算力板问题。该程序将发送无限量的通信命令,供维护人员使用万用表、示波器检查必要的电路。
老化矿工在出厂前都要经过老化。使用官方出厂固件。如果出现异常,量产管理界面会显示错误代码。

3、贴签前后测试软件错误码列表

如果检测没有问题,则日志末尾打印“√”,否则打印“×”。当检测到问题时,软件会报告优先级最高的错误类型,错误优先级顺序为:E0 > E9 > E6 > E4 > E7 > E5 > E3 > E1 > E2 > E8。该报告可以指导芯片的维护和更换。

错误代码描述评论
E0未找到芯片类型。链条故障。
E1单颗芯片上好的核心数量不到30%。工作频率下的统计。
E2全盘的好分数不足90%。工作频率下的统计。
E3单片机作业测试全错。
E4芯片PLL不锁定。
E5芯片温度异常。软件报告 9999 或 -9999。
E6芯片电压异常。
E7该命令返回错误,或者频率增加失败。“E7:0”表示PLL配置失败。
E8全板作业测试总错误率大于10%。
E9读取芯片数量不正确。
E10(预订的)
E11贴后找不到合适的档位。
E12命令返回 CRC 错误。
E13降压故障。

4. 老化软件错误码列表

序列号问题解决方案注意
1控制板IO故障更换控制板完成后必须恢复出厂设置
2控制板网络故障
3算力板故障更换算力板完成后必须恢复出厂设置或重新老化。
4芯片故障
5个别芯片温度过高
6停电更换电源完成后建议恢复出厂设置或者重新老化。
7通讯信号线干扰使用屏蔽线
8通讯信号线未插好检查并重新插拔通讯信号线
9整机功耗过高重新老化或降频(效率模式)
10环境温度过高改善经营环境
11风扇故障检查风扇电缆连接,检查风扇型号是否匹配,检查风扇安装方向是否正确请参阅文档控制板常见问题解答。
12矿池设置错误检查池设置或恢复出厂设置
13网线未插好检查网线连接
14网络环境故障检查交换机配置,例如 DHCP 和 DNS

 

错误代码描述错误信息分析
0普通的普通的
21未检测到 1 个或多个算力板检测到的算力板数量,如果有多个,以空格分隔通讯信号线未插好/控制板IO故障/算力板故障
22电源通讯错误电源故障/控制板IO故障
23所有算力板安可失败控制板IO故障/电源故障/算力板故障
24部分算力板安可失败encore 正常算力板编号,如果有多个数字以空格分隔算力板故障/控制板IO故障/电源故障
25升级失败算力板编号:错误频点通讯信号线干扰/算力板故障
26设置电压失败算力板数量:1/2通讯信号线干扰/算力板故障
27比斯特失败算力板数量:1/2通讯信号线干扰/算力板故障
28运行时通讯信号错误无法自动恢复算力板数量通讯信号线干扰/算力板故障/控制板IO故障
29运行时I2C通讯故障无法自动恢复电源故障/控制板IO故障
30无法连接矿池矿池设置错误/网线未插好/控制板网络故障/网络环境故障
31单个芯片损坏,导致哈希率膨胀损坏芯片编号:算力板编号;如果有多个,用空格分隔芯片故障
32过温算力板数量环境温度过高/风扇故障/个别芯片温度过高/整机功耗过高
33读取温度失败算力板数量控制板IO故障/算力板故障
34通讯信号线连接异常算力板数量控制板通讯信号口插错/控制板IO故障
35供电不足算力板编号:芯片编号电源故障
36芯片好核数异常vidtype、minertype、子类型、chipnum算力板故障
37控制板视频类型错误算力板故障

二. 保养准备

工具:串口板、数据线、TF卡、跳线帽、示波器、万用表。

芯动A4+算力板维修指南

所需软件:boot.bin、SecureCRT.exe。

1、维护软件使用说明

1)如何使用boot.bin

使用方法:关机后直接复制xxx.bin到TF卡中,将TF卡插入串口板卡槽,将串口板连接到控制板,用跳线帽连接到J2接口,然后打开电源。

2)串口工具说明

电脑上安装串口测试工具,设置波特率:115200、n、8、1。

设置方法如下:

A。双击串口图标,打开如下图所示的串口工具,在红色对话框中点击“新建对话框”。

芯动A4+算力板维修指南

b. 在新建会话向导中选择串行端口协议。

芯动A4+算力板维修指南

C。设置波特率:115200等选项。

芯动A4+算力板维修指南

3)普通软件使用说明

粘贴前和粘贴后的软件

正常软件使用流程如下:

A。将SD卡插入插槽后,检查设备是否正确,然后上电。

b. 上电后打开串口软件检查软件版本信息是否正确。

C。测试过程中,显示​​测试信息并在各个阶段进行提示字符,方便硬件测试和状态监控。

d. 测试结束后,打印测试结果。如果是多链测试,结束后会将测试结果一起打印。

e. 重新测试,直接按控制面板上的Reset按钮或根据提示软件字符按Enter键。

芯动A4+算力板维修指南芯动A4+算力板维修指南

修复软件

A。将SD卡插入插槽后,检查设备是否正确,然后上电。

b. 上电后打开串口软件检查软件版本信息是否正确。

C。测试过程中,各个阶段都会有测试信息显示和LED灯显示,方便硬件测试和状态监控。

d. 软件在运行过程中会不断发送某个固定的指令时刻,可用于测量电压和信号。

e. 测量完成后,按功能键继续向后运行并打印测试结果。

F。重新测试,直接按控制板上的复位键或根据提示软件字符按回车键。

芯动A4+算力板维修指南芯动A4+算力板维修指南芯动A4+算力板维修指南

需要注意的是,维护软件一次只能测试一块电路板。只有按下功能键时对应的指示灯熄灭,才能确保按键成功捕获。

2. 测试环境搭建

芯动A4+算力板维修指南

取出待测试的矿机控制板,将TF卡按如图所示位置分别插入控制板和串口板,将跳线帽插入如图所示接口。用数据线连接串口板和电脑。

三.维修流程

一、整机老化、维护不良的基本过程

1)重现老化不良问题,记录错误代码。

2) 检查故障单板对应的电源输出是否正常。

3)如果是多通道控制的电源,请将电源通道的错误板与正常板对调(注意同时调整数据线接口顺序),观察现象是否与图示一致。算力板或电源。如果跟随电源,则更换并重新老化。

4) 断开电源和网线。检查矿机外部是否有损坏。检查电源线和数据线连接是否松动或断开。

5)使用原装矿机电源和故障算力板,在桶中进行后贴测试,记录错误码和日志。

6)使用原装矿机电源和故障算力板贴在桶外后进行测试,看现象是否仍然存在并做好记录。如果芯片表面是用螺丝固定的散热片,则拆下芯片表面的散热片进行测试,看现象是否仍然存在,并做好记录。

7)继续分析单块算力板缺陷修复流程。

2、单算力板缺陷修复基本流程

维护前请确认电源、控制板及各种电缆连接正确。

1)使用预粘测试软件进行测试,得到错误代码Ex:x。对于不同类型的错误,可以采取不同的后续步骤。

2)检查算力板外观,是否有缺件、错误、外观异常等情况。例如,检查错误芯片附近是否有焊球、异物等。

3) 运行维护程序并使用 Fluke 15B+ 万用表检查输入电压。检查晶振电源。检查尾部IO升压电路。最后,检查各级LDO输出。

4)用示波器检查芯片输入输出信号CLK、SCK、DO、DI、CS、RSTN、START。

5)如果发现算力板芯片输出信号异常,不要轻易更换。首先,尝试添加焊接、重新焊接以及与该算力板上的其他芯片交换。

6)如果采用芯片交换法,可以观察问题是否出在芯片上。

7)以上方法无效后,更换芯片。

3.特殊维护程序定位断链位置

将提供的repair.bin复制到TF卡中,插入串口板。连接电源和数据线(无需风扇),然后上电。配合贴前或贴后的软件错误信息,测量相关芯片及其相邻芯片点的测试。

维护软件中功能键及指示灯说明。

1)上电控制板上灯亮(复位按钮旁边红绿灯亮);如果上电链断了,会一直发送cmd04;按USB卡槽旁边的功能键后,停止发送cmd04,程序继续执行,此时绿灯灭;

2)如果上电链已连接,则继续发送cmd04。同功能键按下后,停止发送cmd04,绿灯灭;

3)频率配置失败后,会在失败点发送cmd04。按功能键后,cmd04的发送将停止,程序继续执行,此时红灯熄灭;

4)频率配置成功后,如果在连续读链过程中出现断链,则会向断链发送cmd04。按功能键后,停止发送,同时红灯熄灭,程序继续执行。

四.典型问题分析

1.E0:1

这类问题是通讯链完全阻塞,大部分是外围电路异常造成的。已知原因有:

1)电源无输出或输出异常。

2)通讯接口连接器的引脚之间锡短路。

3)数据线未插好、接触不良、损坏、短路。

4)通讯接口与第一芯片之间的器件有缺陷,如假焊、短路、烧毁、移位、缺件等。

5)第一芯片IO被静电损坏。

6)晶振异常。

7) 零件丢失。

如果遇到此类问题,则需要根据“V Checklist”完成检查。

2.E0:无

问题是通信链被部分阻塞,并且在第 N 个芯片处被破坏。已知原因有:

1)第N个与第N-1个算力板芯片之间信号异常,两芯片相关引脚虚焊、高电平悬空、短路、IO损坏。

2)第N颗芯片外围器件虚焊、短路、烧毁、移位、缺件等。

修复步骤:

A。检查外围电路;若无异常,则进行下一步。

b. 检查前后各算力板芯片的N及IO引脚对地电阻。如果没有异常,则进行下一步。如果有异常,拆下芯片,比较新芯片的IO对地电阻。同样,如果没有明显差异,请转到下一步。否则,更换芯片。

C。重新焊接N和N-1芯片,若仍不正常则进行下一步。

d. 在其他情况下,需要使用维护专用程序来辅助定位。例如,当软件执行“开始无限发送cmd04”时进行测量。需要用Fluke 17B+万用表测量异常芯片电压 ,并用示波器测量第N和N-1芯片信号。如果第N-1个芯片的输出DO/CS/SCK异常(可以与第N-1个之前的芯片的正常波形进行比较,如果波形不一致,则为异常),则更换第N-1个芯片第 1 个芯片;如果第N个芯片输出异常,则更换第N个芯片。如果第N芯片输出正常,但输入DI异常,则更换第N+1芯片。

芯动A4+算力板维修指南

3.E6:无

第N芯片电压异常。保养方法:

1)用万用表确认芯片电压是否异常。如果芯片电压过低,则在该级别的三块芯片的测试点测量SCK信号,将SCK频率抖动的芯片与其他不同级别的分压较高的芯片进行比较。如果SCK正常,则将N芯片更换为分压较高的不同级别的芯片。

2) 如果问题出在芯片上,请更换芯片。

4.E7:0

当出现E7:0时,需要通过维护软件定位问题。定位方法与E0相同。测试时间是程序运行到“CR​​ITICAL PLL CONFIGURE ERROR on Board 0 !!! Begin to Check …”时

5.E7:无

表明芯片N无返回,更换芯片。检查方法与E0:N相同。

6.E1:无

第 N 个芯片的核心数较少。如果大面积出现此问题,建议向我们的技术人员报告。如果极少数算力板出现此问题,请更换芯片N。

7.E2

算力板上的核心总数很少。首先检查电路板总电压是否异常(参考E0错误中的方法)。如果没有异常,则需要送至最近的维修中心。

8.E3:无

第 N 个芯片的 Softbist 错误率较高。处理方法与E1:N相同。

9.E4:无

第 N 个芯片 pll 未锁定。检查N-1芯片输出CLK无异常,重新焊接N-1和N芯片。如果还不能解决,则更换N芯片。

10.E5:无

如果第N个芯片温度超标,则更换该芯片。如果大面积出现问题,请检查散热片,如果仍然无法解决,则需要送往就近的维修中心进行维修。

11.E8

整个算力板softbist错误率较高。检测电路板电压和各芯片的CLK是否异常。如果不正常,请更换不正常的芯片。如果没有异常,需要送往就近的维修中心进行维修。

五、清单

此清单供维护参考。

检查项目结果
1、过程检验
检查点 1、芯片焊点是否饱满,是否有锡珠。
检查点2. 是否有元件脱落?
检查点3.硅脂或导热垫是否覆盖芯片。
2、粘贴前或粘贴后查看测试软件的错误信息
检查点4.正确识别芯片类型。
检查点5.默认频率下读取状态正常(所有芯片频率=60Mhz,Main PLL Lock=1,温度、电压在合理范围内)。
检查点 6. 成功升至工作频率(PLL 频率。)
检查点7.工作频率下读取状态正常(所有芯片频率=工作频率/2,Main PLL Lock=1,温度、电压在合理范围内)
检查点 8. Soft Bist 错误率在合理范围内(小于 10%)。
检查点9. 测试软件结果打勾。
3. 功率输出
检查点10、电源输出到算力板的电压无异常(具体参见具体型号规格)
检查点11、电源输出控制板电压12V±10%。
4、控制信号(算力板上电后测量)
检查点12. EN_CORE=3.3V±10%
检查点13. RESET=1.8V±10%
检查点14. START=1.8V±10%
5、算力板芯片电压
检查点15. 总CORE 电压应与电源的输出电压一致。

如果VID设置不合理或设置不生效,会导致工作异常或不稳定。如果VID设置不生效,请检查控制板软硬件程序是否正确。

检查点16.各级IO电压应始终保持1.8V。

各级IO电压始终保持1.8V左右;特殊情况下,IO电压可能低于1.6V。IO引脚老化或损坏,可能导致IO电压异常。

检查点 17. 启动和增加频率时的所有级别 核心电压大于 0.32V,小于 0.6V。

在默认频率下,所有CORE电压电平可能会有很大差异,合理值为0.32V至0.6V。

6. 时钟信号质量
检查点18、晶振输出到第一芯片的时钟为12Mhz±1%,占空比50%,无明显抖动,幅度1.8V±10%。
检查点19.最后一个芯片输出时钟为12Mhz±3%,占空比在30%~70%之间,无显示抖动,幅度1.8V±10%。
检查点20.中间各级芯片的输入时钟为12Mhz±3%,占空比在30%~70%之间,无显示抖动,幅度1.8V±10%。
7. 测量并分析第一个通信信号链断裂的芯片前后的测试点(记为TN)。
检查点21、检查报错芯片以及前后芯片引脚对地电阻是否异常。与其他普通芯片相比。
检查点22. TN-1和TN的CLK均为12Mhz,没有明显的抖动,占空比基本为1:1。
检查点23、维护程序发送命令时,TN-1、TN测试点通讯信号无异常。

可与N-1之前芯片的正常波形进行对比;如果波形不一致则为异常。

© 版权声明

相关文章

暂无评论

暂无评论...