故障現(xiàn)象
中興通訊在進(jìn)行FOA壓力測試期間,上午10:05有少量用戶反饋語音呼叫失敗。
故障分析
1.10:05 接到客戶反饋主叫無法呼出,被叫無法接聽。
2.10:31 現(xiàn)場對(duì)SMF和AMF指標(biāo)進(jìn)行分析,未發(fā)現(xiàn)異常。
3.10:46 在SMF上去活用戶,用戶語音業(yè)務(wù)恢復(fù)正常。
4.10:52 通過對(duì)投訴用戶號(hào)碼跟蹤分析,投訴用戶都在UPF006上,分析可能是UPF006出現(xiàn)異常,緊急將UPF006隔離,隔離后未再收到批量用戶投訴。
5.14:27 進(jìn)一步分析系統(tǒng)日志和數(shù)據(jù)配置,判斷是UPF006地址段路由問題。
6.統(tǒng)計(jì)UPF上失敗日志,出現(xiàn)了大量IPv6地址展開時(shí),同步UE地址段表失敗記錄,如下圖所示。
7.分析該失敗日志:a.trieTblAddUserIpSegV6:共有30725個(gè)IPv6展開地址段。b.trieTblAddUserIpSegV6Fail:有2043個(gè)IPv6地址段展開失敗。
8.檢查系統(tǒng)配置發(fā)現(xiàn),系統(tǒng)后臺(tái)配置IPv6拆分步長為“LONGLONG”,即步長為16384,如下圖所示。
9.核心網(wǎng)地址步長的拆分方式為:a.UPF根據(jù)配置的地址段,按照展開步長將配置的地址拆分成小段。b.SMF負(fù)責(zé)用戶地址的分配,當(dāng)選擇到一個(gè)從未分配過的新號(hào)段時(shí),會(huì)以遞增的方式先進(jìn)行分配。會(huì)話釋放后地址回收到隊(duì)列中,當(dāng)此號(hào)段所有地址全被分配完,會(huì)從隊(duì)列內(nèi)按序取出空閑地址繼續(xù)分配。
10.經(jīng)查詢,現(xiàn)場BGP路由條目確認(rèn)實(shí)際展開的IPv6地址步長是以1024拆分步長分段,此為默認(rèn)步長,與后臺(tái)配置不一致。
11.根據(jù)配置要求,當(dāng)?shù)刂房偭看笥?0萬時(shí)需要修改配置為“LONGLONG”,即步長為16384。
12.通過如下命令設(shè)置,此命令需在執(zhí)行后整局重啟生效:SET SPLITLEN:SPLITSWITCH="ENABLE",IPV6SPLITLENGTH="LONGLONG";
13.查看UPF操作日志,2022/1/14 16:34:23修改了該配置之后,未進(jìn)行全局復(fù)位操作,如下圖所示。
14.綜上分析,此故障發(fā)生原因?yàn)椋号渲眯薷牧说刂范尾鸱植介L,但是未進(jìn)行全局復(fù)位,導(dǎo)致了系統(tǒng)內(nèi)部的IPV6_UEIP地址步段拆分存在部分失效。
15.用戶上線附著后,IPV6_UEIP由SMF進(jìn)行分配,SMF會(huì)根據(jù)已配置號(hào)段遞增方式分配給UPF。當(dāng)遞增分配到無效的UEIP地址段時(shí),UPF收到此UEIP媒體下行報(bào)文會(huì)因查詢不到地址段表,對(duì)報(bào)文進(jìn)行丟棄處理。
16.本次割接用戶批量上線后,一旦用戶使用了無效地址段時(shí)會(huì)導(dǎo)致語音業(yè)務(wù)媒體面下行報(bào)文不通,語音業(yè)務(wù)受到影響。
故障處理
1.優(yōu)雅卸載UPF006在線用戶。2.復(fù)位UPF006系統(tǒng),使地址段表按當(dāng)前配置生效。3.對(duì)UPF006系統(tǒng)進(jìn)行巡檢。4.調(diào)整SMF選U權(quán)重,壓力測試用戶重新指向UPF006。