通信世界網(wǎng)消息(CWW)生成式AI與智能手機(jī)的深度融合引發(fā)了多模態(tài)交互場景的爆發(fā),導(dǎo)致終端功能檢測的復(fù)雜性與狀態(tài)不確定性激增[1]。傳統(tǒng)腳本回放方案難以應(yīng)對動(dòng)態(tài)彈窗、跨系統(tǒng)協(xié)同等復(fù)雜邏輯,導(dǎo)致約30%的場景仍需要人工干預(yù),測試效率與一致性瓶頸凸顯。
與此同時(shí),智能流程自動(dòng)化(Intelligent Process Automation,IPA)融合計(jì)算機(jī)視覺、自然語言處理等技術(shù),在財(cái)務(wù)、審計(jì)等領(lǐng)域已展現(xiàn)出處理非結(jié)構(gòu)化數(shù)據(jù)與支持復(fù)雜決策的能力[2]。然而,目前IPA研究對具備多模態(tài)感知、實(shí)時(shí)交互與跨系統(tǒng)協(xié)同特征的手機(jī)測試場景關(guān)注不足[3]。本文首次系統(tǒng)性探索將IPA框架引入手機(jī)檢測領(lǐng)域,旨在實(shí)現(xiàn)“智能識別—?jiǎng)討B(tài)決策—自動(dòng)執(zhí)行”的閉環(huán)。
感知層:集成YOLOv11(一種目標(biāo)檢測算法)與OCR(光學(xué)字符識別技術(shù)),實(shí)現(xiàn)PC與移動(dòng)端彈窗的統(tǒng)一目標(biāo)檢測與文本識別。
決策層:通過關(guān)鍵語義提取與模糊匹配,將測試需求映射為原子化動(dòng)作序列,以提升腳本在動(dòng)態(tài)環(huán)境中的穩(wěn)健性。
執(zhí)行層:結(jié)合ADB(安卓調(diào)試橋)與視覺驅(qū)動(dòng)RPA(機(jī)器人流程自動(dòng)化),實(shí)現(xiàn)跨系統(tǒng)端到端協(xié)同控制。
實(shí)踐表明,在無線緊急警報(bào)(WEA)等復(fù)雜場景下,該方法使測試效率提升超50%,并支持多終端一致性無人值守測試,為AI時(shí)代智能終端的自動(dòng)化檢測提供了高效的技術(shù)方案。
1 相關(guān)領(lǐng)域現(xiàn)狀
IPA作為RPA智能化演進(jìn)的成果,通過集成機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(CV)與自然語言處理(NLP)技術(shù),實(shí)現(xiàn)了從“基于規(guī)則”向“數(shù)據(jù)驅(qū)動(dòng)決策”的范式轉(zhuǎn)型[2]。雖然在金融、制造及網(wǎng)絡(luò)運(yùn)維等領(lǐng)域,IPA處理非結(jié)構(gòu)化數(shù)據(jù)與復(fù)雜業(yè)務(wù)的能力得到驗(yàn)證[1,2],但在手機(jī)測試這類界面變更頻繁、數(shù)據(jù)形態(tài)復(fù)雜,以及流程因操作反饋或系統(tǒng)狀態(tài)不同而存在多種可能路徑的場景中應(yīng)用尚淺。
在技術(shù)并行層面,基于YOLO與OCR的視覺感知技術(shù)有效提升了移動(dòng)端UI檢測的魯棒性[1,4];與此同時(shí),基于大模型構(gòu)建、以Trident為代表的多模態(tài)框架,在GUI自動(dòng)化探索方面取得了顯著進(jìn)展[5]。然而,現(xiàn)有研究仍存在以下局限性:首先是協(xié)同缺失,多聚焦單端App或特定目標(biāo)識別,缺乏PC測試平臺與移動(dòng)終端之間的跨系統(tǒng)協(xié)同控制;其次是映射斷層,難以實(shí)現(xiàn)復(fù)雜測試規(guī)程與彈窗語義之間的深度映射;最后是閉環(huán)能力不足,尚未形成系統(tǒng)性的端到端自動(dòng)化流程。
綜上所述,雖然IPA的有效性及多模態(tài)技術(shù)的感知能力已得到驗(yàn)證[1,2,5],但將IPA的“感知—決策—執(zhí)行”閉環(huán)能力系統(tǒng)性引入手機(jī)檢測領(lǐng)域的研究仍是空白。本文以此為切入點(diǎn),旨在探索能夠應(yīng)對高復(fù)雜度多模態(tài)交互的智能化測試方案。
2 多模態(tài)IPA手機(jī)檢測平臺架構(gòu)與模塊設(shè)計(jì)
本文在IPA思路的基礎(chǔ)上,構(gòu)建了面向手機(jī)檢測的多模態(tài)動(dòng)態(tài)閉環(huán)架構(gòu),整體由感知層、決策層和執(zhí)行層三部分組成,如圖1所示。系統(tǒng)通過“智能識別—?jiǎng)討B(tài)決策—自動(dòng)執(zhí)行”的閉環(huán)控制,將傳統(tǒng)腳本驅(qū)動(dòng)的靜態(tài)自動(dòng)化測試升級為可應(yīng)對復(fù)雜場景的智能自動(dòng)化測試。
![]()
圖1 多模態(tài)IPA手機(jī)檢測平臺架構(gòu)
2.1感知模塊設(shè)計(jì)
感知模塊作為IPA平臺的底層支撐,可實(shí)現(xiàn)跨終端界面的高魯棒性統(tǒng)一感知。
彈窗目標(biāo)檢測:為適配測試過程中頻繁出現(xiàn)的各類彈窗提示,本文利用 YOLOv11構(gòu)建檢測模型,針對PC與手機(jī)端異構(gòu)界面(不同分辨率及風(fēng)格)進(jìn)行實(shí)時(shí)掃描,實(shí)現(xiàn)彈窗區(qū)域的精確回歸與定位,為后續(xù)分析鎖定感興趣區(qū)(ROI)。
文本與圖標(biāo)語義解析:在獲得彈窗區(qū)域后,集成PaddleOCR并融合空間拓?fù)涮卣鳎瑢OI內(nèi)的文本與功能圖標(biāo)進(jìn)行分塊提取。
2.2 決策模塊設(shè)計(jì)
決策模塊的任務(wù)是將感知結(jié)果映射為具體測試任務(wù)和操作意圖。該模塊首先將復(fù)雜的測試規(guī)程解構(gòu)為文本校驗(yàn)、圖標(biāo)匹配及屏幕交互等原子化任務(wù)。針對異構(gòu)系統(tǒng)版本差異、多語言環(huán)境下提示語的不規(guī)范,該模塊引入了基于萊文斯坦距離(Levenshtein Distance)的模糊匹配機(jī)制,通過度量感知文本與預(yù)期規(guī)程之間的語義相似度,實(shí)現(xiàn)操作意圖的精準(zhǔn)判定。這種機(jī)制有效解決了傳統(tǒng)腳本依賴固定字符匹配的問題,顯著增強(qiáng)了系統(tǒng)在語義表述差異場景下的自適應(yīng)性與決策魯棒性,實(shí)現(xiàn)了復(fù)雜測試路徑的閉環(huán)。
2.3 執(zhí)行模塊與原子動(dòng)作庫
執(zhí)行模塊旨在將高層決策意圖轉(zhuǎn)化為針對終端及環(huán)境的具體物理操作,是實(shí)現(xiàn)端到端自動(dòng)化的關(guān)鍵一環(huán)。
原子動(dòng)作庫設(shè)計(jì):針對屏幕交互、系統(tǒng)設(shè)置(如飛行模式、時(shí)鐘同步)及多模態(tài)通信等底層規(guī)程,構(gòu)建標(biāo)準(zhǔn)化原子動(dòng)作集。通過將復(fù)雜操作解構(gòu)為參數(shù)化、可調(diào)用的獨(dú)立函數(shù)接口,確保執(zhí)行層對異構(gòu)終端的高效驅(qū)動(dòng)與高度適配。
低代碼封裝與流程編排:遵循IPA架構(gòu)理念,將原子動(dòng)作進(jìn)一步封裝為高階邏輯組件。系統(tǒng)可依據(jù)決策模塊輸出的指令序列,通過動(dòng)作庫的自動(dòng)化組合與流程編排,實(shí)現(xiàn)測試路徑的動(dòng)態(tài)構(gòu)建。
3 IPA手機(jī)檢測方法的實(shí)現(xiàn)細(xì)節(jié)
基于IPA架構(gòu)的多模態(tài)測試平臺以無線緊急警報(bào)場景為牽引,實(shí)現(xiàn)了“用例管理—界面感知—決策路由—閉環(huán)執(zhí)行”的自動(dòng)化流水線。
3.1 彈窗檢測模型設(shè)計(jì)與訓(xùn)練
為兼顧檢測精度與實(shí)時(shí)性,感知層采用輕量化YOLOv11n網(wǎng)絡(luò),采集并人工標(biāo)注涵蓋PC與移動(dòng)端的1000個(gè)異構(gòu)彈窗樣本,在RTX 3060硬件環(huán)境下進(jìn)行300輪次迭代(Batch Size=64),模型實(shí)現(xiàn)了對多分辨率、多風(fēng)格彈窗區(qū)域的精準(zhǔn)回歸。
3.2 文字識別與關(guān)鍵語義提取算法
語義解析的準(zhǔn)確性直接影響決策邏輯的穩(wěn)健性,針對YOLO返回的檢測框,通過對彈窗內(nèi)關(guān)鍵元素(如警告文本、交互按鈕)的空間分布統(tǒng)計(jì),引入比例分割算法進(jìn)行區(qū)域預(yù)處理。該算法有效解決了異構(gòu)界面下的內(nèi)容偏移問題,配合OCR顯著提升了關(guān)鍵語義的識別精度,為后續(xù)決策路由提供了高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)支撐。
將目標(biāo)區(qū)域分割成上、中、下三部分之后(如圖2所示),即可對內(nèi)容進(jìn)行分塊提取。其中,中間區(qū)域的內(nèi)容主要用于提取操作的關(guān)鍵提示詞;下面區(qū)域的內(nèi)容主要用于提取按鈕所在的位置,以便后續(xù)的點(diǎn)擊操作。所有提取的信息均須進(jìn)行統(tǒng)一的大小寫格式轉(zhuǎn)換,以免因格式差異導(dǎo)致匹配錯(cuò)誤,進(jìn)而影響執(zhí)行準(zhǔn)確率。
![]()
圖2目標(biāo)區(qū)域分割結(jié)果
3.3 基于萊文斯坦距離的模糊匹配策略
針對OCR識別噪聲及多版本語境下的“語義漂移”問題,本文引入萊文斯坦距離構(gòu)建模糊匹配機(jī)制,即通過計(jì)算感知文本與標(biāo)準(zhǔn)詞條間的歸一化相似度,實(shí)現(xiàn)測試意圖的語義對齊。該策略彌補(bǔ)了精確匹配規(guī)則的脆弱性,顯著增強(qiáng)了系統(tǒng)在非結(jié)構(gòu)化提示語環(huán)境下的決策魯棒性。
3.4原子動(dòng)作庫的設(shè)計(jì)與執(zhí)行流程實(shí)現(xiàn)
原子動(dòng)作庫將復(fù)雜規(guī)程解構(gòu)為ADB指令、內(nèi)容校驗(yàn)及點(diǎn)擊執(zhí)行子庫,通過封裝ADB底層驅(qū)動(dòng),實(shí)現(xiàn)主機(jī)對終端狀態(tài)切換(如飛行模式、時(shí)鐘同步)及多模態(tài)交互的自主控制。該設(shè)計(jì)實(shí)現(xiàn)了業(yè)務(wù)邏輯與底層驅(qū)動(dòng)的深度解耦,顯著提升了測試執(zhí)行效能與系統(tǒng)的跨平臺適配力。
4實(shí)驗(yàn)設(shè)計(jì)與效果驗(yàn)證
本研究選取10個(gè)典型用例,構(gòu)建PC與移動(dòng)端耦合的測試環(huán)境。通過50輪蒙特卡羅實(shí)驗(yàn),從執(zhí)行效能、跨終端穩(wěn)健性及故障檢出率三個(gè)維度,量化對比IPA與人工測試的性能差異,系統(tǒng)驗(yàn)證了該方案的工程可行性與可靠性。
由圖3可知,IPA系統(tǒng)能夠快速向手機(jī)端發(fā)送相關(guān)指令,自動(dòng)完成測試信息比對,全程無需人工干預(yù),相比人工操作測試效率提升了約50%。此外,IPA系統(tǒng)還可在夜間自動(dòng)執(zhí)行測試任務(wù),因此在測試效率上具有顯著優(yōu)勢。
![]()
圖3 終端測試工作時(shí)間對比
表1為不同被測終端測試效果對比,表2為部分測試用例執(zhí)行結(jié)果清單。綜合分析結(jié)果表明,該系統(tǒng)在異構(gòu)終端測試中表現(xiàn)出優(yōu)異的泛化性。故障注入實(shí)驗(yàn)證實(shí),系統(tǒng)能精準(zhǔn)識別所有異常樣本,具備高可靠的錯(cuò)誤檢出能力與決策穩(wěn)健性,實(shí)現(xiàn)了復(fù)雜規(guī)程下的閉環(huán)自動(dòng)化檢測。
表1不同被測終端測試效果對比
![]()
表2 部分測試用例執(zhí)行結(jié)果清單
![]()
5 結(jié)束語
本文旨在探索構(gòu)建集成人工智能視覺、原子動(dòng)作庫技術(shù)的IPA自動(dòng)化測試平臺,并在實(shí)際測試環(huán)境中檢驗(yàn)了所提方法的有效性和可靠性。未來,筆者將根據(jù)實(shí)際測試需求,進(jìn)一步完善和優(yōu)化測試平臺功能,并探索大模型等先進(jìn)人工智能技術(shù)在手機(jī)測試自動(dòng)化領(lǐng)域的應(yīng)用。
參考文獻(xiàn)
[1] 周映. 基于RPA技術(shù)的網(wǎng)絡(luò)安全運(yùn)營自動(dòng)化實(shí)踐應(yīng)用研究[J]. 電信科學(xué), 2024, 40(7): 164-174.
[2] 劉勤. 智能財(cái)務(wù)之流程自動(dòng)化變革:從RPA到IPA. 財(cái)會(huì)月刊[J], 2024(9): 33-40.
[3] 霍麗霞. 基于圖像內(nèi)容識別的移動(dòng)應(yīng)用智能檢測系統(tǒng)[J]. 警察技術(shù), 2025(1): 61-64.
[4] Anilkumar C, Rani M S, Venkatesh B, et al. Automated License Plate Recognition for Non-Helmeted Motor Riders Using YOLO and OCR[J]. Journal of Mobile Multimedia, 2024(9): 239-265.
[5] Liu Z, Li C, Chen C Y, et al. Vision-driven Automated Mobile GUI Testing via Multimodal Large Language Model[EB/OL]. (2024-07-03) [2025-11-20]. https://arxiv.org/abs/2407.03037.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.