AI手語翻譯數據標注賦能無障礙信息建設
申報單位:長沙千博信息技術有限公司、湖南省馬欄山計算媒體研究院
推薦單位:湖南省數據局
一、案例簡介
為解決全國2780萬聽障人群在教育、就業、辦事等多領域存在的信息獲取障礙,技術團隊在國家通用手語等相關標準尚不完善,缺乏漢語、手語雙語翻譯專業人員的背景下,長沙千博信息技術有限公司等單位采取以點帶面的線上推廣方式組建了超750人標注團隊,并利用數據增強模擬出更多樣化的訓練樣本,有效解決了數據難以獲取的問題。通過自研采集/審核平臺將數據采集成本降低50%,時間縮短80%。手語翻譯模型落地近千家機構應用,市場占有率達90%。
整體框架
二、舉措與成效
一是采用數據增強的技術手段,解決了人工標注數據短時間內獲取難的問題。在生成式大模型(AIGC)的基礎上,用已有數據引導生成符合訓練標準的視頻和文字數據,彌補了訓練數據50%的缺口,大大減少了模型訓練對人工標注數據的依賴。
二是自研標注平臺,不斷迭代標注模式。技術團隊根據標注需求自研標注平臺系統,并逐步將手語翻譯模型階段性成果引入平臺,使數據為模型訓練服務,模型訓練成果為提升標注效率服務。相比純人工翻譯標注,提升了150%的標注效率。
三是針對特殊群體打造個性化人才隊伍建設模式。針對手語、漢語雙語熟練人才稀缺、分散等問題,建立了院校、聾協等團體為單位統一召集的模式。采取聾人群體更加適應的師徒制,實現標注人才培訓上崗平均耗時縮短50%。
三、特色亮點
一是基于數據集訓練出的漢語-手語雙向互譯模型應用覆蓋全國絕大部分地區。目前手語播報系統已在全國30個省超500家融媒體中心應用;公共服務產品已在上海嘉定等地近百家公共服務機構應用,網頁手語已在近百個政府網站完成示范標桿建設。
二是漢語手語翻譯支撐數據集種類豐富。建成手語詞匯庫、詞素庫,通用手語視頻庫,自然手語(方言)數據庫等。訓練語料已積累漢語到手語翻譯千萬字級(句對),手語到漢語識別80萬條(視頻),為打造手語AI系列產品奠定堅實的基礎,也為手語語言學研究積累了豐富的資料。同時形成的各類手語數據標準,可為健全國家、行業手語相關標準提供支撐。
三是建立專業手語標注人才庫。在高質量聽人手語翻譯稀缺,高文化水平、較高漢語理解能力聾人稀少的背景下,技術團隊集聚了全國各特校、高校、社會聾人、手語愛好者等熟悉漢語、手語的采集員超750人。該標注團隊是中國手語語言學研究的重要力量,也是支持中國手語翻譯技術出海,進行國際化布局的后備力量。