• 前沿技術

    TECHNOLOGY

    首頁 - 前沿技術 - 人工智能 -

    AI預訓練模型在智慧政務中的實踐

     

    一、智慧政務背景與挑戰

    1、智慧政務發展背景

    智慧政務是指采用人工智能等前沿技術,通過流程創新,整合跨部門資源,提升政府高效履職、便捷服務、智慧決策的社會治理能力,為公眾、企業及政府部門自身提供智慧化的政務服務。

     

    最新發布的“中華人民共和國國民經濟和社會發展第十四個五年規劃和2035年遠景目標綱要”指出,要大力發展人工智能、云計算、大數據、物聯網等重點產業,以及智慧政務、智能交通、智慧教育、智慧醫療等數字化應用場景,加快建設數字社會和數字政府。在智慧政務領域,“綱要”提出:推進政務服務一網通辦,推廣應用電子證照、電子合同、電子簽章、電子發票、電子檔案,健全政務服務評價體系。

     

    2、智慧政務發展挑戰

    政務信息化通過多年的發展演進,各級政務部門先后建設了信息系統,有部分的部門還建設了數據中心,收集了大量的數據。但現有系統大多是解決部門內的業務問題,數據中心也僅限于數據收集和統計,并沒有進行有效的數據挖掘,數據價值未能得到有效利用。

    政務業務系統數據有明顯的垂直領域特征,比如非結構化數據多、數據價值密度高、數據行文規范正式,但缺乏高質量的標注數據、缺少挖掘提煉。要在部門內部、跨部門,以及為公眾用戶提供高質量的數據服務,核心的問題之一是如何運用人工智能前沿技術,深入挖掘數據中的高價值信息。

     

    人工智能領域在語音、視頻等感知智能上發展迅速,但在以自然語言處理為核心的認知智能方面進展緩慢,難以有效支撐高質量的政務數據理解,形成有價值的數據,為政務應用賦能。近兩年,以預訓練語言模型為代表的人工智能語義分析技術得到了快速發展,為有效挖掘和提煉數據價值提供了基礎。

     

    二、AI預訓練模型發展

    1、AI預訓練模型概述

    隨著深度學習的發展,包括卷積神經網絡、循環神經網絡、注意力機制在內的各種神經網絡應用于語義分析的研究如火如荼,但由于語義分析任務的數據集不足以支撐將網絡做深,無法將參數擴大,難以發揮具有深度神經網絡網絡深度和海量參數的表示能力,在實際應用中泛化效果不佳。

     

    近幾年的研究表明,在大型語料庫上進行訓練的模型可以學習到基礎或者通用的語言知識表示,對后續的語義分析任務大為有益。這樣既能避免神經網絡在小數據上的過擬合的問題,也能避免每次從頭開始訓練新模型。

     

    預訓練模型(Pre-training mode)是指使用海量通用的文本語料進行無監督訓練得到的語言模型。后續的語義分析任務包括分類、相似度計算、問答、糾錯、摘要等任務可以基于預訓練模型,結合領域數據進行調優(Fine-tuning)。

     

    2、AI預訓練模型發展階段

     

    AI預訓練模型經歷了兩個階段的發展:

     

    第一個階段,預訓練模型以詞嵌入(Word2Vec)技術為代表,通過設計模型,訓練學習獲得文本的語義向量表示。下游任務使用語義向量表示輸入數據,選擇合適的算法完成具體的分析任務。本階段詞嵌入表示的語義是上下文無關的,在深層的語義計算和應用效果依然有限。

     

    第二個階段,預訓練模型不僅學習上下文相關的詞嵌入,還學習包括語義關系、句子關系、問答等基礎模型。在下游任務中,這些模型既能提供文本語義向量表示,還能利用下游任務的數據進行調優。本階段以雙向編碼表示預訓練模型BERT為代表,包括ELOM,GPT,BERT等。

     

    ELMO

     

    ELMO(Embedding from Language Model)。ELMO采用雙向循環神經網絡特征抽取架構,將每一個單詞對應兩個隱藏狀態,進行拼接得到單詞的Embedding表示。在不同的上下文得到與上下文匹配的動態詞語義向量,比Word2Vec靜態語義向量有了不小的進步。

     

    GPT

     

    GPT(Generative Pre-Training)。GPT是生成式預訓練模型,采用的訓練方法分為兩步,第一步利用無標簽的文本數據集訓練語言模型,第二步是根據具體的下游任務,包括問答,文本分類等對模型進行微調。GPT繼續采用單向的Transformer特征獲取架構進行訓練,使用文本的上文來表達文本語義。

     

    BERT

     

    BERT(Bidirectional Encoder Representations from Transformers)。BERT的結構如下圖示,采用雙向、基于注意力機制的多層Transformer編碼特征抽取和預訓練+調優兩階段架構。

     

    圖1:Bert預訓練+調優兩階段架構

     

    BERT的訓練包括兩個任務,第一個任務是掩碼語言模型,隨機把一些字符掩碼,通過預測掩碼字符來訓練模型;第二個任務是將兩個句子拼接送入BERT模型,通過預測這兩個句子的順序關系進行訓練。這樣BERT在訓練過程中不僅學習到了雙向文本語義表示,還能學習到下游任務的基礎模型。

     

    總結來看,ELMO,GPT,BERT在編碼器、訓練方法、特征捕獲能力不同,在實際的語義理解和分析應用中BERT具有非常大的優勢。

     

    BERT預訓練模型

     

    BERT預訓練模型因為其應用優勢,迅速發展成為模型家族,包括ERNIE,RoBerta,UniLM,Albert等典型變種。

     

    ERNIE

     

    ERNIE是通過集成外部知識來提升模型表達能力。ERNIE有兩條路徑,第一條路徑是通過掩蓋掉整個詞語而非字符來提升語義表達能力,稱為Enhanced Representation through Knowledge Integration。第二條路徑則引入了基于知識圖譜的語言常識信息,以提升模型的常識理解能力,稱為Enhanced Language Representation with Informative Entities。

     

    RoBERTa

     

    RoBERTa(A Robustly Optimized BERT Pre-training Approach)采用了更大的模型參數、更多的訓練數據、更大的批次數據量,在訓練方法上采用動態掩碼的方法,每次向模型輸入樣本都會生成新的掩碼模式,在大量數據不斷輸入的過程中,模型會逐漸適應不同的掩碼策略,學習不同的語言表征,更容易泛化。

     

    UniLM

     

    UniLM(Unified Language Model Pre-training for Natural Language Understanding and Generation)通過改進模型訓練方法,通過擴展使模型同時具備自然語言理解和自然語言生成的統一預訓練模型。

     

    Albert

     

    Albert(A Lite BERT)是輕量級的BERT模型。Albert通過矩陣分解技術對編碼部分處理,大幅降低編碼部分的參數量。通過參數共享減小提升訓練速度;并將下一句預測任務調整為句子順序預測任務,以便更好的學習句間語義關系。

     

    三、AI預訓練模型在行業的落地流程

     

    AI在行業落地,首先是對業務需求的梳理和理解,總結語義分析的需求和業務數據現狀;其次是根據業務要求進行語義方案的技術選型和建模;最后按業務應用要求集成應用、評估、改進,形成閉環。如下圖示:

     

    圖2:行業應用落地流程

     

    需求理解和分解

     

    根據行業應用對業務流程智能輔助、知識抽取、信息服務等各方面進行需求梳理,將業務需求分解為語義分析任務,包括分類,聚類、查重,摘要,糾錯,抽取,檢索、智能推薦等。

     

    行業預訓練模型

     

    學術界研究有兩個特點,第一是大多只研究通用模型,和行業應用有差距,第二是為了效果不怎么考慮成本。在具體行業落地時,需要根據行業的數據特征分析以及成本分析,確定行業領域預訓練模型的方案。

     

    模型調優

     

    在行業應用落地,模型調優可以有兩個選擇。第一方案是根據行業數據重新訓練預訓練模型,然后根據具體NLP任務進行模型調優。第二種方案是直接引用已經訓練好的通用預訓練模型,然后根據具體NLP任務進行模型調優。采用前者需要考慮行業數據和模型訓練成本,采用后者需要根據業務應用選擇合適的路徑。

     

    模型部署

     

    業務語義模型在行業實際應用部署重點需要考慮的問題包括準確性、并發性能、響應時延等,在模型性能和模型成本之間尋找平衡點??赡艿男阅芴嵘桨赴ㄕ麴s、剪枝和量化等,需要根據行業應用的實際環境和需求評估選擇。

     

    效果評估與改進閉環

     

    業務語義模型集成到業務應用,部署上線后可以通過采集應用效果,對模型應用效果評估,并將應用效果反饋至語義建模任務。通過在線應用的實際評估來不斷改進語義建模,提升模型的服務效果和能力,形成改進閉環。

     

    四、AI預訓練模型在智慧政務中的應用

     

    政務應用的典型用戶包括終端用戶、工作人員、主管領導。終端用戶關注如何快速獲取政務相關的政策、制度、流程,如何準確和快速便捷地辦理相關的業務。工作人員關注如何快速進行業務審批辦理,降低人力投入、提升工作效率。主管領導在業務的基礎上更關注業務分布、業務趨勢及有效措施,以滿足決策的需求。

     

    以某政務部門智慧應用為例,海泰方圓在調研業務場景、充分與業務用戶溝通的基礎上,深入理解用戶需求和痛點,將用戶的需求分解梳理,形成專業的AI需求,以通用NLP技術為基礎,融合預訓練模型技術,基于行業數據進行AI建模,快速完成落地。本應用為用戶提供文獻檢索與推薦、摘要、糾錯、分類、查重、篩查、落實承辦部門、綜述等十多項智慧化服務,在提升終端用戶體驗、減輕工作人員負擔、智能輔助領導決策等方面獲得了良好、顯著的效果。

     

    從技術到行業應用的成功落地,需要綜合考慮業務理解、應用規劃、技術開發、行業部署等方面內容。海泰方圓公司作為一家擁有核心技術的可信數據服務領軍企業,在安全、人工智能、大數據等方面有深厚的積累,長期服務黨政領域,通過將AI預訓練模型技術結合行業應用實踐經驗,可以為用戶提供快捷有效的智慧服務,助力電子政務往智慧政務的演進。

     

    售前咨詢
    010-59790009轉8055/8192

    售后服務
    010-56592388

    亚洲免费视频在线观看,一个人看的WWW片免费高清中文,一个人免费观看WWW视频二