<strong id="yhh5f"></strong>

  • <rp id="yhh5f"></rp>
    1. <th id="yhh5f"><track id="yhh5f"><sup id="yhh5f"></sup></track></th>

        <button id="yhh5f"><mark id="yhh5f"></mark></button>
        <progress id="yhh5f"><track id="yhh5f"></track></progress>

        <li id="yhh5f"><acronym id="yhh5f"></acronym></li>
          當前位置:首頁 > 新聞中心 > 媒體掃描

        媒體掃描

        【科技日報】我國研發首個千億參數三模態大模型“紫東太初”

      1. 發表日期:2021-10-08 【 【打印】【關閉】
      2.   近日,中國科學院自動化研究所展示了自動化所研發的業內首個千億參數三模態大模型“紫東太初”。

          大模型在人工智能發展中的方位是什么?大模型為什么要做開源開放?……

          針對這些問題,科技日報記者專訪了中國科學院自動化研究所所長徐波。

          共同打造新一代通用人工智能平臺 

          記者:大模型在人工智能發展中的方位是什么?

          徐波:人類智能是人與環境不斷交互并通過幾百萬到幾千萬年進化而成。因此從智能生成角度看,人工智能目前主要有三條路徑在不斷快速發展中。大腦是人類智能進化的主體,研究受腦結構和功能啟發的類腦智能,是人工智能路徑之一;從智能進化客體環境出發,研究智能體與環境通過獎賞性交互、并實現對環境認知和適應的博弈智能,是人工智能路徑之二,如AlphaGo等。

          智能主體與環境客體交互過程中,會產生大量數據產生和知識沉淀,尤其是從信息化、數字化時代產生的大數據中學習內在關聯,即為我們最為熟悉的第三條路徑即數據智能。目前人工智能發展最為迅速、應用最為廣泛的為數據智能。圖靈獎得主Yann LeCun認為 “自監督學習是通過觀察發現世界內在結構的過程,是人類(以及動物)最主要的學習形式,是‘智力的本質’”。

          目前數據智能正從高度依賴標注數據的有監督學習,向不依賴注釋、自動學習數據間的關系的自監督范式發展。在形成智能表征能力基礎上,通過適量標注數據進一步產生推理和生成能力。通過大數據自監督錘煉的大模型具備很強大的多任務泛化能力。

          自動化所與武漢東湖高新區共同打造新一代通用人工智能平臺,以全棧國產化基礎軟硬件昇騰AI平臺為基礎,依托武漢人工智能計算中心,研發了面向超大規模的高效分布式人工智能訓練框架,在圖、文、音三個基礎模型上加入跨模態編碼和解碼網絡,基于昇思MindSpore框架,打造了業內首個千億參數三模態大模型“紫東太初”。該大模型首次貫通了語音、圖像、文字,并自動學習跨模態數據之間的關系,通過自監督學習和知識嵌入來解決小數據泛化和理解問題,形成了完整的智能的表示、推理和生成能力,是當前數據智能領域的最新發展。紫東太初不但具有很大的產業應用價值,也為探索人類智能本質提供了一個極佳的平臺。

          多模態大模型為通用化人工智能研究奠定了好基座 

          記者:大模型為什么要做開源開放?

          徐波:現在產業都在講算法開源,但算法的維護成本很高,尤其是在現在人工智能人才十分稀缺的情況下。而未來,人工智能領域開放的可能將會是模型,客戶獲得大模型的接口,再稍微加一點數據就能解決問題,即“大模型+小數據”,這是我們希望看到的大模型對產業帶來的賦能。開源開放有利于推動新一代人工智能生態體系發展,有利于更好地培養和輸出新一代人工智能人才,更有利于加速推動人工智能應用規?;涞?。

          自動化所目前已經開源“紫東太初”三個基礎模型:語言預訓練、語音預訓練和視覺預訓練三大基礎模型。在多模態模型中開源了中文圖文理解模型和中文圖文生成模型。后續將陸續開源多模態訓練十億、百億模型,并開放千億模型。

          語音的加入能夠大幅提升人機交互能力 

          記者:有語音加入的三模態大模型紫東太初將帶來哪些變革?

          徐波:當前的預訓練模型,仍以單模態(文本、圖像)或者圖像-文本聯合學習的雙模態為主,忽略了我們周邊存在大量的聲音信息。針對這一問題,紫東太初大模型首次將語音信息引入,形成多模態統一知識表示。一個大模型就可以靈活支撐圖、文、音的全場景AI應用,能更加接近人類真正的感情和思考,靈活性更高,通用性更強。我們可以看圖生音教孩子們學習拼音;也可以通過語音識別遠程操作智能裝備來執行任務。

          在華為全聯接大會上,自動化所依托紫東太初研發的虛擬人“小初”也展示了在實際工業場景通過語音圖像融合提升生產力的技術亮點。以紡織工業生產為例,“小初”能夠通過攝像頭看紡織機織出來布來判斷質量是否有缺陷,通過聽紡織機運行過程中的聲音判斷是否存在經緯線斷的情況發生,驗布速度達到人工的4倍,且精度大于90%(人工驗布精度約為70-80%)。

          多模態大數據自監督學習已形成圖、文、音的共性特征表達 

          記者:“視頻生成”為什么時至今日才變成現實?

          徐波:我們研發的紫東太初大模型通過多模態大數據自監督學習已形成圖、文、音的共性特征表達,并可根據任務難度用適量數據產生推理能力和生成能力,可實現多任務、跨模態持續學習。

          更為突破的是,紫東太初大模型通過有效編碼語音、文本和目標區域之間的時空關系,首次實現了“語音生成視頻”的功能。此前,OpenAI發布的模型DALL·E通過文字創建繪畫、照片、草圖等圖像,展示了大模型在以文生圖方面具有了一定類人的藝術想象力和創造性。而現在,紫東太初大模型打通語音與圖像、文本間的阻隔,成功通過語音生成視頻,進一步提升了人工智能的創造力,邁出朝向人工智能通用化的關鍵一步。

          在華為全聯接2021上,自動化所展示了紫東太初大模型的視頻生成能力,生成了一段具有大海、藍天和海鷗的視頻。其中,紫東太初大模型通過海量數據的學習,將海浪的聲音、海鷗的叫聲等進行了跨模態的編碼,有效地提高生成視頻的真實度,充分顯示了紫東太初的類人的想象力和創造性。

          預計將在3-5年時間里開始深刻影響產業的變革方向 

          記者:大模型能否解決AI應用的碎片化和落地難問題?如何賦能產業?

          徐波:人工智能正處于從“可以用”逐漸走向“好用”的落地應用階段,但目前仍處于商業落地早期,主要面臨著場景需求碎片化、人力研發和應用計算成本高、模型算法從實驗室場景到真實場景效果差距大等行業痛點。大部分AI項目落地還停留在“手工作坊”階段。

          為了應對這種挑戰性問題,采用預訓練大模型+推理部署端小模型的技術路線可有效解決這個問題。具體來說,經過海量多模態數據訓練,大模型得以具備很強的基準性能,能夠基于行業需求進行專家知識和少量樣本微調,快速適配滿足各種下游任務。對于計算資源受限的場景,我們可以將模型壓縮出側重不同功能屬性的海量小模型,以便更快地推進企業在不同下游場景中實現AI模型落地應用。

          人工智能由于行業數據壁壘高獲取難、不同場景任務需求理解各不相同、復合型人才短缺等問題導致商業化落地難的問題,總體而言隨著大模型技術發展,這方面的門檻會大大降低。我們預計大模型將在3-5年時間里開始真正深刻影響產業的變革和智能化升級的方向。