日韩欧美在线视频,欧美激情久久久久,九九热精品视频国产

AI大模型領域的「環球影城」正式開業！

汽車人、霸天虎集結，這次不是為了賽博坦，而是為了瘋狂爭奪「火種源」。

現實世界中，AI巨頭們在也在為這一「生命之源」——大模型展開爭奪戰，進行巔峰對決。

5300億參數，燒了4480塊英偉達GPU，威震天-圖靈（MT-NLG）可以說是當前最大的語言模型。此外，GPT-3有1750億參數，浪潮「源1.0」2457億參數...

自從2018年谷歌推出BERT模型以來，語言模型做的越來越大，仿佛沒有終點。短短幾年，模型參數已經從最初的3億，擴張到萬億規模。

然而，這并不是終點，爭奪「火種源」角逐還在繼續。

那么，這些AI巨頭到底在爭什么，在探索什么？

大模型究竟是否是一條正確的道路？

下一個模型有多大？+∞

從國外來看，2018年，谷歌提出3億參數BERT模型驚艷四座，將自然語言處理推向了一個前所未有的新高度。

可以說，谷歌最先開啟了大模型一股熱潮。

緊接著，OpenAI在2019年初推出GPT-2，15億參數，能夠生成連貫的文本段落，做到初步的閱讀理解、機器翻譯等。

還有英偉達威震天（Megatron-LM）83億參數，谷歌T5模型110億參數，微軟圖靈Turing-NLG模型170億參數。

這些模型一次次不斷地刷新參數規模的數量級，而2020年卻成為這一數量級的分界線。

大火的GPT-3，1750億參數，參數規模達到千億級別，直逼人類神經元的數量。

能作詩、聊天、生成代碼等等，無所不能。

就在近日，微軟和英偉達聯手發布了Megatron-Turing自然語言生成模型(MT-NLG)，5300億參數。

號稱同時奪得單體Transformer語言模型界「最大」和「最強」兩個稱號。

除了千億規模的稠密單體模型，還有萬億規模的稀疏混合模型。

如果將單體模型比作珠穆朗瑪峰，那么混合模型就是喜馬拉雅山脈其他的小山峰。

谷歌在今年年初推出了1.6萬億參數的Switch Transformer。而智源「悟道2.0」1.75萬億參數再次刷新萬億參數規模的記錄。

好一副「百家爭鳴」之勢。

為什么會這樣？一句話，大模型是大勢所趨，更是必爭的高地！

如今大模型的這種盛世，與深度學習時代極其相似。

就好比十幾年前深度學習的崛起一樣，國內外AI巨頭看到了這個技術的未來，于是紛紛入局于此，各種各樣深度學習的模型不斷涌現。

現在，大模型更迭速度只會越來越快。

NLP單體模型大PK

那么，為什么我們要比較這幾個模型呢？

在討論這個問題之前，需要先搞懂大模型都有哪些分類。

比如說，從模型架構角度：單體、混合；功能角度：NLP、CV、對話等等。

其中，谷歌「Switch Transformer」采用Mixture of Experts (MoE，混合專家) 模式將模型進行了切分，其結果是得到的是一個稀疏激活模型。雖然節省了計算資源，但是精度卻很難提高。

目前來說，自然語言處理領域單體大模型的頂流是：「GPT-3」、「MT-NLG」以及「源 1.0」。

https://arxiv.org/pdf/2110.04725.pdf

不過，中文和英文的模型之間區別還是很大的。

在自然語言理解方面，由于分詞方式不同、同一詞組不同歧義以及新詞匯等方面挑戰，所以中文訓練的難度更高。

例如分詞難點：中國科學技術大學；中國\科學技術\大學；中國\科學\技術\大學。這三種不同的分詞形式，表達的意思有著天壤之別。這還僅僅是其中之一。

因此，訓練中文NPL模型的訓練難度要比同量級英文模型難度更高。

要做就做最大的

英文的高質量文本數據集可謂是五花八門。

有包含HackerNews、Github、Stack Exchange、ArXiv甚至還有YouTube字幕的The Pile；有包含了超過50億份網頁元數據的數據平臺Common Crawl；甚至還可以用Reddit論壇的內容來進行訓練。

就拿The Pile來說吧，其中包含了825GB的多樣化開源語言建模數據，由22個較小的、高質量的數據集合組成。

GPT-3采用了規模超過292TB，包含499億個token的數據集。

MT-NLG則使用了15個數據集，總共包含3390億個token。

相比起來，中文的訓練數據就匱乏得多了。

最大的開源項目CLUECorpus2020只包含了100GB的高質量數據集。

https://github.com/CLUEbenchmark/CLUECorpus2020

為了獲得高質量的數據集，「源1.0」的團隊開發了一套大數據過濾系統 Massive Data Filtering System (MDFS)，其中包括數據收集、粗略過濾、精細過濾三部分。

數據預處理流程圖

數據主要來自Common Crawl、搜狗新聞（SogouN）、搜狗互聯網語料庫版本(SogouT，2016)、百科數據和書籍數據。

待清洗的原始數據

在對原始語料進行粗篩選之后，團隊又訓練了一個基于Bert的模型來對高質量、低質量和廣告內容進行分類，并輔以人工篩查。

精細過濾之后的高質量語料大小

最后終于得到了5TB高質量中文數據集，其中包括近5年中文互聯網的全部內容和近2000億個詞。

計算效率up！

有了數據集，也構建好了模型，現在就可以來談一談訓練了。

對于最新的「MT-NLG」，由560臺DGX A100服務器提供動力，其中每個DGX A100都有8個NVIDIA A100 80GB張量核心圖形處理器，也就是4480塊A100顯卡。每個GPU的算力直接飆到每秒113萬億次浮點運算。

GPT-3的訓練則是在超過28.5萬個CPU核心以及超過1萬個GPU上完成，GPU在訓練過程中達到每秒2733億次浮點運算。

而「源1.0」只用了2128張GPU，并在短短的16天就完成了訓練。

這又是如何做到？

「源1.0」的團隊創新性地采用了張量并行、流水線并行和數據并行的三維并行策略。

張量并行

在張量并行策略中，模型的層在節點內的設備之間進行劃分。Transformer結構在進行前向計算和反向傳播時，注意力層和多層感知機層的張量將會被按行或列進行拆分。輸入端的張量首先會發送給每個加速器，在加速器中各張量獨立進行前向計算。

流水線并行

流水線并行將 LM 的層序列在多個節點之間進行分割，以解決存儲空間不足的問題。每個節點都是流水線中的一個階段，它接受前一階段的輸出并將結果過發送到下一階段。如果前一個相鄰節點的輸出尚未就緒，則當前節點將處于空閑狀態。

數據并行

采用數據并行時，全局批次規模按照流水線分組進行分割。每個流水線組都包含模型的一個副本，數據在組內按照局部批次規模送入模型副本。

從結果上看，「源1.0」的訓練共消耗約4095PD（PetaFlop/s-day），相較于「GPT-3」的3640PD，計算效率得到大幅提升。

在零樣本和小樣本學習「霸榜」

為什么一說大模型就要提這倆貨？

原因很簡單，人類可以僅通過一個或幾個示例就可以輕松地建立對新事物的認知，而機器學習算法通常需要成千上萬個有監督樣本來保證其泛化能力。

而是否擁有從少量樣本中學習和概括的能力，是將人工智能和人類智能進行區分的明顯分界點。其中，零樣本學習更是可以判斷計算機能否具備人類的推理和知識遷移能力，無需任何訓練數據就能夠識別出一個從未見過的新事物。

簡單來說，零樣本學習，就是訓練的分類器不僅僅能夠識別出訓練集中已有的數據類別，還可以對于來自未見過的類別的數據進行區分；小樣本學習，就是使用遠小于深度學習所需要的數據樣本量，達到接近甚至超越大數據深度學習的效果。

不管是「GPT-3」還是「MT-NLG」，都在強調自己在這兩方面的學習能力。

當然，二者的區別在于，作為前任SOTA的「GPT-3」被「MT-NLG」以微弱的優勢「干」掉了。

「GPT-3」在LAMBDA和PIQA測試集上取得的成績

「MT-NLG」在LAMBDA和PIQA測試集上取得的成績

「源1.0」雖然沒有辦法直接和二者進行對比，不過在中文最大規模的語言評估基準——CLUE上的成績還是很有說服力的。

在ZeroCLUE零樣本學習榜單中，「源1.0」以超越業界最佳成績18.3%的絕對優勢遙遙領先。在文獻分類、新聞分類，商品分類、原生中文推理、成語閱讀理解填空、名詞代詞關系6項任務中獲得冠軍。

在FewCLUE小樣本學習榜單中，「源1.0」獲得了文獻分類、商品分類、文獻摘要識別、名詞代詞關系等4項任務的冠軍。

刷榜終究是刷榜，雖然成績很好，但實戰起來還是很容易被人類「一眼看穿」。

不過，其實從成績單上的分數也能看出，不管是英文還是中文的模型，和人類比起來差距還是很大的。

尤其是在情感理解和話題表達方面這類沒有特定規則的情景下，比如作詩、寫故事等等。

大模型，去哪？

AI巨頭競相追逐模型規模的新高度，這自然帶來一個靈魂之問：他們在探索什么？

當前，語言模型的訓練已經從「大煉模型」走向「煉大模型」的階段，巨量模型也成為業界關注的焦點。

近日，Percy Liang，李飛飛等一百多位學者在發表的 200 多頁的研究綜述 On the Opportunities and Risk of Foundation Models 中闡述了巨量模型的意義在于「突現和均質」。

論文中，他們給這種大模型取了一個名字，叫基礎模型（foundation model），其在NLP領域表現出了強大的通用性和適用性。

目前AI研究的涌現性和同質化特征

構建越來越大的模型，真的就會越來越好嗎？

從ELMo到Bert再到之后的GPT-3等一系列模型，預訓練模型的性能一直在提升，這是一個非常強的證據。

而現在威震天-圖靈的參數量是5300多億，可見，當前模型的參數規模可能也沒有達到通用人工智能所要求的水平。

所以說，更大的模型依舊是剛需。

那么，構建越來越大的模型，真的能夠通向通用人工智能（AGI）嗎？

OpenAI 的無監督轉化語言模型 GPT-3，展現出了從海量未標記數據中學習，且不限于某一特定任務的「通用」能力。

因此讓許多人看到了基于大規模預訓練模型探索通用人工智能的可能。

坦白講，我們開始對大模型認識不太清晰的時候，認為它只是用來作首詩，對個對子，但其實這些并不是大模型的魅力所在。

大模型真正的魅力在于「不可知」，而在于對未來的一個探討。

一位清華教授曾表示，GPT-3已經越來越接近人類水平，但它有一個「阿喀琉斯之踵」。

GPT這說明，GPT-3很聰明，但它仍有一些認知局限——沒有常識。

自然語言處理研究員、康奈爾大學數據科學家Maria Antoniak表示，「談到自然語言，更大的模型是否是正確的方法是一個懸而未決的問題。

雖然目前一些最好的基準性能得分來自大型數據集和模型，但是將大量數據傾倒到模型中的回報是不確定的。」

這足以證明，對大模型進行探索是一個持續不斷的過程。

全球AI巨頭爭的是，探索的是大模型未知領域的「處女地」，可以說是面向通用智能最高階智能的探索。

其實，不僅僅是科學探索，它必然會產生一種催化效應，探索的成果也會帶動CV、OCR、語音等領域的發展。

因為，最終的智能產生是在這基礎之上建立的。

我是誰？我在哪？我將要去向何方...

這對于人類來說是一直探索的哲學問題，那么機器會如何回答？

當我們輸入一些命題時，它能夠給出很多靈感式答案。

「源1.0」便是一個非常好的開始，但未來的路還很長。

參考資料：

https://arxiv.org/pdf/2005.14165.pdf

https://arxiv.org/pdf/2004.05986.pdf

https://arxiv.org/pdf/2110.04725.pdf

https://developer.nvidia.com/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/

https://easyai.tech/ai-definition/tokenization/

https://lifearchitect.ai/models/#contents

本文來自微信公眾號“新智元”（ID：AI_era），作者：新智元，36氪經授權發布。

浪潮英偉達微軟為何狂煉AI大模型？巨頭角力已經開始

下一個模型有多大？+∞

NLP單體模型大PK

大模型，去哪？

相關推薦