四兩撥千斤! 創新工場首席科學家AI大牛周明博士率瀾舟團隊刷新CLUE新紀錄,輕量化模型孟子一鳴驚人!
本週,中文語言理解權威評測基準CLUE榜單,被「低調」刷新。
不同的是,不是大公司、不是超大模型……
一個新面孔,一個輕量化模型,首戰即登頂,四兩撥千斤。
CLUE榜單近年來由巨頭——騰訊、搜狗、華為、阿里達摩院輪番霸榜的格局,被首次打破。
瀾舟科技-創新工場推出的孟子模型,以十億參數完成了此前百億、千億參數模型刷新的紀錄。
這也是瀾舟科技首次對外曝光,背後團隊負責人,正是創新工場首席科學家、全球AI大牛周明博士。以下文章解釋了這個模型的原理,文章來自《量子位》微信公眾號,經授權轉載。
▎輕量化模型孟子?
孟子,基於瀾舟團隊自研技術研發的大規模預訓練語言模型。
包括創新工場、上海交通大學、北京理工大學等單位參與聯合研發。
可處理多語言、多模態數據,同時支持多種文本理解和文本生成任務,能快速滿足不同領域、不同應用場景的需求。
孟子模型基於Transformer架構,僅包含十億參數量,基於數百G級別涵蓋互聯網網頁、社區、新聞、電子商務、金融等領域的高質量語料訓練。
但誰也沒想到,小模型卻有大智慧,一經登場,打破格局。
CLUE,中文語言理解領域最具權威性的測評基準,涵蓋文本相似度、分類、自然語言推理、閱讀理解等共10項語義分析和理解類子任務。
該榜單競爭激烈,幾乎是業內所有自然語言理解玩家必爭之地。
騰訊、搜狗、華為、阿里達摩院等更是輪番霸榜刷新紀錄。
而且隨著大參數模型愈演愈烈,CLUE還漸有巨頭壟斷之勢。
因為百億、千億甚至萬億參數的大模型,已然不再是創業或其他玩家可與之爭鋒。
萬萬沒想到,瀾舟科技-創新工場團隊出手,四兩撥千斤。
因為孟子,走的是基於輕量級、高效訓練的研究路線,致力於構建十億級別的小模型,充分發揮已有參數下的模型潛力,有利於快速、低成本地落地現實業務場景。
孟子預訓練模型性能比肩甚至超越千億大模型,在包含文本分類、閱讀理解等各類任務上表現出色。
相對已有的中文語言模型,孟子模型實現了多項突破性進展:
1) 堅持「小而精」的輕量化訓練策略。實現在同等模型規模下,遠超公開模型的性能。作為精巧的小模型,對標「巨無霸」,小模型性能超越千億規模模型。
2)使用知識圖譜增強模型,讓 AI 真正獲得知識。孟子模型具備頂尖的語言理解能力,在權威CLUE中文理解評測的總排行榜,以及分類排行榜和閱讀理解排行榜均位列第一,刷新三項榜單世界紀錄。總排行榜分數突破84分,逼近人類基準分數(85.61)。
3)靈活的領域和場景適應能力,方便快速定制和應用。基於T5-style的端到端生成的訓練範式,同步適配BERT-style的判定式架構,既能理解也能生成。便於適配行業應用,覆蓋廣泛業務場景。
當然,隨著孟子一鳴驚人,也必然能讓輕量化模型研究來到聚光燈下。
▎原理方法和應用?
在輕量化模型算法研究方面,基於自研的基於語言學知識、知識圖譜和領域數據增強等技術,從模型架構(包括基礎層Embedding表示和交互層Attention機制)到預訓練策略進行了全方位改進。
具體有四方面:
1) 模型結構方面,將語義角色、詞性標註等語言學特徵融合到Embedding表示中,基於句法約束引入註意力機制中,從而提升模型對語言學知識的建模能力。
2) 訓練策略上,引入基於實體知識和Discourse的Mask機制,強化模型對語言成分和語篇關係的表徵。
3) 為進一步提高訓練效率,使用了大模型蒸餾和初始化小模型策略。
4) 為更好地將孟子模型適應垂直領域如金融、營銷,使用了領域數據繼續訓練並構造相應的提示模版(Prompt),取得了明顯的性能提升。
基於以上算法策略,實現從語料中高效學習涵蓋詞級、句子級和語篇級知識,大幅提升語言模型提煉語言結構和語義信息能力,以及良好的領域遷移能力,適應廣泛的產品應用場景。
另外,在Finetune的進展方面,如何將預訓練模型用於各項任務?
瀾舟團隊也有總結,從數據增強、知識蒸餾、遷移訓練、訓練優化等方面展開了一些探索,進一步提升語言模型的性能:
1) 數據增強:使用領域相關數據;
2) 知識蒸餾:基於Teacher-Student自蒸餾提升訓練效率;
3) 遷移訓練:結合課程學習的思想,由易到難訓練下游模型;
4) 訓練優化:使用多種訓練目標,多角度提升模型能力;
而且孟子還已經展開了垂直化領域應用。
基於領域適應技術,孟子模型已深度垂直化賦能相應行業。典型的例子為適用於金融領域的孟子模型,領域適應策略主要包含兩大方面:
1) 通過大規模的泛金融領域語料,將通用孟子模型遷移到金融領域。金融版孟子模型已經應用於多個金融行業的合作企業,在金融知識圖譜搭建、脫水研報、公告抽取等多個任務上獲得了出色的表現。
2) 通過大規模的營銷領域語料,將孟子模型遷移到數字營銷領域,完成了營銷文案生成、新聞摘要等多項任務,將用於行業頭部的數字營銷公司和多個世界五百強企業的合作之中。
瀾舟方面還透露,孟子模型已在多個領域成功落地實踐,衍生出多項行業領先的產品,涵蓋文本生成、行業搜索、機器翻譯等諸多領域。
並且毫無疑問的是,因為輕量級模型具有的模型參數較少、快速推斷的特點,更易於線上部署和推廣到移動設備中,自然不會局限於現有應用和場景,接下來還會有更廣泛的研究和應用場景中。
▎瀾舟團隊?
最後,也簡單介紹本次一鳴驚人的新面孔瀾舟科技。
瀾舟科技是創新工場孵化的一家認知智能公司。公司創始人——周明博士。
AI領域內,周明已不用過多介紹,他是公認的世界級AI科學家,自然語言處理領域的代表性人物。
周明博士在2020年加盟創新工場,擔任創新工場首席科學家。
而瀾舟科技則針對商業場景的數字化轉型,基於大數據、知識圖譜和行業模型,提供新一代的信息檢索、知識推理和商業洞見技術和相關產品。
據稱目前已與國內外幾十所著名高校和十餘個相關領域的頭部企業建立了穩定的合作關係。
值得注意的是,瀾舟科技除了大牛坐鎮,其實也是行業趨勢的體現。
引用創新工場董事長兼CEO李開復最新分享來說:
AI的發展可以按照兩個時間點劃分。
第一個時間點是2015年,以CNN為核心的計算機視覺技術讓機器超越了人類,帶來了人臉識別、智能質檢、無人零售、智慧城市、無人駕駛等商機。
而第二個時間點出現在2019年,以大模型為代表的自然語言方向取得突破性進展,讓NLP從數據、信息走向知識和洞見成為可能,將會在翻譯、語音識別、法律、金融、新聞、廣告、醫療、娛樂等大賽道帶來機遇。
「如果說CNN造就了今天計算機視覺領域的突破和眾多應用,預訓練大模型+微調也將帶來自然語言的百花齊放的發展,用數據智能驅動各類業務的升級。瀾舟科技在周明老師的帶領下取得了今天的成果,在新機遇面前躬身入局,一起發掘NLP領域的黃金發展期」,李開復說到。
數據建模例子 在 FinLab財經實驗室 Facebook 的精選貼文
◢ 回測 - 參數最佳化的迷思(附程式碼) ◣
找到「歷史報酬率」好的策略很簡單
但是找到「未來報酬率」好的策略非常難。
為什麼?
原因在於做了過多的參數枚舉與優化,當樣本數夠大,自然會有極端的數據產生,就像是夜路走多了會碰到鬼,人多必有白癡,樹多必有枯枝,就像是量子力學中,波函數坍縮成我們所處的現實,代表著均值,但在極端的多重宇宙樣本中,你也有可能是總統,代表著眾多巧合下的極端事件。
本文用口語的方式,帶你瞭解如何判斷過擬合的演算法
牛頓從蘋果落地的現象,發現了萬有引力,F=ma,因為實驗的雜訊很小(風、熱能散失等等),才能有經典、簡潔的公式,然而把牛頓的實驗,換到財經領域時,可能就不是這麼管用了,當我們在建模時,價格的雜訊遠大於規律
我們很有可能是優化雜訊,而非優化價格的規律!
要怎麼辨別這兩者的不同呢?
我們可以先從直觀的角度出發,究竟歷史上成功的偉人,Bill Gates、Steve Jobs、Elon Musk,這些科技巨擘,他們之所以能夠有今天的成就,是一連串的巧合,還是他們有一些人格特質,促使他們的成功?另一個極端的例子,假如今天某人中了樂透彩而一夕爆富,那很明顯,他很可能是多重宇宙中,非常成功的一個版本,但他的成功,可能並非來自他的人格特質,而是來自運氣。運氣跟命運,看似哲學,但跟策略過擬合有著極大的關連!
模型的過擬合,就像是簽樂透彩,只要參數夠多了,總會中獎。所以策略績效好,究竟是不是運氣好?最重要的關鍵,就是要確保「實驗是有效的」。如何定義實驗是有效的呢?
我們提供了兩篇文章,讓你瞭解防止 overfitting 的方法:
👉避免過擬合的演算法介紹:
https://pse.is/overfitting1
👉演算法的實驗以及程式碼:
https://pse.is/optimization2
深入淺出的介紹,
製作精良的代碼,
需要你多多按讚分享,好東西讓好朋友知道!
#python
#backtesting
#optimization
數據建模例子 在 矽谷阿雅 Anya Cheng Facebook 的最讚貼文
大數據行銷先驅「整合行銷傳播之父」唐·舒茲辭世 整合行銷傳播跟MBA的不同
創立「整合行銷傳播」(IMC; Integrated Marketing Communications)概念的西北大學教授Don E Schultz(唐·舒茲)6/6在芝加哥辭世,享年86歲,在美國行銷廣告圈投下震撼彈,圈子裡,業界人士幾乎都是用他的理論在做案子。現在大家常說的「以消費者為核心」的行銷、大數據行銷、每個人看到的廣告都根據你的喜好不一樣,其實就是以他的理論延伸的!我則是很幸運,在西北大學念整合行銷傳播的時候,修了他的課,去年還在舊金山一場校友活動中看到他。
我還記得Don E Schultz教授的課是一門講全球行銷的課,我們要先到印度企業參訪兩週,回到芝加哥才上他的課。我們拜訪了印度的必勝客,那裡的必勝客很高級,是約會聖地,還會有員工跳舞表演。那是2008年,手機和網路還不算很普及,我們還參訪了印度的相親網站,他們開了很多實體的網咖,給單身的人找對象,以及讓他們的爸媽上去挑子女適合的對象。
當年的Don E Schultz已經七十四歲,教的課不多,特別給是我們這種菜鳥的課很少,大多是給高階經理人的課,我印象中的教授,坦白說不是一個很慈祥的人,他有些嚴肅,但,他讓我印象深刻且敬佩有兩件事:第一,他很堅信他的理念並且不厭其煩地宣揚,雖然Don E Schultz早在1993推出整合行銷的理論,也寫了30本書,但即使到了2008年,大部分的企業還是不太懂什麼叫做「以消費者為核心」的「整合行銷傳播」。很多人把他跟西北大學的凱洛管理學院(Kellogg)的知名行銷教授Philip Kotler(菲利普·科特勒)並論,念過行銷的人都知道,教科書一定有Philip Kotler的書,畢竟他寫了80本書呢!(當教授好辛苦,阿雅寫一本書就快累死了!)每當有人把Don Schultz和Philip Kotler,或是IMC和MBA相提並論,Don Schultz不會說別人的不好,但他會很堅信地講述IMC的理念和不同。你可以想像嗎?你已經說了一個理念十多年,很多人還沒聽懂,你還是很認真解釋,從業界已經有幾十年經驗的專家到菜鳥行銷學生,你一遍又一遍地用不同的方式講述,一點一滴地改變世界。
第二,即使是對我們這些菜鳥學生,英文爛到不行,也幾乎沒有行銷經驗,坦白說他隨便講我們都會覺得很厲害,但天王老師卻一點也不馬乎,從上課內容、課堂要求、作業,老師都沒在客氣,也會出席一些系所的活動,包括許多不是他主講的活動,甚至到去年我都還在舊金山的校友聚會中看到他,而且他還是坐在台下聽那些才畢業幾年、小他幾十歲的校友演講。老師很認真,學生也是,但我記得我們有堂課是從印度回來的隔天,大家都時差到不行,我眼睛一度真的重得睜不開……(老師對不起!)。😓
🔥 到底什麼是整合行銷傳播?就是各種行銷方法「整合」起來都做嗎?不是!
用過度簡單的方法來說,整合行銷傳播指的是以消費者為核心,再整合各種通路講述那個跟消費者相關的訊息的方式。比如說,我是百貨公司的行銷經理,我請數據分析師分析了客戶的數據,發現我們的客戶有三種人,第一類是很在意有沒有特價的人,第二類是喜歡追逐流行的人,第三類是很實際的人。那我今天要賣夏季洋裝,同樣一個商品,針對第一類的人我說:「洋裝今天打七折!」針對第二類的人我說:「網紅都愛的潮牌洋裝上市了!」針對第三類的人我說:「超實用洋裝搭上針織外套就可以上班穿,脫掉可以外出,旁邊有小口袋可以放手機,而且腰帶還有線,綁起來變不同造型!」
至於用什麼行銷通路讓大家知道這個訊息,則是觀察這三類不同的人幾點、何時接觸什麼樣的媒體,比如說,我發出了三種不同的電子報、網路廣告三類人看的內容都不一樣,還有第一類的人會看團購網所以我有跟他們合作,第二類我登廣告在時尚雜誌,每類人在許多不同的媒體都看到了訊息,但是他們只看到那個跟他們有相關、一致的「整合行銷」訊息。
🔥 整合行銷傳播是大數據行銷的先驅 因為數位行銷發揚光大
上面講的例子只有三類,但你可以想像的是,你可以透過大數據分析、即時把廣告變成千上萬種類,每個人看到的都跟他高度相關,而且隨時因為你的新的行為做改變。而且,當行銷人沒有很多錢,還可以透過分析,只把廣告發給最有可能買的人,比如說,我是百貨公司的行銷經理,我要推廣百貨公司裡最紅的幾千種商品,每種商品我登廣告給100個人看,如果轉換率有一成,那只有10個人最後會買,但如果,你可以事先用數據和建模算出來,那100個人中哪10個人可能會買,那你就可以只登廣告給那10個人。也因此,IMC會學很多統計軟體、數據分析的東西。
這樣的概念,我猜,在1993年剛推出來的時候,可能應用不多,只能說廣告傳單有三個版本,每個人家裡信箱收到一種版本,可是慢慢地,因為數位行銷的進步,網路廣告、電子報、社群媒體、網站app個人化,就很容易執行。也因此,IMC會學很多各類數位行銷工具的東西。
🔥 整合行銷傳播以消費者為核心,跟MBA以企業為核心不一樣
很多人問我IMC和MBA有什麼不一樣,首先,以西北大學為例,IMC花一年半,只學行銷傳播,因此特別深入,甚至每個通路都會學到,包括社群媒體;MBA學得廣很多,包括財務、會計、營運、物流、策略、心理學、投資估值、創業等等,行銷通常只有一兩堂課。
另外MBA的行銷是4P:Product產品、Price價錢、Placement通路、Promotion促銷。如果你仔細看,它是以公司為核心的模式,另外也會關注在要做什麼產品?要賣多少錢?要在哪個通路賣,比如說,要批發還是零售、要在康是美還是家樂福賣、要自己網路賣還是透過通路賣等等?而這些都是IMC不會深入學的地方。相反地,IMC學的谷歌分析、網路廣告即時競價、電子報、社群媒體行銷等等,都不是MBA的重點。說穿了,IMC的前身就是廣告系,MBA就是企管系。
🔥 哪個好?
要看你過去做什麼?未來想做什麼?為什麼這個碩士可以連結你的過去和未來,為什麼它可以加速達到你未來的目標。比如說,你過去做過業務,懂了很多定價,但你希望未來要去創業,或是到投資銀行、管理顧問公司工作,那MBA可能可以幫助你加強在策略和財務的領域,讓你更有機會創業,或是做投資銀行、管理顧問工作。又比如說,你過去在廣告公司工作,學了一些社群媒體行銷,但沒有受過專業的教育,希望能透過碩士,讓你更有系統的行銷傳播知識,畢業後到美國的廣告公司或是企業擔任行銷分析或媒體購買的工作,但IMC可能很適合。
我認為,企業兩個都很需要,要有對的產品、價錢、通路,也跟消費者在對的時間地點講相關的資訊。下次你打廣告以前,想一想對方想要的是什麼,你對他說的話到底有沒有相關,我相信Don E Schultz教授會在天堂點頭微笑。
❤️ 關於矽谷阿雅
《追不到夢想就創一個!》從台灣記者到臉書電商產品經理的顛覆筆記作者
✅ 博客來全球直送+電子書:https://reurl.cc/Wd86qy
✅ 誠品:https://reurl.cc/rxKyLx
✅ 金石堂:https://reurl.cc/GVG8eG
https://bit.ly/37fCl73