四兩撥千斤! 創新工場首席科學家AI大牛周明博士率瀾舟團隊刷新CLUE新紀錄,輕量化模型孟子一鳴驚人!
本週,中文語言理解權威評測基準CLUE榜單,被「低調」刷新。
不同的是,不是大公司、不是超大模型……
一個新面孔,一個輕量化模型,首戰即登頂,四兩撥千斤。
CLUE榜單近年來由巨頭——騰訊、搜狗、華為、阿里達摩院輪番霸榜的格局,被首次打破。
瀾舟科技-創新工場推出的孟子模型,以十億參數完成了此前百億、千億參數模型刷新的紀錄。
這也是瀾舟科技首次對外曝光,背後團隊負責人,正是創新工場首席科學家、全球AI大牛周明博士。以下文章解釋了這個模型的原理,文章來自《量子位》微信公眾號,經授權轉載。
▎輕量化模型孟子?
孟子,基於瀾舟團隊自研技術研發的大規模預訓練語言模型。
包括創新工場、上海交通大學、北京理工大學等單位參與聯合研發。
可處理多語言、多模態數據,同時支持多種文本理解和文本生成任務,能快速滿足不同領域、不同應用場景的需求。
孟子模型基於Transformer架構,僅包含十億參數量,基於數百G級別涵蓋互聯網網頁、社區、新聞、電子商務、金融等領域的高質量語料訓練。
但誰也沒想到,小模型卻有大智慧,一經登場,打破格局。
CLUE,中文語言理解領域最具權威性的測評基準,涵蓋文本相似度、分類、自然語言推理、閱讀理解等共10項語義分析和理解類子任務。
該榜單競爭激烈,幾乎是業內所有自然語言理解玩家必爭之地。
騰訊、搜狗、華為、阿里達摩院等更是輪番霸榜刷新紀錄。
而且隨著大參數模型愈演愈烈,CLUE還漸有巨頭壟斷之勢。
因為百億、千億甚至萬億參數的大模型,已然不再是創業或其他玩家可與之爭鋒。
萬萬沒想到,瀾舟科技-創新工場團隊出手,四兩撥千斤。
因為孟子,走的是基於輕量級、高效訓練的研究路線,致力於構建十億級別的小模型,充分發揮已有參數下的模型潛力,有利於快速、低成本地落地現實業務場景。
孟子預訓練模型性能比肩甚至超越千億大模型,在包含文本分類、閱讀理解等各類任務上表現出色。
相對已有的中文語言模型,孟子模型實現了多項突破性進展:
1) 堅持「小而精」的輕量化訓練策略。實現在同等模型規模下,遠超公開模型的性能。作為精巧的小模型,對標「巨無霸」,小模型性能超越千億規模模型。
2)使用知識圖譜增強模型,讓 AI 真正獲得知識。孟子模型具備頂尖的語言理解能力,在權威CLUE中文理解評測的總排行榜,以及分類排行榜和閱讀理解排行榜均位列第一,刷新三項榜單世界紀錄。總排行榜分數突破84分,逼近人類基準分數(85.61)。
3)靈活的領域和場景適應能力,方便快速定制和應用。基於T5-style的端到端生成的訓練範式,同步適配BERT-style的判定式架構,既能理解也能生成。便於適配行業應用,覆蓋廣泛業務場景。
當然,隨著孟子一鳴驚人,也必然能讓輕量化模型研究來到聚光燈下。
▎原理方法和應用?
在輕量化模型算法研究方面,基於自研的基於語言學知識、知識圖譜和領域數據增強等技術,從模型架構(包括基礎層Embedding表示和交互層Attention機制)到預訓練策略進行了全方位改進。
具體有四方面:
1) 模型結構方面,將語義角色、詞性標註等語言學特徵融合到Embedding表示中,基於句法約束引入註意力機制中,從而提升模型對語言學知識的建模能力。
2) 訓練策略上,引入基於實體知識和Discourse的Mask機制,強化模型對語言成分和語篇關係的表徵。
3) 為進一步提高訓練效率,使用了大模型蒸餾和初始化小模型策略。
4) 為更好地將孟子模型適應垂直領域如金融、營銷,使用了領域數據繼續訓練並構造相應的提示模版(Prompt),取得了明顯的性能提升。
基於以上算法策略,實現從語料中高效學習涵蓋詞級、句子級和語篇級知識,大幅提升語言模型提煉語言結構和語義信息能力,以及良好的領域遷移能力,適應廣泛的產品應用場景。
另外,在Finetune的進展方面,如何將預訓練模型用於各項任務?
瀾舟團隊也有總結,從數據增強、知識蒸餾、遷移訓練、訓練優化等方面展開了一些探索,進一步提升語言模型的性能:
1) 數據增強:使用領域相關數據;
2) 知識蒸餾:基於Teacher-Student自蒸餾提升訓練效率;
3) 遷移訓練:結合課程學習的思想,由易到難訓練下游模型;
4) 訓練優化:使用多種訓練目標,多角度提升模型能力;
而且孟子還已經展開了垂直化領域應用。
基於領域適應技術,孟子模型已深度垂直化賦能相應行業。典型的例子為適用於金融領域的孟子模型,領域適應策略主要包含兩大方面:
1) 通過大規模的泛金融領域語料,將通用孟子模型遷移到金融領域。金融版孟子模型已經應用於多個金融行業的合作企業,在金融知識圖譜搭建、脫水研報、公告抽取等多個任務上獲得了出色的表現。
2) 通過大規模的營銷領域語料,將孟子模型遷移到數字營銷領域,完成了營銷文案生成、新聞摘要等多項任務,將用於行業頭部的數字營銷公司和多個世界五百強企業的合作之中。
瀾舟方面還透露,孟子模型已在多個領域成功落地實踐,衍生出多項行業領先的產品,涵蓋文本生成、行業搜索、機器翻譯等諸多領域。
並且毫無疑問的是,因為輕量級模型具有的模型參數較少、快速推斷的特點,更易於線上部署和推廣到移動設備中,自然不會局限於現有應用和場景,接下來還會有更廣泛的研究和應用場景中。
▎瀾舟團隊?
最後,也簡單介紹本次一鳴驚人的新面孔瀾舟科技。
瀾舟科技是創新工場孵化的一家認知智能公司。公司創始人——周明博士。
AI領域內,周明已不用過多介紹,他是公認的世界級AI科學家,自然語言處理領域的代表性人物。
周明博士在2020年加盟創新工場,擔任創新工場首席科學家。
而瀾舟科技則針對商業場景的數字化轉型,基於大數據、知識圖譜和行業模型,提供新一代的信息檢索、知識推理和商業洞見技術和相關產品。
據稱目前已與國內外幾十所著名高校和十餘個相關領域的頭部企業建立了穩定的合作關係。
值得注意的是,瀾舟科技除了大牛坐鎮,其實也是行業趨勢的體現。
引用創新工場董事長兼CEO李開復最新分享來說:
AI的發展可以按照兩個時間點劃分。
第一個時間點是2015年,以CNN為核心的計算機視覺技術讓機器超越了人類,帶來了人臉識別、智能質檢、無人零售、智慧城市、無人駕駛等商機。
而第二個時間點出現在2019年,以大模型為代表的自然語言方向取得突破性進展,讓NLP從數據、信息走向知識和洞見成為可能,將會在翻譯、語音識別、法律、金融、新聞、廣告、醫療、娛樂等大賽道帶來機遇。
「如果說CNN造就了今天計算機視覺領域的突破和眾多應用,預訓練大模型+微調也將帶來自然語言的百花齊放的發展,用數據智能驅動各類業務的升級。瀾舟科技在周明老師的帶領下取得了今天的成果,在新機遇面前躬身入局,一起發掘NLP領域的黃金發展期」,李開復說到。
同時也有1部Youtube影片,追蹤數超過24萬的網紅啟點文化,也在其Youtube影片中提到,[ 7/21 開課!]【寫作小學堂】~寫出專屬風格,找回文字悸動 打造一盞自己的聚光燈,建立起專屬於你的品牌印象 課程資訊:https://www.koob.com.tw/contents/3655 【線上課程】《人際斷捨離》~ 讓你留下怦然心動的關係,活出輕盈自在的人生! 課程連結:https:...
「中文句子結構分析器」的推薦目錄:
- 關於中文句子結構分析器 在 Facebook 的最讚貼文
- 關於中文句子結構分析器 在 每天為你讀一首詩 Facebook 的最佳貼文
- 關於中文句子結構分析器 在 李開復 Kai-Fu Lee Facebook 的最佳解答
- 關於中文句子結構分析器 在 啟點文化 Youtube 的最佳解答
- 關於中文句子結構分析器 在 中文句子結構分析器在PTT/Dcard完整相關資訊 - 健康急診室 的評價
- 關於中文句子結構分析器 在 中文句子結構分析器在PTT/Dcard完整相關資訊 - 健康急診室 的評價
- 關於中文句子結構分析器 在 中文句子結構分析器在PTT/Dcard完整相關資訊 - 輕鬆健身去 的評價
- 關於中文句子結構分析器 在 中文句子結構分析器在PTT/Dcard完整相關資訊 - 輕鬆健身去 的評價
- 關於中文句子結構分析器 在 英文句子結構分析器在PTT/Dcard完整相關資訊 - 幸福屋 的評價
- 關於中文句子結構分析器 在 英文句子結構分析器在PTT/Dcard完整相關資訊 - 幸福屋 的評價
- 關於中文句子結構分析器 在 重組句子英文的蘋果、安卓和微軟相關APP,FACEBOOK、PTT 的評價
- 關於中文句子結構分析器 在 重組句子英文的蘋果、安卓和微軟相關APP,FACEBOOK、PTT 的評價
- 關於中文句子結構分析器 在 重組句子英文在PTT/Dcard完整相關資訊 - 數位感 的評價
- 關於中文句子結構分析器 在 重組句子英文在PTT/Dcard完整相關資訊 - 數位感 的評價
中文句子結構分析器 在 每天為你讀一首詩 Facebook 的最佳貼文
永恆的鄉愁──羅智成《問津:時間的支流》中的詩境 ◎陳怡安
前言
《問津:時間的支流》是羅智成二零一九年出版的詩集,屬於「羅智成故事雲」計畫中的一環。以魏晉陶淵明的〈桃花源記〉為底本,敘述了一個穿越時空,尋找並如願進入桃花源的奇幻故事。羅智成轉化了古典傳說中的桃花源,從建築物、語言、社會制度、教育、金錢觀、時間觀、生死觀等諸多面向切入,重新再創造了一個羅氏版本的桃花源,一方面呈現了詩人心目中理想的文明形象,另一方面也透露了詩人嚮往的詩境面貌。
這份評論想從:詩語言手法、虛空間的創造、理想的文明,這三個角度探討、分析《問津:時間的支流》中的詩境,解構羅智成理想的文明,究竟是什麼樣的文明?又詩人是如何用詩語言,一步一步實踐,打造他嚮往的詩世界?
詩語言手法
「喜直覺、善隱喻的羅智成正是微宇宙中的教皇,他語言的驚人魅力,籠罩了許多八○年代 詩人的視野,近乎純粹的神祕主義,使得他在文字中坦露無遮的陰森個性,以及他牢牢掌握的形式,同時成為他詩思的本質。是的,個性 和形式不僅是羅智成思想的部分,也是他詩思的本身。」——林燿德〈微宇宙中的教皇──初窺羅智成〉
正如林燿德所評論,初讀羅智成作品,首先會立刻被他自成一天地的敘事魅力所吸引。他動用五感,細膩描寫了一個介於虛實之間的時空。讀者都明白書中的故事純屬虛構,然而因其中湧現出的豐富的閱讀樂趣,一再召喚,使讀者超越真假議題之外,心甘情願進入他打造的奇幻空間。我認為這正是閱讀羅智成詩的一大樂趣所在。
不分篇目的長篇敘事結構
在內容之外,《問津:時間的支流》在形式上也很特別,全書是一首逾三千行的大長篇敘事詩,且並沒有以篇目、分輯的方式拼湊出故事的全貌,而僅僅以詩人自己設計的,類似小篆的「桃」字符號「」,作為停頓與休息。推動敘事的方式不仰賴章節,而全依靠羅智成的敘事邏輯,及使用文字的高度掌握力。
要推動篇幅這麼長的故事進展,羅智成展現了繁複多元的敘事方式。使用了對話、夢境、五感感官描寫、場景白描、自問自答等,充分展現了敘事詩的幾乎所有手法。這樣長篇幅的敘事,恰好可以呈現「微宇宙的教皇」以形式作為詩思本質的特性,也可見其創造自給小宇宙的龐大語言魅力。
生澀的用字
詩是由一個又一個「詞」和「字」所組成的,羅智成認為「迷戀文字本身就是詩人基本的特質之一」、「不止是它所指涉的對象,還包括它本身的形象、腔調、字質都是文學創作的重要髓質」。
這或許可以解釋羅智成用字的精確,甚至近乎獨裁。他經常使用一些較為生僻、不常用的字詞,例如:「到窗『牖』半敞的咖啡座發呆」;「玁狁」;「『犬牙交錯』的嶙峋山嶺之間」;「和『巫咸』大神爭辯交心」;聽見大『鯢』遠遠哀鳴。」等,都是在現代日常生活中不大會使用到的語言。
也多有轉化古文,並用現代的語言交雜辯證的句子:「我們到底重返了誰的夢境?/「夾岸數百步,中無雜樹,/芳草鮮美,落英繽紛……」/我自始至終懷疑這一切/因為我要求/可以滿足科學的解釋/至少不違背理性與常識」引用了陶淵明的句子,並提出懷疑。
雖然用典繁多、用字生僻,然而在閱讀的過程中,卻不似閱讀文言文時,因時代和語境差異,而有隔閡或障礙的感覺。想是因羅智成流暢的行文風格,能使古典與現代語言融合為一,保有恰好的節奏感及密度。既不造成閱讀的距離感,同時還形成精緻、耐讀、具有知識和歷史厚度的文字美學風格。
(三)敘事方式:告白體、對話
如前所述,「沒有距離感」的閱讀體驗,是羅智成語言特色之一。朱雙一曾評論羅智成作品:「詩人藉此構成了一種輕聲慢語、款款而訴、有如促膝交談的傾訴體風格。」羅智成則自創「告白體」一詞,形容那是為了滿足傾訴的需要,創造一個能真誠告白的對象。《問津:時間的支流》開篇首句便是「有時我會忍不住 想跟你描述桃花/那充滿療癒和神秘力量的粉彩植物」迅速縮短作者與讀者之間的距離。
告白的對象,也是詩人理想文明的其中一種化身,透過傾訴、告白,詩人可以跳脫自問自答的處境,向一個「他者」自然地表露自己最私密,也最幽微的心思。讀者也在行文中,自動承接了「傾聽者」的位置,進入放鬆聽故事的狀態。
除了告白體,文本中也常用不同角色、不同立場的對話方式,呈現對理想的文明的多重思考層次。故事中主要有四方角色:奶奶﹙永周邑人、離開並重返﹚;詩人﹙外人,進入永周邑並想離開﹚;Q﹙外人,進入永周邑並想留下﹚;小司命﹙永周邑人,想離開﹚。這四個角色恰好是完美的對照組,有來自烏托邦而拼命想往外探看的永周邑人,也有不斷在向內探看的外人。
奶奶:「於是有了被無知禁錮的恐慌/確定愛上他的時候/我也確定不想再多待一天/在一成不變的鄉里」
小司命:「我不知道要如何/完成這個願望/但是我很確定/沒到外面看看/我這輩子都不可能死心」
Q:「我想近距離跟時間相處/看看它的廬山真面目/就在當下 就在這裡/不被行程/不被還沒發生的事打擾」
詩人:「『也許我對妳/又一次犯下了像/對奶奶那樣的無知之過……』/她憂戚地苦笑/我凜然感覺/她已成為幽靈的一部分/我們無法相擁了」
關於出去或留下、開放或封閉;崇古或進步。詩人雖有自己的立場,但也保留了處於不同背景和位置的,其他角色的想法。藉由四方交叉對話,讓讀者對桃花源有多面向的看法。這些對話正像看待一個空間的不同視角,有俯瞰的平面圖視角、有從正門望過去的風景視角、也有從內往外望的內在視角。透過這些不同視角,我們才可以想像出一個較立體的、客觀的空間。
虛空間的創造
羅智成是善於創造「虛空間」的,打從《夢中書房》中,他就創造了一個「有痛覺般」的書店,在書店裡自願且耽溺的陷入文字的迷宮:「書店以不起眼的門面對外經營/在重重書架後頭/它卻兀自生長/以一種初生星球的能量、暴力/和不可思議的可能……」;《夢中邊陲》中有個「多出來的」第二十五時區,是一個詩人心智上的家鄉:「在彼/我還沒出生/還沒有戶籍/我還沒醒來/還沒有故鄉/只有一個/未曾謀面的地方/我卻渴望回去」
對那個沒有戶籍、且未曾謀面的地方,詩人卻產生了「鄉愁」,渴望回去。因為那雖然不是身體的出生地,卻是詩人心靈上永恆的家鄉,永恆的夢土。
在《問津:時間的支流》本書裡,也延伸了這樣的「鄉愁」,只是詩人創造的虛空間,或者該說是虛時空,從二十五時區變成永周邑。永周邑沒有地圖,僅依靠人的記憶,而且只有在六十年一次的漲潮中才能尋到通往永周邑的小溪,永周邑可遇而不可求,是一個夢境一般介於真與假之間的空間。
這個詩人所創造的虛空間是一個容器,容器有各式各樣的樣子,也許是書房、也許是不存在的二十五時區,也或許是《問津:時間的支流》裡頭,掉落在時空夾縫中的桃花源,詩人創造了虛空間,為了盛裝他對理想的文明的想像。
理想的文明
「什麼是理想的文明呢?」羅智成以多層次辯論的方式,提出對現代文明的反思:「現代人又為什麼/得創造這麼多事物來追求?/活得更豐富、體驗得更多/無休止地加快生活節奏/以焦慮和亢奮撐出充實假象/來告訴自己沒有白活」;「過多新生事物的追求與刺激/壓縮了回顧與回味的時辰/我們的生命遲遲無法展開/甚至淪為無止境的過渡/時間被滿滿的行程替換/時間也被偷走了」。
並且在反思現代文明的同時,卻又對一手所創建的虛空間,所謂的桃花源或烏托邦,提出質疑:「封閉的世界/似乎保留更多原汁原味/讓我們加倍珍惜/但如果拋開崇古主義/你會發現最古老的/雖然極為難得/卻往往不是你想要的」;「可是充滿現代意識的我/卻不由為他們感到悲哀/因為他們失去了某種現實性/一旦重見天日便會煙消雲散/墓穴壁畫無法和空氣接觸/這讓一切美景顯得徒然」。
羅智成心目中理想的文明,似乎是相對於現代世界、同時又相對於桃花源,存在於這兩者之外,另一個尚未被抵達、等待被一步一步實踐的自我空間。
羅智成的詩境
音樂家以音符建構自己的城堡;詩人則是以詩語言,建立自己的宇宙。對羅智成來說,「詩」這個文學形式,不是詩人建立理想文明的一種「手段」而已,詩這種文字形式即是理想文明的本質。
若從這個角度來看,文本中諸多對理想文明的辯證,其實也是詩人對「詩」的嚮往和論證:
「人類內心最裡面/一直渴望無條件去相信……」
「如果凡事一成不變/連「最古老」都會失去意義」
「單是與世隔絕/成就不了桃花源/我必須更坦率、更無成見地/和我的故事對話」
「只有暴露於它/我們才能和現實世界/成為一體」
詩人所嚮往中的詩境,並不是像傳統的桃花源那樣,隔絕於現實世界之外的,而是暴露於現實世界中,能夠不畏現實,與它「成為一體」。因為若一昧崇古、一成不變,古老也將會失去意義。詩歌應勇於創新,並且更無成見、更坦率的與自己的故事對話。詩人相信,理想的文明和詩歌,是每個人內心的鄉愁。詩人的內心最深處,有一個渴望去觸碰和無條件相信的,永恆的家鄉。
參考資料:
書籍
羅智成,《問津:時間的支流》,聯合文學出版,2019.03
羅智成,《夢中邊陲》,印刻出版,2008
羅智成,《夢中書房》,聯合文學出版,2002
羅智成,《文明初啟》,聯合文學出版,1999
朱雙一,《戰後台灣新世代文學論》,揚智出版,2002。
論文:
林燿德〈微宇宙中的教皇──初窺羅智成〉,《一九四九》,臺北:爾雅出版社,1986。
田運良,〈詩密室的黑與亮、囚與逃〉──羅智成詩的空間意象,《東吳中文線上學術論文》第三十七期,2017.03
曾琮琇,〈從自轉到公轉──論羅智成《黑色鑲金》中的後設美學〉,《台灣文學研究學報》,2010
李泓柏,〈羅智成詩研究〉南華大學文學研究所碩士論文,2004.06
--
美術設計:游佳真
圖片來源:游佳真
--
https://cendalirit.blogspot.com/2021/02/20210211.html
#每天為你讀一首詩 #羅智成 #問津 #詩境 #敘事
中文句子結構分析器 在 李開復 Kai-Fu Lee Facebook 的最佳解答
來自創新工場大灣區人工智慧研究院的兩篇論文入選了自然語言處理領域(NLP)頂級學術會議 ACL 2020 。
這兩篇論文均聚焦中文分詞領域,是深度學習引入知識後的有益嘗試,將該領域近年來廣泛使用的各資料集上的分數全部刷至新高,在工業中也有著可觀的應用前景。
本文來自創新工場公眾號
……………………………………………………………………
創新工場兩篇論文入選ACL 2020,將中文分詞性能刷至新高
“土地,我的金箍棒在哪裡?”
“大聖,你的金箍,棒就棒在,特別配你的髮型。”
感謝神奇的中文分詞,給我們帶來了多少樂趣。豐富多變的中文行文,給人的理解造成歧義,也給AI分詞帶來挑戰。
近日,自然語言處理領域(NLP)頂級學術會議 ACL 2020 (https://acl2020.org/)正在火熱舉行。
令人振奮的是,來自創新工場大灣區人工智慧研究院的兩篇論文入選。這兩篇論文均聚焦中文分詞領域,是深度學習引入知識後的有益嘗試,將該領域近年來廣泛使用的各資料集上的分數全部刷至新高,在工業中也有著可觀的應用前景。
分詞及詞性標注是中文自然語言處理的基本任務,尤其在工業場景對分詞有非常直接的訴求,但當前沒有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。
基於此,兩篇論文各自提出了“鍵-值記憶神經網路的中文分詞模型”和“基於雙通道注意力機制的分詞及詞性標注模型”,將外部知識(資訊)創造性融入分詞及詞性標注模型,有效剔除了分詞“噪音”誤導,大幅度提升了分詞及詞性標注效果。
兩篇文章的作者有:華盛頓大學博士研究生、創新工場實習生田元賀,創新工場大灣區人工智慧研究院執行院長宋彥,創新工場科研合夥人張潼,創新工場CTO兼人工智慧工程院執行院長王詠剛等人。
ACL(The Association for ComputationalLinguistics)國際計算語言學協會是自然語言處理領域影響力最大、最具活力的國際學術組織之一,自1962年創立以來已有58年歷史,其每年夏天舉辦的年會是該領域學術頂會。
與往年不同的是,受新冠疫情影響,ACL2020全部轉為線上進行,不過這絲毫沒有減弱熱度。根據之前公佈的資料,今年大會投稿數量超過3000篇,共接收 779 篇論文,包括 571 篇長論文和 208 篇短論文,接收率為 25.2%,在全球疫情衝擊下反而是有史以來最盛大的一屆ACL會議,創新工場的技術大牛們也頂著時差連續數晚熬夜參會。
▌利用記憶神經網路,將中文分詞性能刷到歷史新高
中文分詞目的是在中文的字序列中插入分隔符號,將其切分為詞。例如,“我喜歡音樂”將被切分為“我/喜歡/音樂”(“/”表示分隔符號)。
中文語言因其特殊性,在分詞時面臨著兩個主要難點。一是歧義問題,由於中文存在大量歧義,一般的分詞工具在切分句子時可能會出錯。例如,“部分居民生活水準”,其正確的切分應為“部分/居民/生活/水準”,但存在“分居”、“民生”等歧義詞。“他從小學電腦技術”,正確的分詞是:他/從小/學/電腦技術,但也存在“小學”這種歧義詞。
二是未登錄詞問題。未登錄詞指的是不在詞表,或者是模型在訓練的過程中沒有遇見過的詞。例如經濟、醫療、科技等科學領域的專業術語或者社交媒體上的新詞,或者是人名。這類問題在跨領域分詞任務中尤其明顯。
對此,《ImprovingChinese Word Segmentation with Wordhood Memory Networks》這篇論文提出了基於鍵-值記憶神經網路的中文分詞模型。
該模型利用n元組(即一個由連續n個字組成的序列,比如“居民”是一個2元組,“生活水準”是一個4元組)提供的每個字的構詞能力,通過加(降)權重實現特定語境下的歧義消解。並通過非監督方法構建詞表,實現對特定領域的未標注文本的利用,進而提升對未登錄詞的識別。
例如,在“部分居民生活水準”這句話中,到底有多少可能成為詞的組塊?單字可成詞,如“民”;每兩個字的組合可能成詞,如“居民”;甚至四個字的組合也可能成詞,例如“居民生活”。
把這些可能成詞的組合全部找到以後,加入到該分詞模型中。通過神經網路,學習哪些詞對於最後完整表達句意的幫助更大,進而分配不同的權重。像“部分”、“居民”、“生活”、“水準”這些詞都會被突出出來,但“分居”、“民生”這些詞就會被降權處理,從而預測出正確的結果。
在“他從小學電腦技術” 這句話中,對於有歧義的部分“從小學”(有“從/小學”和“從小/學”兩種分法),該模型能夠對“從小”和“學”分配更高的權重,而對錯誤的n元組——“小學”分配較低的權重。
為了檢驗該模型的分詞效果,論文進行了嚴格的標準實驗和跨領域實驗。
實驗結果顯示,該模型在5個資料集(MSR、PKU、AS、CityU、CTB6)上的表現,均達了最好的成績(F值越高,性能越好)。(注:所選擇的五個資料集是中文分詞領域目前全世界唯一通用的標準資料集)
創新工場大灣區人工智慧研究院執行院長宋彥表示,與前人的模型進行比較發現,該模型在所有資料集上的表現均超過了之前的工作,“把中文分詞領域廣泛使用的標準資料集上的性能全部刷到了新高。”
在跨領域實驗中,論文使用網路博客資料集(CTB7)測試。實驗結果顯示,在整體F值以及未登陸詞的召回率上都有比較大提升。
▌“雙通道注意力機制”,有效剔除“噪音”誤導
第二篇論文《Joint ChineseWord Segmentation and Part-of-speech Tagging via Two-way Attentions ofAuto-analyzed Knowledge》提供了一種基於雙通道注意力機制的分詞及詞性標注模型。
中文分詞和詞性標注是兩個不同的任務。詞性標注是在已經切分好的文本中,給每一個詞標注其所屬的詞類,例如動詞、名詞、代詞、形容詞。詞性標注對後續的句子理解有重要的作用。
在詞性標注中,歧義仍然是個老大難的問題。例如,對於“他要向全班同學報告書上的內容”中,“報告書”的正確的切分和標注應為“報告_VV/書_N”。但由於“報告書”本身也是一個常見詞,一般的工具可能會將其標注為“報告書_NN”。
句法標注本身需要大量的時間和人力成本。在以往的標注工作中,使用外部自動工具獲取句法知識是主流方法。在這種情況下,如果模型不能識別並正確處理帶有雜音的句法知識,很可能會被不準確的句法知識誤導,做出錯誤的預測。
例如,在句子“他馬上功夫很好”中,“馬”和“上”應該分開(正確的標注應為“馬_NN/上_NN”)。但按照一般的句法知識,卻可能得到不準確的切分及句法關係,如“馬上”。
針對這一問題,該論文提出了一個基於雙通道注意力機制的分詞及詞性標注模型。該模型將中文分詞和詞性標注視作聯合任務,可一體化完成。模型分別對自動獲取的上下文特徵和句法知識加權,預測每個字的分詞和詞性標籤,不同的上下文特徵和句法知識在各自所屬的注意力通道內進行比較、加權,從而識別特定語境下不同上下文特徵和句法知識的貢獻。
這樣一來,那些不準確的,對模型預測貢獻小的上下文特徵和句法知識就能被識別出來,並被分配小的權重,從而避免模型被這些有噪音的資訊誤導。
即便在自動獲取的句法知識不準確的時候,該模型仍能有效識別並利用這種知識。例如,將前文有歧義、句法知識不準確的句子(“他馬上功夫很好”),輸入該雙通道注意力模型後,便得到了正確的分詞和詞性標注結果。
為了測試該模型的性能,論文在一般領域和跨領域分別進行了實驗。
一般領域實驗結果顯示,該模型在5個資料集(CTB5,CTB6,CTB7,CTB9,Universal Dependencies)的表現(F值)均超過前人的工作,也大幅度超過了斯坦福大學的 CoreNLP 工具,和伯克利大學的句法分析器。
即使是在與CTB詞性標注規範不同的UD資料集中,該模型依然能吸收不同標注帶來的知識,並使用這種知識,得到更好的效果。
而在跨領域的實驗中,和斯坦福大學的CoreNLP 工具相比,該模型也有近10個百分點的提升。
▌主動引入和分辨知識,實現中文分詞技術突破
中文分詞在中國科研領域已經有幾十年的歷史。最初的中文分詞是基於詞典構建,詞典的好壞會直接影響到最後分析的效果。如果某個新詞在詞典裡沒有,那麼模型是死活都分不出來的。
這種方式的局限性還在於,詞典和分詞兩件事情中間始終有一條鴻溝,儘管詞典可以編撰得非常全面,但在處理分詞的時候,因為每一句話都有上下文語境,往往會產生多種不同的切分方法,從而無法有效地在當前語境下對分詞結構進行恰當的指導。
從2003年開始,分詞方法出現了新的突破。研究人員提出了打標籤的方式,通過給每一個字打詞首、詞尾、詞中的標籤,不再需要構建詞典,大幅度提升了未登錄詞的召回效果。
到了2014年左右,深度學習和神經網路開始被廣泛應用到中文分詞中,打標籤的模型從之前的淺層學習變成了深度學習,但演算法本質沒有發生變化,所以提升作用並不太大。
近兩年,學界開始研究怎麼在打標籤的過程中加入外部知識和資訊。創新工場的這兩篇文章就是沿著這個路徑,用記憶神經網路的方式記錄對分詞結果有影響的 n元組,並引入對詞性標注有影響的句法知識,將分詞結果和自動獲得的知識銜接起來,既發揮了神經網路的優勢,也把知識的優勢用上,實現了分詞技術上小而有效的改進和突破。
宋彥表示,“從技術創新的角度,我們的貢獻主要有兩點。一是在現有技術的基礎上,建立了一個一體化的模型框架,使用非監督方法構建詞表,並把知識(資訊)融入進來,使用更高層次的句法知識,來幫助詞性標注,起到'他山之石,可以攻玉’的效果。”
“二是主動吸收和分辨不同的外部知識(資訊)。通過鍵-值記憶神經網路和雙通道注意力機制,進行動態權重的分配,能夠有效分辨知識,區分哪些是有效的,哪些是無效的。雖然這些知識是自動獲取的、不準確的,但‘三個臭皮匠,頂個諸葛亮’,經過有效利用,總能湊出一些有用的資訊。如何實現模型的主動吸收和分辨,就變得更加重要。”
據瞭解,今年的ACL大會,在分詞領域一共收錄了18篇論文,創新工場人工智慧工程院同時有2篇入選,也表現出ACL官方對這一貢獻的認可。
▌具備跨領域分詞能力,提升工業應用效率
中文分詞和詞性標注是最底層的應用,對於接下來的應用和任務處理非常重要。例如對於文本分類、情感分析,文本摘要、機器翻譯等,分詞都是不可或缺的基本“元件”。
宋彥表示,做此項研究的目的是主要為了拓展其工業場景的應用,正確的分詞能夠平衡公司應用開發的效率和性能,同時方便人工干預及(預)後處理。
這也是創新工場人工智慧工程院的努力方向之一。工程院成立於2016年9月,宗旨是銜接科技創新和行業賦能,做嫁接科研和產業應用的橋樑,為行業改造業務流程、提升業務效率。
工程院下設北京總部、南京研究院和大灣區研究院。大灣區研究院再下設資訊感知和理解實驗室,專注于對自然語言處理(NLP)領域的研究。執行院長宋彥本人也有超過15年的NLP領域的科研經驗。
“在工業場景使用的時候,跨領域的模型能力是一個非常直接的訴求。”宋彥表示,在某個領域的訓練模型,大概率也需要應用到其他領域。
“如何在新領域缺少資料,或者新領域只有少量未標注資料的情況下,實現模型的冷開機,依然是項巨大的挑戰。如果能利用外部知識,提高模型性能,就能有效地召回很多在訓練集中沒有出現過的新詞。”
例如搜尋引擎的廣告系統,最初也是通過組詞匹配的方式,在某個特定領域訓練其分詞模型,但在進入一個新的領域時,例如從新聞領域進入醫療領域或體育領域,效果往往會大打折扣,甚至頻頻出錯。
而使用跨領域特性後,廣告系統在進入新領域時,便無需額外的資料,就可以對它進行比較準確的分詞和標注,從而有效匹配廣告和客戶,大大提升系統運行的效率和穩定性。
目前,這兩篇論文的工具都已經開源,在下面兩個連結中,可以找到對應的所有代碼和模型,各位朋友可按需自取:
分詞工具:https://github.com/SVAIGBA/WMSeg
分詞及詞性標注工具:https://github.com/SVAIGBA/TwASP
中文句子結構分析器 在 啟點文化 Youtube 的最佳解答
[ 7/21 開課!]【寫作小學堂】~寫出專屬風格,找回文字悸動
打造一盞自己的聚光燈,建立起專屬於你的品牌印象
課程資訊:https://www.koob.com.tw/contents/3655
【線上課程】《人際斷捨離》~
讓你留下怦然心動的關係,活出輕盈自在的人生!
課程連結:https://pse.is/E5MW5
第一講免費試聽:https://youtu.be/YyLvd1cNcDw
【人際維基】桌遊體驗會~讓你一玩就懂別人的在乎~06/16(日)14:00
活動資訊課程:https://www.koob.com.tw/contents/3072
[ 8.21 開班!]《CIA通達力》初階班~全方位溝通表達訓練(第二十七期)
讓原本的你成為自己的力量與資源,帶你前往想去的地方。
課程資訊:http://www.koob.com.tw/contents/37
更多學員心得分享:http://pse.ee/5TB7F
【線上課程】《時間駕訓班》~
學會提升效率,擺脫瞎忙人生,做自己時間的主人
課程連結:https://pse.is/DDDHB
第一講免費試聽:https://youtu.be/flfm52T6lE8
線上課程【不用開口,就讓你擁有人際好感】
啟動人際溝通的關鍵影響力 https://goo.gl/v3ojdo
桌遊【人際維基】~一玩就懂得別人的在乎:https://goo.gl/Ej4hjQ
到蝦皮購買【人際維基】:https://goo.gl/ASruqR
=============================
以下為本段內容文稿:
今天我提出兩個問題,邀請你思考一下。這兩個問題就是,你覺得是一個人的行為,決定這一個人的個性;還是這一個人的個性,決定這一個人的行為?
簡單來說就是喔,到底我們是因為自己做了什麼事情,然後認為自己是怎樣的人;還是啊,你先認為自己是怎樣的人,所以對於某些事情,你才會選擇做它,或者是不做它?
我想多數時候,我們直覺都會覺得,應該是「個性決定行為」才對吧!但事實上喔,所有的心理學研究都指向一個證據。
這個證據就是,其實是我們先做了某些事、我們先說了某些話,然後我們再透過事後合理化的過程,去形塑出我們對於自己,到底是一個怎樣的人,也就是自己個性這方面的認識。
可能你聽到這邊會覺得有點繞哦,其實我今天談的,就是在心理學裡面,叫做「自我知覺理論」。
「自我知覺理論」認為我們的態度,不管對自己還是他人,它其實是源自於,我們對於自己行為的觀察。
通常我們沒有辦法真正很明確的,去指出我們對某件事情的行為、態度,它的歸因是什麼?
但是呢,我們會運用「看圖說故事」,也就是連結的方式,讓這件事情聽起來是合理的。
在1993年,有三位心理學家,分別是約翰.卡西歐波,跟喬瑟夫.普利斯特,還有格雷.伯恩特森,他們做了一個聯合的實驗。
他們的實驗方法很有趣哦,他們拿「中文」給那些不懂中文的受試者看。然後要他們回答,他們看到這個中文字的感覺,是正面的還是負面的?
然而實驗的操弄,就是在這些人看這個中文字的時候,有些受試者,他們是邊回答這個字給他們的感覺。
而這個字一邊由桌子下面往上提,也就是說這個「字」,會呈現出越來越往上抬,然後靠近這個受試者的方向。
然而有些受試者,則是相反的。就是他們邊感受、邊說這個中文字給他們的感覺,而一邊回答的同時,這個桌面是被他們撐住、而且往下壓,也就是「字」會離他們越來越遠。
結果這個實驗發現喔,那些受試者,他們只要是面對這個「字是往上提」的,他們多數會感覺到,這個中文字是正面的感覺。但事實上,他們根本不懂中文,搞不好上面是寫個「死亡」的「死」字也不一定。
但另外一組人,當他們看到這個「字是往下壓」的時候,他們大多都得到負面的評價,他們都覺得這個字是不OK的,感覺是不舒服的。但也可能那個向下壓的字,上面是寫個「好」也不一定啊。
那這到底背後的原理是什麼?其實很簡單哦,是因為我們不自覺的,會把肌肉的收縮,跟「正面的經驗」綁在一起。
也就是說這個「字是往上提」的時候,彷彿是我們的手,往上收縮這樣的感覺,它跟擁抱、它跟接受的這個肌肉的運動方向是一樣的。
而相對的我們會把肌肉的延伸,連接到負面的感受,也就是當那個「字是往下壓」的時候,就好像是我們的肌肉在延伸的過程,彷彿是我們排斥一件事,或者是把這個字推開。
所以只光「推」跟「拉」這個動作,就會影響到我們的感受。而如果進一步來看的話,事實上我們還在襁褓裡面的時候,我們就會下意識的,把自己想要的東西,往自己的身邊拉,而把我們不要的東西往外推。
所以在「自我知覺」裡面,進一步的把我們這種,屬於身體的感官上面的記憶跟歸因,把它分成是「宣告式的顯性記憶」,跟「非宣告式的隱性」這兩種。
而「宣告式的顯性記憶」,就像我們的隨意記憶一樣,可以透過你自己的自主意識,而決定它的運動方向。
而「非宣告式的隱性記憶」,會不自覺的被儲存在我們的大腦潛意識裡面。這個部分跟我們的直覺是很類似的。
然而在「自我知覺理論」裡面的實驗,都發現了一件事,不管是「宣告式的記憶」還是「非宣告式的記憶」,它們對我們的影響力幾乎是一樣的。
所以也因為這樣子,我們除了是被動的,因為我們身體的行為跟動作被刺激、被引發,而決定我們的內在心情之外呢。
事實上,我們也可以去主動的去創造出,很多對自己的情緒跟主觀認知,有「正面效果」的動作。
當然了在這個部分,如果你是我們長期的聽眾的話,你可能聽過,過去我分享了很多內容。
比如說,你希望自己面對某個挑戰的時候,更勇敢、更堅定;你所需要做的,並不是給自己打雞血、不斷的自我催眠,說「我要強壯起來!」。
反而啊,這個時候你先忽略你怎麼告訴自己的話,你先讓自己的身體,去做出那個領域擴張啊、抬頭挺胸啊、下巴微微的抬起這些動作;反而你會很快的感受到,自己的信心跟勇氣。
那麼談到這裡,或許你也會好奇,除了動作的自我暗示以外,有沒有可能你可以透過「自我知覺理論」,去引導別人、去創造出別人內在的主觀認知?
有些朋友聽到這邊,可能直接的就會想到,那我老叫別人去做運動、去做伸展,然後呢跳帶動唱…。
這似乎的確啦!別人在做的時候,可能會覺得振奮;可是這種招數玩久了,其實所有人也會覺得很無聊,而且那個套路、那個刻意的痕跡,實在是太明顯了!
所以,所有曾經參與過我課程的朋友都知道,我從來不會在我的課程跟教室裡面,去做那些讓所有人,會得到尷尬癌末期的所有相關的事情。
可是呢,如果我不去引導別人的行為,那我還有沒有別的方式,可以去創造出別人的「自我知覺理論」,而透過這樣的歸因的方式,把它引導到我想要帶他去的地方?
其實啊,除了口語跟自我呈現之外,還有另外一個途徑就是「文字」。你會發現社群網路、IG、Facebook…這麼風行的年代,其實文字表達的能力是非常重要的。
如果你能夠善用文字的結構,跟善用文字的引導,那麼你會發現一件事。關鍵往往不在於,你是否能夠去寫出很厲害的句子;而是你整篇文章,所呈現出來的氛圍,到底帶給別人什麼樣的感受?
就像我的伴侶嘉玲老師,她推出了很多在市場上非常暢銷的書籍。很多讀者讀完之後,都會感覺到非常的有幫助,而且充滿療癒性。
可是如果你細細的去分析她的字詞,她所使用的詞彙跟句子,沒有那些很複雜的、很困難的,或咬文嚼字的。但是她字裡行間所呈現出來的氛圍,卻是這麼的引人入勝。
這裡面就說明了一件事,其實「自我知覺」除了我們的行為、動作的自我引導之外;如果你要更積極的,去引導他人的自我知覺,那麼「文字」是一個重要的途徑。
就像今天開頭所說的,如果你認為一個人,是因為他的個性決定他的行為,那麼很多事情是無解的。
可是如果你很清楚,其實所有人的個性,都是先由某些行為,或者是你先引導出他某些行為跟認知,而決定了他自己的內在認知;那麼「文字」就是這個時代,最有力的武器。
所以,如果你想要在「文字表達」上有所精進,你想要透過文字鋪成的氛圍,不是去學那些很匠氣的套路,而是回到文字的根本、回到訊息傳遞的根本。
透過「文字」去創造出你想要有的影響力的話,那我在這裡就會很鼓勵你,可以好好把握,嘉玲老師在7月21號開課的「寫作小學堂」。
這一門課,可以說是集其她畢生的功力,把所謂的「文字表達」怎麼樣寫出自己的風格,透過課程的學習跟實做的引導,讓你找到屬於自己文字的影響力。
所以很期待,能夠在「寫作小學堂」裡,跟你一起學習、一起前進。希望今天的分享,能夠帶給你一些啓發與幫助,我是凱宇。
如果你喜歡我製作的內容,請在影片裡按個喜歡,並且訂閱我們的頻道,別忘了訂閱旁邊的小鈴鐺,按下去;這樣子你就不會錯過,我們所製作的內容。
然而,如果你對於啟點文化的商品,或課程有興趣的話,如同今天所提到的「寫作小學堂」,下一期我們在7月21號開課。
相關的課程連結,在影片說明裡都有。我很期待能夠在啟點文化的教室裡,見到你,謝謝你的收聽,我們再會。
中文句子結構分析器 在 中文句子結構分析器在PTT/Dcard完整相關資訊 - 健康急診室 的推薦與評價
提供中文句子結構分析器相關PTT/Dcard文章,想要了解更多英文句型分析網站、中文句子結構分析器、英文句子重組幫手有關健康/醫療文章或書籍,歡迎來健康急診室提供您 ... ... <看更多>
中文句子結構分析器 在 中文句子結構分析器在PTT/Dcard完整相關資訊 - 輕鬆健身去 的推薦與評價
提供中文句子結構分析器相關PTT/Dcard文章,想要了解更多常用英文句型、日常對話英文、小學中文句子結構有關運動與健身文章或書籍,歡迎來輕鬆健身去提供您完整相關 ... ... <看更多>
中文句子結構分析器 在 中文句子結構分析器在PTT/Dcard完整相關資訊 - 健康急診室 的推薦與評價
提供中文句子結構分析器相關PTT/Dcard文章,想要了解更多英文句型分析網站、中文句子結構分析器、英文句子重組幫手有關健康/醫療文章或書籍,歡迎來健康急診室提供您 ... ... <看更多>