-- 好工作分享 --
WhosCall 公司 Naver集團( Line )旗下Gogolook Co., Ltd 徵才 Data engineer
臺灣,香港,韓國,泰國,巴西跨國跨文化團隊
https://whoscall.com/zh-TW/careers/joblist/57
你的使命
1 使用機器學習或深度學習建立現代的 Whoscall 產品
2 為資料建模建立自動化流程
3 與計劃人員和程式設計團隊合作,為各種資料專案建構概念驗證系統
要求
1 熟悉 Python
2 有 Keras 的 TensorFlow,Scikit-learn 經驗
3 熟悉 Word 嵌入,網路嵌入相關知識(word2vec,deepwork 等)
4 熟悉機器學習和深度學習訓練(Dropout, bagging, sampling, CNN, RNN, regression, k-means 等)
5 有 AWS 或 GCP 相關的經驗
6 熟練使用 SQL、 Hive、 Presto 等查詢語言
7 資料導向型人格和良好的溝通技巧
8 深刻理解現代機器學習技術及其數學基礎,如分類、推薦系統和自然語言處理
9 具有分散式機器學習和計算框架的經驗(Spark、 Mahout 或其他類似) ,有應用經驗者優先
相關線上學習課程 :
✍AWS https://softnshare.com/tag/affiliate-aws/
✍GCP https://softnshare.com/?s=gcp
✍TensorFlow https://softnshare.com/tag/tensorflow/
✍Python https://softnshare.com/python-learning-maps/
✍SQL https://softnshare.com/?s=SQL
✍Machine Learning http://bit.ly/2PElikL
✍NLP http://bit.ly/SNS-NLP
✍Spark https://softnshare.com/tag/spark/
✍Math. https://softnshare.com/tag/math/
https://whoscall.com/zh-TW/careers/joblist/57/
word2vec訓練 在 李開復 Kai-Fu Lee Facebook 的精選貼文
DeeCamp T2I團隊利用三周的時間,開發出了一款“基於古詩詞文本語義的圖片生成”工具。這個工具,能根據詩歌的意象和情感理解,畫出AI心中的唐風宋韻。
看到這麼多優秀的DeeCamp學生真是感覺後生可畏啊。
【全文來自創新工場公眾號,動態demo看這裡 https://mp.weixin.qq.com/s/P-5QNen22ECKBALCiieWQw】
大漠孤煙、長河落日,AI也有詩情畫意 | DeeCamp Show
文化承載著國家的基因,文化的傳承影響國家未來的發展。十八大以來,“文化自信”成為了熱門詞彙。縱觀中華文明上下五千年,最能體現文化自信的載體非古詩詞莫屬。
優美的詩詞裡蘊含著豐富的歷史情感,傳遞著多彩的中國故事。學詩讀詞是每個華夏兒女從小必修的功課。
但詩詞的用詞往往比較隱諱,意義也跟現代理解有了較大的差別。
但如果有一個工具能將詩詞當中的意向和情感提取出來,這將大大降低人們鑒賞古詩詞時的門檻,將更好的激發人們對詩詞的探索熱情,助力漢語的傳承與發揚。
你能否想像,AI不僅能精准的提取詩詞中的意象與情感基調相結合,還能在此基礎上生成獨具風格的圖片。
在DeeCamp訓練營中,組名為Text2Image(下文簡稱為T2I)的學員們將這一想像變成了現實。
T2I團隊利用三周的時間,開發出了一款“基於古詩詞文本語義的圖片生成”工具。這個基於AI技術的工具,能根據詩歌的意象和情感理解,生成意象圖片,並對這個圖片進行情感渲染著色和水墨風格的遷移,最終畫出AI心中的唐風宋韻。
這款極具創新性的工具讓AI和古詩文碰撞出了前所未有的火花。
一、技術解密
T2I的研究內容,分為對古詩文本語義的理解、意向圖片內容的生成、情感著色並且進行水墨化的風格遷徙三部分。
在文本方面,T2I搜集了5萬多首唐詩,使用規則匹配和CNN提取意象,準確率可達到91%。在情感判別方面,T2I人工標注了2200多句詩歌的情感正負傾向,使用word2vec字向量分析和情感字典自動標注數據,以句為單位進行情感判別,準確率達80.1%。
而為了實現情感著色,T2I人工搜集了基於荷、草、柳、梅、沙漠、山、雲、雁8個意向的25000張單意象圖片和2000張多意象圖片,使用WGAN-GP和風格遷移等模型,結合Open-CV等工具,實現了情感著色和水墨圖片生成。
二、難點解析
據T2I的成員介紹, 該項目的主要難點在於:由於沒有現成的古詩文本與對應內容圖片的成對數據,從演算法上來看,則沒有現成可直接利用的端到端演算法。故而團隊將任務拆解為文本語義理解和圖片生成兩個部分。在文本語義理解方面,因古詩詞結構的多樣性和內容的豐富性,導致實現難度較大。
而在圖片生成方面,當古詩文存在混合意向時(如:花有清香月有陰),則需生成多意象並存的圖片意向融合。
因此,T2I的成員的積極的在開發過程中進行了創新:在文本語義理解的演算法上,團隊優先考慮從原文中直接提取意向。當原文無直接意象時,借助譯文對於意象的解讀進行規則匹配,原文和譯文都沒有時,借助CNN網路進行建模推斷。
在T2I的努力下,一個既能讀得懂優美的山水田園詩,還能揮毫作畫,畫出唐風宋韻的AI粲然而生。得益於相當完整精緻的技術方案,這份詩人與AI穿越千年時空實現的心靈互通的美好在DeeCamp閉幕當天呈現在人們眼前。感人的演示效果使T2I收穫了DeeCamp2018的最佳方案獎。
未來,該專案可以生成一個詩詞動畫系統,這套系統既可以説明孩子看圖識古詩,也可以幫助外國友人線上學習中文詩詞。落地場景十分光明~
三、所遇之人,皆為摯友
過去的一個月很長。
T2I的成員們從對課題的一無所知、一無所有到齊心協力,分工合作,在3周內完成了課題任務並得到了超乎預期的收穫。每個人都卸下了曾經的光環,從標注數據的髒活累活入手,一點點的嘗試、失敗、再嘗試,直到看到模型和系統的進步。
過去的一個月很短。
那麼多的知識還在消化,專案還需要去進一步的完善,朋友還有太多的話沒說,桌遊和美食也沒有玩夠吃夠。有隊員開玩笑說:GAN來GAN去,最後千山鳥飛“絕”。儘管DeeCamp已經結束,但T2I的成員們卻仍然不願相信這場愉快的體驗已經結束,那幫並肩作戰的可愛隊友都已四散各地。
人生的曼妙之處就在於不可知的際遇。“這次DeeCamp之行不僅學到了AI技術,更重要的是結識了一批意氣相交的夥伴。”T21成員總結這一個月的收穫,有人學到了前沿的科技知識、有人提高了自己的代碼能力,有人視野得到了開闊,有人對人生道路有了更明確地規劃......還有人最大的收穫是認識了許多小姐姐。
充實、開放、快樂的DeeCamp生活使這群才華橫溢的少年瞭解了現實工業界的未來研究方向,並將在學校所學的理論能應用到有趣的實踐專案中。也使他們結實了志同道合的夥伴,各自發揮所長各顯神通,不斷碰撞、磨擦出智慧的火花。
或許DeeCamp就像一條洶湧的知識大河,短短一月只能從中截取一道涓流,但卻足夠受用很久。
而從一個想法到一場完美的展示,除了積澱起堅實的理論基礎,尚需心懷上下求索的精神,只有不忘初心,才能在科技發展的浪潮中,逐漸拉進與未來的距離。
word2vec訓練 在 CUP 媒體 Facebook 的最讚貼文
本周 Google 一份內部備忘於網上流出,執筆的員工批評公司追求職場平等,乃不切實際之舉,引起滿城風雨。或許你認為矽谷男女應否同工同酬,跟你這位消費者毫無瓜葛,但網絡顧問兼新書 Technically Wrong: Sexist Apps, Biased Algorithms, and Other Threats of Toxic Tech 作者 Sara Wachter-Boettcher 在「華盛頓郵報」撰文反駁,直指美國科技界對女性及少數族裔的歧視,早已滲透到其產品當中,影響全球每位用家。
此外,Google 研究員在 2013 年創造神經網絡 Word2vec,讓其透過梳理 Google News 文章,學習字詞間的關係。經過千萬字的訓練後,Word2vec 能完成「巴黎是法國正如東京是 ___」這種類比,還回到一些刻板印象,譬如「男人是建築師正如女人是室內設計師」。Wachter-Boettcher 認為,這種配對純粹反映 Google News 的數據集,但在一個白人男性主導、「破壞」勝過一切的行業,Word2vec 等技術被視作客觀,結果從搜尋引擎到求職系統,各類軟件都嵌入這種自帶成見的技術。
詳細全文:
https://goo.gl/ekwt44
延伸專題:
【偏見科學助長性別偏見】
https://goo.gl/9Y1wdu
【下一個 iPhone 10 年:帶你進入美麗新世界?】
https://goo.gl/r4K8RP
【你敢關掉手機提示一整天嗎?】
https://goo.gl/FW5ms5
==========================
【 CUP 媒體 】
在 www.cup.com.hk 留下你的電郵地址,即可免費訂閱星期一至五的日誌。
word2vec訓練 在 以gensim 訓練中文詞向量 - 雷德麥的藏書閣 的推薦與評價
Word2Vec. 很顯然,一個詞的意涵跟他的左右鄰居很有關係,比如「雨越下越大,茶越充越淡」,什麼會「下」?「雨」會下,什麼會「淡」? ... <看更多>
word2vec訓練 在 Layoutlm v2 github 的推薦與評價
文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类。. 7895 to 0. ... <看更多>
word2vec訓練 在 Word2vec - GitHub 的推薦與評價
訓練 中文詞向量Word2vec, Word2vec was created by a team of researchers led by Tomas Mikolov at Google. - GitHub - Alex-CHUN-YU/Word2vec: 訓練中文詞 ... ... <看更多>