800資源網站（資源）-快速备案

本文經AI新媒體量子位（公眾號ID：qbitai）授權轉載，轉載請聯系出處。本文約1200字，建議閱讀6分鐘。本文為你介紹鵝廠近期正式開源的一個大規模、高質量的中文詞向量數據集。鵝廠開源，+1 again~又一來自騰訊AI實驗室的資源帖。騰訊AI實驗室宣佈，正式開源一個大規模、高質量的中文詞向量數據集。該數據集包含800多萬中文詞匯，相比現有的公開數據，在覆蓋率、新鮮度及準確性上大幅提高。在對話回復質量預測、醫療實體識別等自然語言處理方向的業務應用方面，騰訊內部效果提升顯著。數據集特點總體來講，騰訊AI實驗室此次公開的中文詞向量數據集包含800多萬中文詞匯，其中每個詞對應一個200維的向量。具體方面，騰訊自稱，該數據集著重在3方面進行瞭提升：1. 覆蓋率（Coverage）：該詞向量數據包含很多現有公開的詞向量數據所欠缺的短語，比如“不念僧面念佛面”、“冰火兩重天”、“煮酒論英雄”、“皇帝菜”、“喀拉喀什河”等。以“喀拉喀什河”為例，利用騰訊AI Lab詞向量計算出的語義相似詞如下：墨玉河、和田河、玉龍喀什河、白玉河、喀什河、葉爾羌河、克裡雅河、瑪納斯河2. 新鮮度（Freshness）：該數據包含一些最近一兩年出現的新詞，如“戀與制作人”、“三生三世十裡桃花”、“打call”、“十動然拒”、“供給側改革”、“因吹斯汀”等。以“因吹斯汀”為例，利用騰訊AI Lab詞向量計算出的語義相似詞如下：一顆賽艇、因吹斯聽、城會玩、厲害瞭word哥、emmmmm、紮心瞭老鐵、神吐槽、可以說是非常爆笑瞭3. 準確性（Accuracy）：由於采用瞭更大規模的訓練數據和更好的訓練算法，所生成的詞向量能夠更好地表達詞之間的語義關系，如下列相似詞檢索結果所示：在開源前，騰訊內部經歷瞭多次測評，認為該數據集相比於現有的公開數據，在相似度和相關度指標上均達到瞭更高的分值。數據集構建經驗那麼這樣的數據集，騰訊AI實驗室是如何構建的呢？他們圍繞3方面分享瞭構建及優化經驗：1. 語料采集：訓練詞向量的語料來自騰訊新聞和天天快報的新聞語料，以及自行抓取的互聯網網頁和小說語料。大規模多來源語料的組合，使得所生成的詞向量數據能夠涵蓋多種類型的詞匯。而采用新聞數據和最新網頁數據對新詞建模，也使得詞向量數據的新鮮度大為提升。2. 詞庫構建：除瞭引入維基百科和百度百科的部分詞條之外，還實現瞭Shi等人於2010年提出的語義擴展算法，可從海量的網頁數據中自動發現新詞——根據詞匯模式和超文本標記模式，在發現新詞的同時計算新詞之間的語義相似度。3. 訓練算法：騰訊AI Lab采用自研的Directional Skip-Gram (DSG)算法作為詞向量的訓練算法。DSG算法基於廣泛采用的詞向量訓練算法Skip-Gram (SG)，在文本窗口中詞對共現關系的基礎上，額外考慮瞭詞對的相對位置，以提高詞向量語義表示的準確性。意義最後，表揚一下鵝廠的開源之舉。目前針對英語環境，工業界和學術界已發佈瞭一些高質量的詞向量數據，並得到瞭廣泛的使用和驗證。其中較為知名的有谷歌公司基於word2vec算法、斯坦福大學基於GloVe算法、Facebook基於fastText項目發佈的數據等。然而，目前公開可下載的中文詞向量數據還比較少，並且數據的詞匯覆蓋率有所不足，特別是缺乏很多短語和網絡新詞。所以有資源有能力的騰訊，還有心做這樣的事情，對業界實屬利好。希望騰訊AI實驗室的開源之舉，多多益善吧~傳送門數據下載地址：https://ai.tencent.com/ailab/nlp/embedding.html— 完 —關註清華-青島數據科學研究院官方微信公眾平臺“THU數據派”及姊妹號“數據派THU”獲取更多講座福利及優質內容。

本文出自快速备案，转载时请注明出处及相应链接。

本文永久链接: https://kuaisubeian.cc/47857.html

相关文章

kuaisubeian