基於python的中文分詞方案那種比較好

2021-03-04 05:49:44 字數 1845 閱讀 7169

1樓:吉祥二進位制

我沒用過python語言寫的分詞程式。

分詞這種功能屬於計算密集型功能,需要大量計算,python不適合這種場合,可以考慮python呼叫c庫。

2樓:愛到滿地憂傷

jieba分詞 怎麼說呢 這個是比較好的中文分詞了

3樓:殘月臨貓

看用途,如果是跨度大的工程,樓上jieba正解,如果是針對性的,我寧可自己寫dict,絕對是上上策

4樓:手機使用者

**allseg ;

輕量級,容易使用。

python 中文分詞 工具 哪個最好

5樓:**ile無峰

試試結巴分詞,還是很簡單的

6樓:匿名使用者

pip install jieba

python3 有什麼推薦的中文分詞器

7樓:憶...咖啡

這類抄分詞基於人工標註的詞性和統襲計特徵,對中文進bai行建模,即根據觀測du到的資料(標註好的語zhi料)對模dao型引數進行估計,即訓練。

在分詞階段再通過模型計算各種分詞出現的概率,將概率最大的分詞結果作為最終結果。

常見的序列標註模型有hmm和crf。

如何利用python對中文進行分詞處理

8樓:追憶小土豆

python做中文分詞處理主要有以下幾種:結巴分詞、nltk、thulac

1、fxsjy/jieba

結巴的標語是:做最好的 python 中文分片語件,或許從現在來看它沒做到最好,但是已經做到了使用的人最多。結巴分詞網上的學習資料和使用案例比較多,上手相對比較輕鬆,速度也比較快。

結巴的優點:

支援三種分詞模式

支援繁體分詞

支援自定義詞典

mit 授權協議

2、thulac:一個高效的中文詞法分析工具包

前兩天我在做有關於共享單車的使用者反饋分類,使用jieba分詞一直太過零散,分類分不好。後來江兄給我推薦了thulac: 由清華大學自然語言處理與社會人文計算實驗室研製推出的一套中文詞法分析工具包 。

thulac的介面文件很詳細,簡單易上手。

thulac分詞的優點:

能力強。利用規模最大的人工分詞和詞性標註中文語料庫(約含5800萬字)訓練而成,模型標註能力強大。

準確率高。該工具包在標準資料集chinese treebank(ctb5)上分詞的f1值可達97.3%,詞性標註的f1值可達到92.9%

速度較快。同時進行分詞和詞性標註速度為300kb/s,每秒可處理約15萬字。只進行分詞速度達到1.3mb/s,速度比jieba慢

python 解決中文編碼問題基本可以用以下邏輯:

utf8(輸入) ——> unicode(處理) ——> (輸出)utf8

python 裡面處理的字元都是都是unicode 編碼,因此解決編碼問題的方法是把輸入的文字(無論是什麼編碼)解碼為(decode)unicode編碼,然後輸出時再編碼(encode)成所需編碼。

由於處理的一般為txt 文件,所以最簡單的方法,是把txt 文件另存為utf-8 編碼,然後使用python 處理的時候解碼為unicode(sometexts.decode('utf8')),輸出結果回txt 的時候再編碼成utf8(直接用str() 函式就可以了)。

如何用python做中文分詞

9樓:生活需要走位

使用 jieba第三方庫, 搜尋下,你會很容易上手。

過去分詞的done和現在分詞的being done區別

那兩個短語中,done 和 being done 都做後置定語,修飾前面的名詞 短語 a team.being done表被動並且正在進行,done表示被動並且已完成 英語語法,當分詞作狀語中,直接用過去分詞done 和being done 有什麼區別,多謝 這是一種省略用法,只要前後主語一致就可以...

為什麼python指令碼中使用中文會報錯解決方法已知

專門花了一下午,總結了python 2.x中,常見的編碼解碼方面的錯誤。更主要的是,先給你解釋清楚了背後的邏輯 然後再給你解釋,錯誤的現象,現象背後的原因,以及如何解決,並且教你如何舉一反三等等。此處只把幾種最常見的問題的原因給你摘錄過來 python中,想要將某字串解碼為對應的unicode,但是...

什麼是基於B S架構的系統設計,什麼是基於B S,c s架構的系統設計

第一 什麼是c s結構。browser server 拷貝請說明來處,哈哈 說白了就是web 什麼是基於b s,c s架構的系統設計 web程式是基於bs結構的,分三層 表現層 業務邏輯層 資料層 bs就是瀏覽器伺服器 cs 客戶端伺服器。一個是通過瀏覽器,一個是通過本地的exe來進行實現。什麼是基...