如何用Python中的NLTK對中文進行分析和處理

2021-03-19 18:35:07 字數 541 閱讀 9411

1樓:匿名使用者

一、nltk進行分bai

詞用到的函式:

nltk.sent_tokenize(text) #對文字

du按照句子zhi進行dao分割

nltk.word_tokenize(sent) #對句子進行分詞

二、nltk進行詞內性標註容

用到的函式:

nltk.pos_tag(tokens)#tokens是句子分詞後的結果,同樣是句子級的標註

三、nltk進行命名實體識別(ner)

用到的函式:

nltk.ne_chunk(tags)#tags是句子詞性標註後的結果,同樣是句子級

上例中,有兩個命名實體,一個是xi,這個應該是per,被錯誤識別為gpe了; 另一個事china,被正確識別為gpe。

四、句法分析

nltk沒有好的parser,推薦使用stanfordparser

但是nltk有很好的樹類,該類用list實現

可以利用stanfordparser的輸出構建一棵python的句法樹

如何使用python中的nltk對哈薩克語或阿拉伯語進行句法分析

如果是英語和西班牙語可以用 使用這個模組可以對名詞的單複數進行版轉換及字元操作。權 如何用 python 中的 nltk 對中文進行分析和處理 一 nltk進行分詞 用到的函式 nltk.sent tokenize text 對文字按照句子進行分割 nltk.word tokenize sent 對...

如何用python做分詞處理,如何用PYTHON做分詞處理

可以利用python的jieba分詞,得到文字中出現次數較多的詞。首先pip安裝一下jieba,這個可以分詞然後用計數器counter 統計一下得到的分詞中各詞的數量最後most mon 5 是列印出排名前五位的詞 包括特殊符號 encoding utf 8 import sys reload sy...

如何用Python繪製Circos圖

python簡單易學 免費開源 高層語言 可移植性超強 可擴充套件性 物件導向 可嵌入型 豐富的庫 規範的 等。python除了極少的涉及不到的開發之外,其他基本上可以說全能 系統運維 圖形處理 數學處理 文字處理 資料庫程式設計 網路程式設計 web程式設計 多 應用 pymo引擎 爬蟲編寫 機器...