nltk + 中文分词做中文自然语言分析处理

nltk 做中文分词很鸡肋,这么说也不对。nltk是一套自然语言分析工具包,本身是支持英语的。

因为英语天然是空格进行分词的。

直接映射成标准的数据结构了。

而中文是需要很多分词算法来支持。

python友好且易用的首推 jieba