nltk + 中文分词做中文自然语言分析处理
nltk 做中文分词很鸡肋,这么说也不对。nltk是一套自然语言分析工具包,本身是支持英语的。
因为英语天然是空格进行分词的。
直接映射成标准的数据结构了。
而中文是需要很多分词算法来支持。
python友好且易用的首推 jieba
nltk 做中文分词很鸡肋,这么说也不对。nltk是一套自然语言分析工具包,本身是支持英语的。
因为英语天然是空格进行分词的。
直接映射成标准的数据结构了。
而中文是需要很多分词算法来支持。
python友好且易用的首推 jieba