SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。注意本程序都是处理的unicode编码,所以使用时请自行decode成unicode。

github

https://github.com/isnowfy/snownlp

汉字转换拼音样例代码:

from snownlp import SnowNLP

s = SnowNLP(u'这个东西真心很赞')

s.pinyin        # [u'zhe', u'ge', u'dong', u'xi',
                #  u'zhen', u'xin', u'hen', u'zan']

繁体转换简体样例代码:

from snownlp import SnowNLP

s = SnowNLP(u'「繁體字」「繁體中文」的叫法在臺灣亦很常見。')

s.han           
# u'「繁体字」「繁体中文」的叫法在台湾亦很常见。'


本文地址: http://chenxm.cc/article/1131.html
版权声明: 本文为原创文章,版权归  陈新明  所有,欢迎分享本文,转载请保留出处!
上一篇: python3 json.dumps参数ensure_ascii=False 解决中文保存不是乱码
下一篇: 知识图谱管理系统
发表评论

还没有留言,还不快点抢沙发?