很明显输出的结果中有些不是人洺需要去掉;还有一些名字指的是同一个人,需要合并所以就有了
"次日", "引兵", "大喜"} # 多次运行代码,找出那些不是人物名的词人物出场统计涉及对词汇的统计中文文章需要分词才能进行词频统计。这就需要用到jieba库
下面对代码进行升级,使之能够对文本做更进一步的处理:
经过多次修改代码嘚到最终结果:
很明显输出的结果中有些不是人洺需要去掉;还有一些名字指的是同一个人,需要合并所以就有了
"次日", "引兵", "大喜"} # 多次运行代码,找出那些不是人物名的词