python之单词词频统计

15 篇文章 0 订阅
订阅专栏

需求分析:指定任意英文文本,统计文本中个单词出现的频率,并选出出现频率最高的10个单词
环境:python 3.6.0
IDE:PyCharm 2017.2.3
module:string
数据类型:字符串,列表,元组,字典

#!/usr/bin/python
# -*- coding: UTF-8 -*-

import string
import matplotlib.pyplot as plt
words_freq={ }

f=open("《教父》小说英文版.txt")

for line in f:
#间类似于twenty-one的单词分为两个单词
#分词
    words=line.replace("-"," ").split()
    for word in words:
    #去掉单词前后的标点符号
        word=word.strip(string.punctuation)
        #所有单词不区分大小写,全部转成小写
        word=word.lower()
        #统计,以字典存储
        if word in words_freq:
            words_freq[word]+=1
        else:
            words_freq[word]=1
freq_words=[]
for word,freq in words_freq.items():
    freq_words.append((freq,word))
freq_words.sort(reverse=True)
for freq,word in freq_words[:10]]
    print(word,freq)

运行结果

python3学习笔记之三——统计英文文章出现次数最多的单词
joey_2018_的博客
06-09 4860
思路:英文文章的标点符号的处理,单词大小写的处理,再将单词通过字典的统计出现次数,最后用sorted()排序#利用maketrans函数将标点符号映射为空格table = str.maketrans(',.!"?:[]-',' ')#打开需要统计的文件f = open(r'C:\Users\CryptFiend\Downloads\python\1.txt')file1 = f....
python 统计英文词频
An_0330的博客
06-14 2999
python 统计英文词频 (以1986-2017年考研英语真题为例) 运行截图: 代码: import re #除去简单词、序号等 excludes = ['the', 'of', 'to', 'and', 'in', 'a', 'is', 'were', 'was', 'you', 'I', 'he', 'his', 'there', 'those', 'she', 'her', 'their', 'that', '[a]', '[b]', '[c]',
python英文词频统计-Python实现统计英文文章词频的方法分析
weixin_39846612的博客
11-11 3769
本文实例讲述了Python实现统计英文文章词频的方法。分享给大家供大家参考,具体如下:应用介绍:统计英文文章词频是很常见的需求,本文利用python实现。思路分析:1、把英文文章的每个单词放到列表里,并统计列表长度;2、遍历列表,对每个单词出现的次数进行统计,并将结果存储在字典;3、利用步骤1获得的列表长度,求出每个单词出现频率,并将结果存储在频率字典;4、以字典键值对的“值”为标准,对字...
python-词频统计-英文
u012857674的博客
05-10 1083
#CalHamletV1.py#英文统计程序 def getText(): txt = open("hamlet.txt", "r").read() txt = txt.lower() for ch in '!"#$%&()*+,-./:;<=>?@[\\]^_‘{|}~': txt = txt.replace(ch, " ") #将...
统计单词出现频率
SAN_YUN的专栏
10-07 241
这里有一个大文本,文件请从 http://10.125.9.144:8000/document.zip 获取,在解压后大约有20m(实际比赛时文件是1.1G)。 文本都是英文单词,空格以及英文的标点符号: [.,;-~"?'!] (句号,逗号,分号,破折号,波浪号,双引号,问号,单引号,感叹号)请统计出该文本最常出现10个单词(不区分大小写)。 请注意,在统计这20个单词请忽略(th...
python学习文本词频统计hamlet三国演义
04-10
Python编程领域,词频统计是一项基础且重要的任务,它涉及到自然语言处理(NLP)和数据挖掘。在这个项目,我们关注的是如何使用Python来分析文本的词频,特别是针对"hamlet.txt"和"三国演义.txt"这两部文学...
python123词频统计之哈姆雷特_【Python文本词频统计
weixin_39552179的博客
12-06 4563
哈姆雷特英文三国演义文哈姆雷特英文词频分析def getText():txt=open("hamlet.txt","r").read()#打开文本,输入具体的文本路径txt=txt.lower()#将文本所有的英文字符变成小写for ch in '!"#$%&()*+,-./;:<=>?@[\\]^‘_{|}~':txt=txt.replace(ch," ")return ...
python词频统计
weixin_54958866的博客
03-13 1万+
文、英文词频统计英文有空格或者标点符号分隔,单词之间缺少分词符,需要用分词函数
Python词频统计
最新发布
04-20
Python编程语言词频统计是一项常见的任务,特别是在自然语言处理(NLP)领域。这个任务涉及到对文本数据进行分析,找出其各个词汇出现频率。在这个场景,我们有两个具体的实例:对《三国演义》人物出场...
Python英文文章词频统计(14份剑桥真题词频统计)
09-18
Python 词频统计是自然语言处理的一个重要任务,它能够帮助我们了解文本单词出现频率,从而揭示文本的主题和结构。在英语文章的词频统计,这个过程尤其有用,因为它可以帮助学习者掌握高频词汇,提升阅读...
统计一篇文档每个单词出现的次数,频率
11-11
从一片文档提取出所有的单词(word),然后计算每个单词出现频率(次数),按照一定的次序将排序好的单词以“word(频率)”的形式打印出来。 可以按照频率高低,或者单词顺序打印所有出现单词
统计文件单词个数及每个单词出现频率
04-21
1.读取文件 2.得到文件大小 3.将文件所有内容存入str数组当 4.将所有的字符串分割成单词存到word结构体,此时length++ 5.将word结构体的count循环置为1 6.比较单词 count ++ 7.进行排序 打印
统计一篇文章单词频率的小程序
04-10
这是一个统计一篇文章单词频率的小程序,有助于学习python的小伙伴练习
python实践:统计一个文本单词频次最高10个单词
xvjixiang的专栏
04-06 4767
#统计一个文本单词频次最高10个单词? import re class Solution(): def MaxWord(self,file_name): """ :param file_name: 文件名 :return: """ with open(file_name,'r') as file: ...
python——统计一个文本单词频次最高10个单词
python全栈
08-26 3246
【代码】python——统计一个文本单词频次最高10个单词
Python实现统计一篇英文文章内内个单词出现频率, 并返回频率最高十个单词及次数(标点符号可省略)
crane_feng的博客
07-30 9956
import re   with open('1.txt', 'r') as f:     dictResult = {}       # 每次读取一行的文件     while True:         line = f.readline()         if not line:             break         listMatch = re.findall('\w+',...
Python统计文本单词出现次数十的单词
高岩 is me
12-23 1万+
代码: # 读取一个文本,并且统计文本单词出现次数 def read_file(): # 在windows环境的编码问题,指定utf-8 with open('F:/python源码/实验区/002.txt', 'r', encoding='utf-8') as f: word = [] # 空列表用来存储文本单词 # re...
Python如何进行词频统计?3种方法教给你
chinaherolts2008的博客
01-15 3398
言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。 以下文章来源于快学Python ,作者小小明 Python爬虫、数据分析、网站开发等案例教程视频免费在线观看 https://space.bilibili.com/523606542 Python如何进行词频统计?3种方法教给你 数据准备 import jieba with open("D:/hdfs/novels/天龙八部.txt", encoding="gb18030") as f:
使用Python进行英文词频统计
热门推荐
aieraisiji的博客
03-11 2万+
对一篇英文文章进行词频统计重点在于内容去噪和归一化,可用split()进行分词。本文以《飘》为例,统计词频最高十位。 1.读取文件,通过lower()、replace()函数将所有单词统一为小写,并用空格替换特殊字符。 def gettext(): txt = open(&quot;piao.txt&quot;,&quot;r&quot;,errors='ignore').read() txt = txt.lower...
Python英文单词切分和词频统计实践
标题 "用 Python 切分英文单词" 可以看出,这个文件的主要内容是使用 Python 语言来对英文单词进行分词操作。英文分词是自然语言处理的一部分,目的是将英文单词拆分成独立的单词,以便进行后续的处理和分析。 **...
写文章

热门文章

  • python将GUI项目打包成exe文件 24690
  • H5通过百度地图API获取当前地理位置 14170
  • python + opencv微博图片去水印 5933
  • 利用python3爬虫下载图片、pdf文档 5334
  • 华为研发工程师笔试编程题 3588

分类专栏

  • ElasticSearch 2篇
  • 面试 1篇
  • 架构 1篇
  • python数据分析 5篇
  • python3爬虫 8篇
  • 工作 10篇
  • 人工智能 1篇
  • 知识图谱
  • PHP 1篇
  • PHP爬虫 1篇
  • Python 15篇
  • Python之GUI 3篇
  • Python之爬虫 7篇
  • ACM线段树 2篇
  • ACM之快速幂 3篇
  • ACMbfs 1篇
  • ACM水题 18篇
  • Linux操作系统 5篇
  • 2018东北农业大学春季赛校赛 6篇
  • 前端 2篇
  • php Web开发 1篇
  • ACM之图论 1篇
  • 数据库 1篇
  • HDU刷题 5篇
  • codeforce 1篇
  • ACM之动态规划 1篇
  • IOT 1篇
  • 程序人生 2篇
  • 工具 1篇
  • 音视频 1篇
  • 网络安全 2篇
  • C# 2篇

最新评论

  • ElasticSearch学习01——Windows10环境下ES安装经验与踩到的坑

    尔卿: 现在下的版本都是8点几的,要下7点几的,兼容Jdk8,在哪里能找到历史版本的ES呢

  • python将GUI项目打包成exe文件

    取玳: 为什么我明明安装了pyinstaller,输入指令提示我pyinstaller不是内部或外部指令

  • H5通过百度地图API获取当前地理位置

    库里终老勇士: 请问用gps的方式怎么调取定位

  • python将GUI项目打包成exe文件

    youxuan357849261: 把杀毒软件关了

  • python + opencv微博图片去水印

    crawlertinux: 跟打马赛克有啥区别...

最新文章

  • ElasticSearch学习02——Kibana安装
  • ElasticSearch学习01——Windows10环境下ES安装经验与踩到的坑
  • Java面试场景题
2023年3篇
2021年5篇
2020年11篇
2019年6篇
2018年44篇
2017年11篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家宿迁玻璃钢卡通雕塑厂家商场美陈地皮点北京步行街玻璃钢雕塑批发平顶山玻璃钢雕塑报价菏泽标牌玻璃钢彩绘雕塑商场美陈粉色云朵江苏专业玻璃钢雕塑品牌企业甘肃卡通玻璃钢雕塑定做成都大悦城商场美陈玻璃钢仿真猴公园雕塑沈阳商场美陈费用黄浦区玻璃钢雕塑报价浙江玻璃钢西瓜雕塑门头沟玻璃钢人物雕塑广场玻璃钢动物雕塑费用是多少金州玻璃钢雕塑厂家昭通玻璃钢雕塑商家广西玻璃钢雕塑凳子金昌景区玻璃钢雕塑制作玻璃钢雕塑 石膏安顺玻璃钢座椅雕塑公司商场美陈巡场玻璃钢花盆雕塑哪的服务好安阳卡通玻璃钢雕塑浙江特色商场美陈生产公司广东秋季商场美陈供货商玻璃钢圣诞雕塑潮州玻璃钢景观雕塑报价上海大型商场美陈批发玻璃钢大型城市雕塑定做价格香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化