数据太大的时候,R语言如何读取?

18 篇文章 12 订阅
订阅专栏
10 篇文章 28 订阅
订阅专栏

 一般我喜欢把文件储存成csv格式,然后用read.csv读取文件。

也有的人习惯储存数据为txt格式,然后用read.table读取文件。

但是当数据太大的时候,read.csv和read.table似乎就不适用了。

首先读取慢,而且读到最后会读一个寂寞。

比如下面这个文件:

有三个多G,用read.csv读取的时候,会发生什么状况呢?

setwd("D:\\")
dir()
data <- read.table("GSE149614_HCC.scRNAseq.S71915.count.txt",header = T,sep="\t")
##########
##########   我等了十几分钟,还没读进去    ################

我等了十几分钟,还没读进去。

当然也有可能是电脑的原因,如果是苹果电脑,可能会好点。

但是读到最后会发现,报错了。因为文件太大了,这里我就不向大家展示了,直接点击stop,结束运行:

 我们再换一种方式读取:

library(readr)
read_table()

 使用readr这个软件包里面的read_table,这个据说读取数据比read.table要快很多。

但是,面对三个多G的数据,还是慢,这里我就不展示了,大家可以自己去体验一下。

那么,面对这么大的数据,我们如何读取呢?

这里向大家推荐一个好用的函数fread。

 fread,可以理解为:fast read (自创的)。

下面开始运行代码:

install.packages("data.table")
library(data.table)
dir()
data <- fread("GSE149614_HCC.scRNAseq.S71915.count.txt",sep = "\t",header = F)

fread这个函数再data.table中,如果要运行它,先下载一个data.table软件包。

 可以看到,在读取的过程中能够看到进度条。

能看到进度条,就有盼头。

读取完数据以后我们查看一下文件:

dim(data)
class(data)



###############

> dim(data)
[1] 25712 71916
> class(data)
[1] "data.table" "data.frame"

可以看到数据有25712行,71916列,这比TCGA任何一个数据库的文件都大。

文件的类型既属于table,也属于数据框。

查看一下数据:

data[1:10,1:110]

> data[1:10,1:110]
               V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14 V15 V16 V17 V18 V19 V20
 1:  RP11-34P13.7  0  0  0  0  0  0  0  0   0   0   0   0   0   0   0   0   0   0   0
 2:    FO538757.2  0  0  0  0  0  0  0  0   0   0   0   0   1   0   0   0   0   0   0
 3:    AP006222.2  1  1  0  0  0  0  0  0   0   0   0   0   1   0   0   0   0   1   1
 4: RP4-669L17.10  0  0  0  0  0  0  0  0   0   0   0   0   0   0   0   0   0   0   0
 5:  RP5-857K21.4  0  0  0  0  0  0  0  0   0   0   0   0   0   0   0   0   0   0   0
 6: RP11-206L10.9  0  0  0  0  0  0  0  0   0   0   0   0   0   0   0   0   0   0   0
 7:        FAM87B  0  0  0  0  0  0  0  0   0   0   0   0   0   0   0   0   0   0   0
 8:     LINC00115  0  0  0  0  0  0  0  0   0   1   0   0   1   0   0   0   0   0   0
 9:        FAM41C  0  0  0  0  0  0  0  0   0   0   0   0   0   0   0   0   0   0   0

用fread读取出来的数据,也是可以使用美元符提取列的,当然也可以进行数据匹配。

那么什么情况下会用到大样本的数据呢?

比如我们要用GTEx数据库进行分析正常人的组织样本测序数据。

又比如我们要分析单细胞的测序数据等。

R语言读取超大csv格式文件太慢怎么办,换个函数读,秒秒钟读取!!!
Apple_xiaoli的博客
03-12 1万+
最近在做毕业设计,遇到一个问题,在使用R读取上市公司数据时,由于文件太大导致读取数据比较慢,如果把文件拆解成多个文件读取又比较繁琐,查了查资料发现有解决办法。 大家比较熟知R读取csv格式文件的函数是R内置的`read.csv()`,但除此之外还有其他的,比如`readr`包的`read_csv()`函数和`data.table`包的`fread()`函数。
R语言读取大文件数据(分块读)
03-10
R语言读取大文件数据(分块读)
R语言_读取数据
W2388727409的博客
10-11 837
首选方法: 使用data.table包中的fread函数: fread(input, file, sep="auto", sep2="auto", dec=".", quote="\"", nrows=Inf, header="auto", na.strings=getOption("datatable.na.strings","NA"), # due ...
R语言读取超大型文件,与pandas chunksize对比
xh542428798的博客
09-21 4541
readr包的使用 众所周知,R语言的readr包是个读取文件非常快速的包,广泛用来文本的读取。因为先前是使用python pandas进行数据处理,并且筛选过30G+的数据,这种超大的数据处理,小小的笔记本根本吃不消,会提示内存不够。所以在pandas里面,read_csv有个很好用的参数:low_memory和iterator。 #Pandas读取大文件思路 因为我并不需要同时载入超过内存大小的数据,而是需要从大文件中筛选出我需要的数据。因此可以分块读取,筛选完这一部分后,释放内存,读取下一个块,这样直
首次安装RStudio后,一定要做如下操作
u011375991的博客
08-08 1178
首次安装RStudio后,一定要做如下操作
「R基础」如何读取大文件的部分内容
xuzhougeng blog
01-26 2465
同理心 在小丫画图交付的一个代码项目中,需要先从XENA下载一个表达量数据:https://toil.xenahubs.net/download/tcga_RSEM_gene_tpm.gz 样本大概是10,5,35个, 考虑到人类的基因大概有2w多个,那么这就是一个10000 X 20000的大样本数据,鉴于这还是一个TPM,数据类型是浮点型,文件解压缩之后就是4.61...
对于超大型CSV文件使用R语言读取前n行进行预览以及R语言readLiunes函数读取行数的疑问
R_R的博客
09-28 1436
预览超大CSV的前n行
r语言如何读取matlab数据类型,[转载]R语言数据类型解析[转]
weixin_39559277的博客
03-20 361
寻求帮助,使用 help(solve),?solve 和 help(“solve”)是一样的,如果需要搜索可以用help.search(solve) 或者 ??solve。另外使用 help.start() 可以打开网页版的帮助,这个功能倒是和Matlab 的 doc 有几分相似。使用 source() 和 sink() 命令可以将 R 的输入输出重新定向,比如从一个文件中读入命令就是 sourc...
R语言中fread怎么使用?
青笋的博客
10-20 1万+
R语言中,fread函数是data.table包中的一个功能强大的数据读取函数,可以用于快速读取大型数据文件,它比基本的read.table和read.csv函数更快,尤其在处理大型数据集时效果更为明显。以上就是最常用的使用方法,特别适合大文件读取,亲测100MB的文件读取时一秒左右就完成了,可以用来替换原来的read.table和read.csv函数。fread函数的作用是将不同类型的输入数据高效地读取到R数据表中,它具有多个选项和配置,使用户能够无缝处理各种文件格式和数据结构。
R语言读取数据
weixin_34245082的博客
05-08 2377
普通情况下使用scan读取数据x<-scan("D:\\test.txt")按列读入,指定数据类型x<-scan("test2dat.txt",what=list("",0,0))#读取三列数据,第一列是字符,第二和第三列是数值 #以下写法也可以 x2<-scan("test2dat.txt",list(name="",num1=0,n...
读取多个影片的storyLine并将单词和对应出现的次数写入数据库,以便有R语言分析数据.zip
最新发布
01-12
在本项目中,我们主要关注的是使用R语言对多个影片的storyLine进行分析,提取其中的单词,并统计每个单词出现的次数,最后将这些数据存入数据库,以便后续的深入分析。R语言作为一种强大的统计分析工具,其在数据...
R语言:如何存储超大数据
watermel__的博客
06-09 992
有的时候数据会以.RDS的格式被提供,这个时候就只能用R语言读取文件。如果遇到超大数据怎么把数据存储出来呢?可以发现这个数据特征数非常多,我要获取归一化以后的data矩阵。 代码如下: save_npz_.py文件里面的内容:...
r读取shape文件可视化_R语言读取空间数据以及ArcGIS中OLS工具回归结果可视化R语言版...
weixin_32183107的博客
01-14 1337
前面已经介绍过R语言读取excel的方法了,当然读取数据来说,个人还是推荐csv或txt存储(针对小数据量)。大数据量的数据的话建议还是用数据库,此外也可以考虑data.table包读取,这个包也是个神包,后面学习完可能来谈谈。这个都是题外话,今天主要目的还是来介绍R语言读取空间数据的方法。主要是之前有同学问过读取的方法。我就顺带整理下,另外虾神今天刚发了一篇关于ArcGIS的OLS工具回归结果可...
R语言读取xlsx文件
大数据技术派
10-28 1万+
关于R语言读取Excel文件,比较麻烦,我从来都反对直接读取xlsx文件,因为爬虫数据时,一般保存的格式都是csv文件,或者直接保存到数据库里面,没有谁会保存到Excel...
R:读取大的TXT文件
NickyCat的博客
09-11 6067
在做生信的时候经常要读取很大的基因表达矩阵,通常下载的时候是txt文件,文件巨大,读取就很慢。 下面比较三种方法的读取速度: read.table s <- Sys.time() temp <- read.table(file = 'D:/symbol.txt', sep = '\t', header <- T, check.names = F) e <- Sys.time() print(e - s) #Time difference of 2.053548 mins D
R中的arrow库的操作
weixin_45906368的博客
07-29 1829
integer_arr uint_arr
R语言 Rstudio对本地文件数据文件的读写和查看设置当前工作路径
热门推荐
Awandi的博客
04-03 1万+
第一次写博客 各位老铁多多包涵 数据文件的读写 首先我们先说读的方法,在Rstudio提供一种方法==read.table()==函数来读取数据。这种方法对数据来源可以是一个Windows记事本或任何其他纯文本编辑器所创建的ASCII格式文件,使用readtable()读取文件返回的是一个数据框,便于R语言的后续操作 比如我们要查看一个名叫 stulnfo.txt 的文件,里面的内容: nam...
RStudio 读取 TSV 文件报错提示 “Permission Denied“ 的解决方法
百度一下 猎人社区
07-06 1870
然而,有时候在尝试读取 TSV(Tab Separated Values,以制表符分隔的文件)文件时可能会遇到 "Permission Denied" 的错误提示。结论: 遇到 RStudio 读取 TSV 文件时出现 "Permission Denied" 错误的问题,可能是由于文件权限、路径、其他程序占用文件、函数和参数选择不当,以及文件编码和格式等原因所导致。四、检查文件编码和格式 如果 TSV 文件的编码或格式不正确,也可能导致读取错误和 "Permission Denied" 错误。
r语言 fread函数参数怎么选择_R语言特征选择——逐步回归
weixin_39653761的博客
11-22 327
原文链接:http://tecdat.cn/?p=5453​tecdat.cn变量选择方法所有可能的回归model <- lm(mpg ~ disp + hp + wt + qsec, data = mtcars) ols_all_subset(model) ## # A tibble: 15 x 6 ## Index N Predictors `R-Square`...
r语言读取tsv数据
08-30
你可以使用R语言中的`read.delim()`函数来读取.tsv格式的数据。这个函数可以读取以制表符分隔的文件,并将其存储为数据框。以下是一个示例代码: ```R # 读取tsv文件 data <- read.delim("file.tsv", sep="\t") ``` 在上面的代码中,你需要将`file.tsv`替换为你要读取的.tsv文件的路径和文件名。`sep="\t"`表示制表符是数据的分隔符,所以函数会按照制表符将数据分成不同的列。 读取完成后,数据将存储在名为`data`的数据框中,你可以使用该对象进行进一步的数据处理和分析。
写文章

热门文章

  • 常见的R包下载途径 24462
  • 分享miRNA和lncRNA靶向预测网站——miRcode,lncRNABase,starbase,RegRNA2.0 18551
  • 分享一个CCLE细胞系数据(CCLE数据库不能用了吗?) 17928
  • 选择最适cut-off值的原因及X-tile的使用 15123
  • 分享分析TCGA的数据库——GEPIA(一) 14714

分类专栏

  • 外泌体肝癌临床模型 付费 11篇
  • Logistic回归临床模型预测 付费 11篇
  • 一篇五分临床模型预测文章代码复现 付费 36篇
  • R语言与临床模型预测全套分析流程 付费 16篇
  • (生物信息学)R语言绘图初-级 付费 16篇
  • FPKM,TPM,CPM,Count数据转化 付费 5篇
  • 考研太卷一篇文章助力上岸 4篇
  • 生物信息学与R语言 10篇
  • R语言快速入门课——结合各种生物信息学及医学案例 1篇
  • R语言作图 2篇
  • 生存曲线 2篇
  • 生物信息学 18篇
  • R语言与统计学(生物信息学) 11篇
  • 生物信息学相关数据库介绍 14篇
  • R语言常见错误
  • 单细胞测序 1篇
  • 药物预测网站 1篇
  • 外泌体 1篇
  • R语言颜色 1篇
  • lncRNA 1篇
  • miRNA 1篇
  • 突变 1篇
  • 瀑布图 1篇
  • R软件包下载方式 1篇

最新评论

  • 外泌体相关基因肝癌临床模型预测——2-3分纯生信文章复现——5.拷贝数变异及突变图谱(1)

    CSDN-Ada助手: Python入门 技能树或许可以帮到你:https://edu.csdn.net/skill/python?utm_source=AI_act_python

  • R语言与临床模型预测——LASSO回归,单因素多因素cox,差异表达分析,Venn图,森林图,列线图,矫正曲线,ROC全套代码及解析——第九部分 lasso回归排除具有共线性的基因 本专栏可免费答疑

    楷然教你学生信: 去掉缺失值

  • R语言与临床模型预测——LASSO回归,单因素多因素cox,差异表达分析,Venn图,森林图,列线图,矫正曲线,ROC全套代码及解析——第九部分 lasso回归排除具有共线性的基因 本专栏可免费答疑

    R10427j: 如果数据中OS,OS time中存在空缺值如何处理能,错误于response.coxnet(y): NAs encountered in response, not allowed

  • 二分类结局变量Logistic回归临床模型预测(一)——介绍

    Ct854: 数据没有了

  • 二分类结局变量Logistic回归临床模型预测—— 外部数据集验证

    2301_82096299: 想请问fit1与fit2模型的建立的原因是什么,只是用不同的函数建立嘛?数据集也相同

大家在看

  • FastAPI:解锁高性能API开发的密钥,轻松构建现代Web服务 521
  • python多线程案例——多线程爬取小说 339
  • XML基础知识
  • C语言程序设计第十一章问题要点 206
  • SOLID - 开放封闭原则 (Open/Closed Principle)

最新文章

  • 外泌体相关基因肝癌临床模型预测——2-3分纯生信文章复现——5.拷贝数变异及突变图谱(2)
  • 外泌体相关基因肝癌临床模型预测——2-3分纯生信文章复现——5.拷贝数变异及突变图谱(1)
  • 外泌体相关基因肝癌临床模型预测——2-3分纯生信文章复现——4.预后相关外泌体基因确定之生存曲线(4)
2024年20篇
2023年36篇
2022年81篇

目录

目录

评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

楷然教你学生信

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或 充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家季节性商场美陈供应陕西玻璃钢卡通雕塑玻璃钢雕塑的制作工艺和方法福建节庆商场美陈采购江苏节庆商场美陈有哪些玻璃钢美人鱼雕塑摆件晋城景观玻璃钢卡通雕塑厂家苏州玻璃钢人物雕塑河池玻璃钢座椅雕塑报价景观玻璃钢雕塑摆件杭州户外玻璃钢花箱花盆小区花盆玻璃钢花槽普洱市玻璃钢雕塑售价北京玻璃钢雕塑卡通沧州玻璃钢广场雕塑厂家供应湖北高质量玻璃钢雕塑批发江门附近玻璃钢雕塑公司陕西玻璃钢孔子雕塑丰台玻璃钢新娘雕塑玻璃钢花盆高端大气玻璃钢雕塑如何算钱的浙江玻璃钢花盆价格吉安定制玻璃钢雕塑价位温州玻璃钢花盆费用青岛人物玻璃钢雕塑安装玻璃钢雕塑艺术雕塑鸡西玻璃钢雕塑定做安丘玻璃钢雕塑壁纸河南特色商场美陈销售公司游乐园玻璃钢雕塑油漆翻新方案香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化