CUDA C编程(二十九)CUDA函数库的性能研究

39 篇文章 178 订阅
订阅专栏

  通常情况下,考虑到性能方面的表现,我们会选择在CUDA中运行应用程序。因此,如果在GPU执行上所得到的性能加速不尽人意,那么CUDA库的使用对我们来说就是没有意义的。接下来主要介绍CUDA库与标准库性能对比的文献。记住,对于所有性能测试,你的试验结果可能会因为编译器、硬件或其他环境的不同而不同。
cuSPARSE 与 MKL 的 比 较
  可以说,数学核心库(MKL)是稀疏线性代数的黄金准则。MKL使用向量指令在多核CPU上手动优化的执行密集和稀疏线性代数。目前有大量对各种计算内核中的MKL和cuSPARSE进行比较的文献资料。
  随着CUDA5.0版本的发布,NVIDIA在多个计算内核和多个数据集上对cuSPARSE和MKL进行了全面的性能比较。通过在18个不同的数据集上执行稀疏矩阵-稠密向量乘法,研究人员发现,与MKL相比,cuSPARSE的性能有1.1~3.1倍的提升。最后,当比较cuSPARSE和MKL之间的三对角解法时,取得了高达17倍的加速结果,这一结果取决于数据集的大小和原始数据的类型。
在这里插入图片描述
  对于发布的CUDA 6.0而言,NVIDIA对CUDA库进行了类似的性能比较、结果表明,在计算速度和性能上,稀疏矩阵-稠密向量乘法是三对角解法、不完全LU和Cholesky预调节器的1.8~5.4倍,总体有了很大提升。显然,cuSPARSE库是高度可用的,它保留了预期的GPU硬件优势并进行了改进。

cuBLAS 与 MKL BLAS 的 比 较
  由于MKL还包括BLAS例程的手动优化版本,这对于cuBLAS来说也是一个可以比较的地方。在CUDA 5.0的性能报告中,是在整个BLAS Level 3程序范围内对cuBLAS进行评估的。相对于MKL的加速结果,大约从2.7倍到8.7倍不等。对ZGEMM的性能表现进行深入研究,说明在512×512到4096×4096大小的矩阵范围内,cuBLAS比MKL有显著的性能优势。
在这里插入图片描述
  在CUDA 6.0性能报告中,NVIDIA指出了最新的MKL BLAS加速了6~17倍。对ZGEMM来说,与MKL相比,cuBLAS也有类似的性能改进。随着多GPU cuBLAS-XT库的引进,NVIDIA在多个GPU上展示了cuBLAS的可扩展性。
在这里插入图片描述

cuFFT 与 FFTW 及 MKL 的 比 较
  FFTW库在多核CPU上拥有性能优异的一维和多维FFT,宣称其性能“通常优于其他公开的FFT软件,甚至可以与供应商调试的代码相抗衡”。很明显,FFTW的主要目标是性能优化,因此,对cuFFT来说,它是一个很好的比较对象,MKL库也支持FFT。
  NVIDIA的CUDA 5.0报告显示,FFT的性能表现取决于数据规模,范围从低至30 GFLOPS到高达250 GFLOPS。在单核系统报告中,FFTW的性能估计大约从1 GFLOPS到5.5 GFLOPS。由以上结果推断得出,20个CPU核心等价于一个GPU运行cuFFT。如果在相同数据大小的情况下,比较cuFFT最佳性能大约是250 GFLOPS和FFTW的最佳性能大约是5 GFLOPS,那么cuFFT的结果更优:50个CPU核心等价于一个GPU的计算性能。
  NVIDIA报告指出,使用CUDA 6.0,在一维单精度复杂FFT上达到700 GFLOPS的性能加速是可能的,双精度则可超过250GFLOPS。报告还强调,在大范围的数据集上也能保持性能优势。
在这里插入图片描述

fftw与matlab中的fft对比,基于FFTWFFT和IFFT
weixin_39990819的博客
04-01 1028
1:先进行FFT变换,再将图像进行逆变换,并对比两者的结果。#include #include "fftw3.h"#include #include "itkImageFileReader.h"#include "itkImageFileWriter.h"#include "itkWrapPadImageFilter.h"#include "itkForwardFFTImageFilter.h"#...
c语言中cuda核函数,CUDA C编程用for循环跑核函数越跑越慢是为什么?
weixin_29518761的博客
05-21 693
该楼层疑似违规已被系统折叠隐藏此楼查看此楼最近学习CUDA C的编程,在并行运行一个简单的解调算法的时候,统计时间后发现运行速度越来越慢(但还是运算结果正确的),后来简化到只运行其中一个核函数的时候,就算复杂度下降了,但还是会越跑越慢,尝试过每一轮都进行cudafree和cudamalloc也没用,这是为什么呢?刚刚还发现了,对于我用过的一些矩阵加法、矩阵点乘的教程例子,加上for循环跑很多很多...
CUDA 常用的函数
07-19
CUDA 常用的函数CUDA 常用的函数CUDA 常用的函数CUDA 常用的函数CUDA 常用的函数CUDA 常用的函数CUDA 常用的函数
cuda编程可以使用的库函数
SeventhBlue
07-06 3645
一、NPP 它是NVIDIA公司针对GPU加速图像、视频、信号处理库(NPP全称是NVIDIA Performance Primitives)。事实上,NPP和IPP(Integrated Performance Primitives)库函数基本上是一一对应,不同的是一个在CPU上计算一个在GPU上计算。说一句题外话,IPP库包含了许多底层优化的函数,如果已经安装了IPP库,opencv在运行时也会自动调用。 如何使用?配置好了cuda环境引入头文件即可使用。 找到的中文资料 nvidia官方网站
CUDA C编程(二十八)CUDA 6.0中函数库的介绍
AAAA202012的博客
03-04 1385
   Drop-In 库    多 GPU 库   
CUDA数学库
吴建明wujianming_110117
02-20 1691
CUDA数学库 高性能数学例程 CUDA数学库是经过行业验证的,高度准确的标准数学函数的集合。只需在源代码中添加“ #include math.h”,即可用于任何CUDA C或CUDA C ++应用程序,CUDA Math库可确保应用程序受益于针对每种NVIDIA GPU架构进行了优化的高性能数学例程。 数字密集型GPU加速的应用程序和库,包括NVIDIA提供的所有CUDA库,都依靠CUDA Math库来提供突破性的结果。 主要特点 • 完全支持所有C99标准浮点和双数学功能 • IEEE-754对浮点,双
CUDA学习笔记(十二) CUDA库简介
最新发布
qq_45788429的博客
10-23 1241
上图是CUDA 库的位置,本文简要介绍cuSPARSE、cuBLAS、cuFFT和cuRAND,之后会介绍OpenACC。CUDA库和CPU编程所用到的库没有什么区别,都是一系列接口的集合,主要好处是,只需要编写host代码,调用相应API即可,可以节约很多开发时间。而且我们完全可以信任这些库能够达到很好的性能,写这些库的人都是在CUDA上的大能,一般人比不了。当然,完全依赖于这些库而对CUDA性能优化一无所知也是不行的,我们依然需要手动做一些改进来挖掘出更好的性能
Cuda C 编程指南(程润伟)
11-06
2. **CUDA编程模型**:CUDA编程模型基于C/C++,通过定义设备函数、主机函数、__global__关键字来区分GPU和CPU上的代码执行。理解如何在GPU上组织和调度线程是CUDA编程的关键。 3. **内存层次**:CUDA中有多种内存...
cuda编程 c语言.zip
03-08
CUDA编程是NVIDIA公司推出的一种并行计算平台和编程模型,主要针对GPU(图形处理器)进行高性能计算。CUDA C编程是使用C语言扩展来编写CUDA程序,它允许开发者利用GPU的强大计算能力解决科学计算、数据分析、机器...
CUDA平台下多核GPU高性能并行编程研究.pdf
09-25
Kernel函数是CUDA编程模型的核心组成部分。Kernel函数是一个C语言函数,扩展了C语言的功能。在调用Kernel函数时,它将由N个不同的CUDA线程并行执行N次。这与普通的C语言函数不同,普通的C语言函数只能在CPU上运行,...
基于CUDA 的矩阵乘法和FFT 性能测试
05-04
基于CUDA 的矩阵乘法和FFT 性能测试
cublas_benchmarks:一些测试gemm和gemv性能的基准
02-17
cublas_benchmarks:一些测试gemm和gemv性能的基准
GPU高性能编程CUDA实战-代码
06-29
《GPU高性能编程CUDA实战-代码》是一份针对CUDA编程技术的实践教程,旨在帮助开发者深入理解和应用GPU(图形处理器)的并行计算能力。CUDA,全称Compute Unified Device Architecture,是NVIDIA公司推出的一种用于...
CUDA 常用的函数
cs199503的博客
06-11 711
cudaMalloc(void**,int):allocate int memory to void** cudaMallocHost():这个方法是在主机上分配空间,可以加快传输速度,因此在写cuda时,应该使用此函数...
CUDA C编程(二十三)CUDA库概述
AAAA202012的博客
02-26 2338
   CUDA 库 支 持 的 作 用 域    通用的CUDA库工作流    CUDA 库 支 持 的 作 用 域   
OpenCUDA-基于CUDA的图像并行算法开源程序库
大光叔叔的专栏
12-02 5029
OpenCUDA CUDA(Compute Unified Device Architecture),是显卡厂商NVIDIA推出的运算平台。 随着GPU的发展,CUDA使用人数也越来越多。但关于CUDA的库基本都是不开源的,目前手里有上一个项目遗留下的一套图像处理代码,准备整理整理,一步一步的开源出来。想分享出来和大家一起学习。也希望各位CUDA大牛能够奉献自己的源码。 源码地址:https
CUDA库函数使用笔记与案例(一)
weixin_30486037的博客
07-09 503
项目合作中需要整合对方公司提供的CUDA代码,因此需要详细学习代码中涉及的cuda函数。 CUDA Tool Kit 8.0较完整的官方说明文档: http://docs.nvidia.com/cuda/index.html#axzz4mJF4jmiT CUDA Runtime API函数官方详细说明网站: https://www.cs.cmu.edu/afs/cs/academic/cl...
Nvidia的CUDA库现在恢复使用了
大学霸__IT达人
04-08 404
Nvidia的CUDA库现在恢复使用了 由于早期版本存在兼容问题,从去年8月nvidia-cuda-toolkit包被移除了。现在该软件包更新后,又重新可以用,被重新添加到Kali Linux软件源中。用户可以直接使用apt-get install nvidia-cuda-toolkit命令进行安装。 ...
关于cuda中的函数问题
weixin_34088598的博客
03-06 175
最近看了点关于cuda的内容,自己也做了简单的测试样例,发现没有cuda自带的函数运算快,所以打算全面的了解一下cuda的关于计算类的函数,方便自己以后遇到有些计算的时候可以直接调用cuda的函数来计算,比如cublasSgemm,还有cublasSscal。但是又发现了问题,由于文档都是英文的,本人英文又不是很好,看起来会特别慢,所以就想问一下有没有了...
写文章

热门文章

  • 前方交会与后方交会 24344
  • 相对定向与绝对定向 22338
  • Linux系统基础知识 22226
  • Qt类总结(一)QTextEdit 15735
  • 3D基础概念 13749

分类专栏

  • 实践小项目 付费
  • 机器 视觉 1篇
  • 小知识 6篇
  • 摄影测量 5篇
  • 编程 9篇
  • 数据结构 2篇
  • 计算机网络编程 16篇
  • CUDA 39篇
  • C++ 7篇
  • WIN32 2篇
  • qt 25篇
  • MFC 1篇
  • linux 1篇
  • 三维重建代码学习 8篇
  • 文献阅读 2篇
  • 三维重建 22篇

最新评论

  • 相对定向与绝对定向

    素手挽辰风: 大佬老老老老老

  • Qt实战(四)——图片浏览器

    chu___xin: 大佬,求源码!! 非常感谢,1552576371@qq.com

  • Qt实战(四)——图片浏览器

    chu___xin: 大佬,求源码,1552576371@qq.com,非常感谢表情包

  • Make与CMake

    xiaofengclouder: 如果早两年看到这篇文章我也不至于放弃了这么久 。。。

  • CGI编程

    一入程序无退路: c文件是cs后缀还是cpp后缀?

最新文章

  • Qt里的信号与槽原理
  • QJsonObject 类
  • QT里的网络通信简介
2023年12篇
2022年60篇
2021年65篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家许昌玻璃钢卡通雕塑定做济南玻璃钢雕塑摆件报价贵州户内玻璃钢雕塑设计美陈玻璃钢雕塑ip定制泉州公园玻璃钢雕塑春节商场内美陈场景呼和浩特玻璃钢鹿雕塑广东季节性商场美陈报价山西高质量玻璃钢雕塑制作广州玻璃钢雕塑座椅玻璃钢卡通人物雕塑定制小品玻璃钢卡通雕塑规格定制商场美陈十堰校园玻璃钢雕塑厂家体育运动玻璃钢雕塑宝鸡玻璃钢喷泉雕塑台州欧式玻璃钢雕塑优势户外植物园玻璃钢雕塑设计杭州商场美陈多少钱重庆九龙坡玻璃钢仿铜雕塑北京步行街玻璃钢雕塑定制广场玻璃钢彩绘雕塑定做厂家福建定制玻璃钢雕塑优势广元玻璃钢景观雕塑太原玻璃钢雕塑哪家便宜福州玻璃钢雕塑定制厂家河南仿真玻璃钢雕塑高邮玻璃钢长颈雕塑延安人物玻璃钢雕塑安装甘肃玻璃钢雕塑安装香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化