ollama本地部署大模型（纯CPU推理）实践

一个开源的大型语言模型服务提供类似 OpenAI 的 API 接口和聊天界面，可以非常方便地部署最新版本的 GPT 模型并通过接口使用。支持热加载模型文件，无需重新启动即可切换不同的模型。针对 LLM 用户友好的 WebUI，支持的 LLM 运行程序包括 Ollama、OpenAI 兼容的 API。

缘友一世

15968人浏览 · 2024-03-31 12:13:20

缘友一世 · 2024-03-31 12:13:20 发布

文章目录

说明
Ollama和Ollama WebUI简介
Ollama模型硬件要求
- 内存要求
Ollama容器部署
Ollama容器内模型下载和对话
Ollama WebUI部署
Ollama WebUI下载模型和对话
轻量模型推荐
- 机器硬件信息概览
- qwen:0.5b推理体验
- gemma:7b推理体验

说明

本文旨在分享在linux(centos8)平台使用docker部署轻量化大模型，仅供学习和体验，无法适用于生产环境
运维面板使用飞致云的开源面板1panel，使用ollamadocker方案快速部署大模型，总共需要两个dcoker环境：ollama 容器环境和ollama WebUI容器环境

Ollama和Ollama WebUI简介

Ollama ：一个开源的大型语言模型服务，提供类似 OpenAI 的 API 接口和聊天界面，可以非常方便地部署最新版本的 GPT 模型并通过接口使用。支持热加载模型文件，无需重新启动即可切换不同的模型。
Open WebUI：针对 LLM 用户友好的 WebUI，支持的 LLM 运行程序包括 Ollama、OpenAI 兼容的 API。

Ollama模型硬件要求

Ollama 支持 ollama.com/library 上提供的一系列模型

内存要求

注意：运行 7B 型号至少需要 8 GB 可用 RAM （内存），运行 13B 型号至少需要16 GB可用 RAM （内存），运行 33B 型号至少需要32 GB 可用 RAM （内存）。
示例模型

Model	Parameters	Size	Download
Llama 2	7B	3.8GB	`ollama run llama2`
Mistral	7B	4.1GB	`ollama run mistral`
Dolphin Phi	2.7B	1.6GB	`ollama run dolphin-phi`
Phi-2	2.7B	1.7GB	`ollama run phi`
Neural Chat	7B	4.1GB	`ollama run neural-chat`
Starling	7B	4.1GB	`ollama run starling-lm`
Code Llama	7B	3.8GB	`ollama run codellama`
Llama 2 Uncensored	7B	3.8GB	`ollama run llama2-uncensored`
Llama 2 13B	13B	7.3GB	`ollama run llama2:13b`
Llama 2 70B	70B	39GB	`ollama run llama2:70b`
Orca Mini	3B	1.9GB	`ollama run orca-mini`
Vicuna	7B	3.8GB	`ollama run vicuna`
LLaVA	7B	4.5GB	`ollama run llava`
Gemma	2B	1.4GB	`ollama run gemma:2b`
Gemma	7B	4.8GB	`ollama run gemma:7b`

Ollama容器部署

在1Panel应用商店中选择Ollama进行安装
配置容器的启动配置：容器名称、端口，最后，点击启动即可

Ollama容器内模型下载和对话

根据机器内存和CPU性能可以进入容器，下载示例模型

Model	Parameters	Size	Download
Llama 2	7B	3.8GB	`ollama run llama2`
Mistral	7B	4.1GB	`ollama run mistral`
Dolphin Phi	2.7B	1.6GB	`ollama run dolphin-phi`
Phi-2	2.7B	1.7GB	`ollama run phi`
Neural Chat	7B	4.1GB	`ollama run neural-chat`
Starling	7B	4.1GB	`ollama run starling-lm`
Code Llama	7B	3.8GB	`ollama run codellama`
Llama 2 Uncensored	7B	3.8GB	`ollama run llama2-uncensored`
Llama 2 13B	13B	7.3GB	`ollama run llama2:13b`
Llama 2 70B	70B	39GB	`ollama run llama2:70b`
Orca Mini	3B	1.9GB	`ollama run orca-mini`
Vicuna	7B	3.8GB	`ollama run vicuna`
LLaVA	7B	4.5GB	`ollama run llava`
Gemma	2B	1.4GB	`ollama run gemma:2b`
Gemma	7B	4.8GB	`ollama run gemma:7b`

按照操作，进入容器终端
点击连接进入容器内部，输入ollama run qwen:0.5b下载模型，下载成功后，自动启动对话

存在的缺点：需要进入容器进行对话，只能在终端进行，不方便，不优雅

Ollama WebUI部署

有关ollama WebUI镜像拉取缓慢的问题和部署的内容，请阅读一下两篇文章
- docker配置github仓库ghcr国内镜像加速
- 使用1panel部署Ollama WebUI（dcoekr版）浅谈

Ollama WebUI下载模型和对话

选择模型进行下载，然后刷新页面
然后，选择模型进行对话，这效果（只能图一乐）🤣😂🤣

轻量模型推荐

机器硬件信息概览

在这里插入图片描述

linxu系统内核和cpu信息如下（CPU确实垃圾）

[root@yang ~]# uname -a
Linux yang 4.18.0-348.7.1.el8_5.x86_64 #1 SMP Wed Dec 22 13:25:12 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux
[root@yang ~]# cat /proc/cpuinfo
processor   : 0
vendor_id   : AuthenticAMD
cpu family  : 21
model       : 96
model name  : AMD A10-8780P Radeon R8, 12 Compute Cores 4C+8G
stepping    : 1
microcode   : 0x600610b
cpu MHz     : 2000.000
cache size  : 1024 KB
physical id : 0
siblings    : 4
core id     : 0
cpu cores   : 2
apicid      : 16
initial apicid  : 0
fpu     : yes
fpu_exception   : yes
cpuid level : 13
wp      : yes
flags       : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ht syscall nx mmxext fxsr_opt pdpe1gb rdtscp lm constant_tsc rep_good acc_power nopl nonstop_tsc cpuid extd_apicid aperfmperf pni pclmulqdq monitor ssse3 fma cx16 sse4_1 sse4_2 movbe popcnt aes xsave avx f16c rdrand lahf_lm cmp_legacy svm extapic cr8_legacy abm sse4a misalignsse 3dnowprefetch osvw ibs xop skinit wdt lwp fma4 tce nodeid_msr tbm topoext perfctr_core perfctr_nb bpext ptsc mwaitx cpb hw_pstate ssbd vmmcall fsgsbase bmi1 avx2 smep bmi2 xsaveopt arat npt lbrv svm_lock nrip_save tsc_scale vmcb_clean flushbyasid decodeassists pausefilter pfthreshold avic v_vmsave_vmload vgif overflow_recov
bugs        : fxsave_leak sysret_ss_attrs null_seg spectre_v1 spectre_v2 spec_store_bypass
bogomips    : 3992.38
TLB size    : 1536 4K pages
clflush size    : 64
cache_alignment : 64
address sizes   : 48 bits physical, 48 bits virtual
power management: ts ttp tm 100mhzsteps hwpstate cpb eff_freq_ro acc_power [13]

如果你的机器CPU不同、也没有较好的显卡，这里推荐使用通义千问开源Qwen的轻量化模型， ollama qwen模型以来指导

# 推理的最低内存要求小于 2GB
ollama run qwen:0.5b
ollama run qwen:1.8b
ollama run qwen:4b
# 推理的最低内存要求8GB
ollama run qwen:7b

参数越大，回答普遍会越智能，当然对CPU和内存的要求也会越高，性能较低的机器体验也会很差

qwen:0.5b推理体验

qwen:0.5b对机器要求最低，推理很快，体验还算可以，先不说代码对不对，就这个速度还是可以的，简单的问题体验还可以，复杂的不想了
推理过程系统负载如下：

gemma:7b推理体验

参数越多的模型，对机器的运行要求较高，例如：gemma:7b (4.8GB)的推理下我的机器就无法承受了😭😭😭真就一个一个字算出来的

开放原子开发者工作坊

开放原子开发者工作坊旨在鼓励更多人参与开源活动，与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动，如meetup、训练营等，主打技术交流，干货满满，真诚地邀请各位开发者共同参与！

更多推荐

· 相约山东济南，共话齐鲁开源 | 开放原子校源行（济南站）即将启幕！
· 第二届开放原子大赛open-eBackup/Cantian两大赛项火热开启
· 人民邮电报：“开源”到底是什么？为啥热度越来越高？

相约山东济南，共话齐鲁开源 | 开放原子校源行（济南站）即将启幕！

10月21日，开放原子校源行（济南站）将在山东大学和浪潮科技园隆重举办。

开放原子开发者工作坊

第二届开放原子大赛open-eBackup/Cantian两大赛项火热开启

开放原子开发者工作坊

人民邮电报：“开源”到底是什么？为啥热度越来越高？

开放原子开发者工作坊

所有评论(0)

查看更多评论

缘友一世

@yang2330648064

已为社区贡献5条内容