上期视频教大家如何在免费 VPS 上部署 lobe-chat,并接入免费API及本地模型管理工具 ollama,从而可以使用各种热门免费的大模型,包括最火的 deepseek-r1 gemini2.0 llama3.3 qwen2.5 chatgpt 等.今天给大家演示如何本地部署,并通过 FRP 内网穿透进行外网访问。
部署环境介绍:
- 一台家用台式机
- 系统 最小化安装 debian12 ,设置好了固定 IP 192.168.2.10
- 配置 i7-14700F/32G/3060M 12G/1T机械
一、安装本地模型管理工具Ollama
首先 ssh 连接到 debian 今天直接使用 cmd
1 | apt update |
安装 deepseek-r1
模型版本对硬件要求
低配置硬件适配:如果你的电脑硬件配置较为基础,CPU 是老旧的双核或四核处理器,运行内存仅有 8GB 及以下,显卡为集成显卡或者独立显卡的显存不足 2GB ,那么 DeepSeek-R1-Distill-Llama-1.5B 模型是最佳选择。它对硬件资源的需求极低,能够在这样的设备上稳定运行,轻松应对日常对话、简单文本生成等基础文本处理任务,满足你的日常使用需求。
中配置硬件适配:若你的电脑配置处于中等水平,配备像英特尔酷睿 i5 系列或者 AMD 锐龙 5 系列这样性能不错的 CPU,内存达到 16GB,显卡显存为 4 - 6GB ,那么 DeepSeek-R1-Distill-Llama-7B 或 DeepSeek-R1-Distill-Qwen-7B 模型将是你的得力助手。这类模型在中等配置的电脑上能够充分发挥潜力,运行效率较高,能够轻松处理简单代码生成、文章润色等具有一定复杂度的任务,帮助你完成更多有挑战性的工作。
高配置硬件适配:对于电脑硬件配置高端的用户,拥有英特尔酷睿 i7/i9 系列或 AMD 锐龙 7/9 系列这种高性能 CPU,内存达到 32GB 及以上,显卡搭载 NVIDIA GeForce RTX 30 系列、AMD Radeon RX 6000 系列等高性能独立显卡,显存高达 8GB 及以上,此时 DeepSeek-R1-Distill-Llama-32B 甚至更高版本的模型,才是充分发挥你电脑硬件实力的不二之选。它们能够承担复杂的自然语言处理任务,如专业领域的文本深度分析、复杂代码的编写与调试等,为你带来高效且优质的使用体验。
1 | ollama run deepseek-r1:32b |
时间较长,等待安装完毕
同时我们开一个窗口,监控下GPU使用率,每0.1秒刷新一次
1 | watch -n 0.1 -d nvidia-smi |
安装完成后:终端测试
二、部署 lobechat
使用 docker 部署
1 | curl -fsSL https://get.docker.com -o get-docker.sh |
编辑 ollama.service [Service] 下添加下面三行
1 | [Service] |
保存后重启
1 | systemctl daemon-reload && systemctl restart ollama.service |
测试
全部加载完成后,暂时还不能使用。需要对接刚安装好的模型。
Lobe-chat 支持与市场上所有主流模型供应商API对接,关于lobe-chat ,上个视频已经讲过了,这里不再赘述
参考 deepseek 免费云端部署 绑定域名 对接免费API
关掉 openai ,展开 ollama 设置
如果连通性检查一直报错,回到终端重启下 ollama
1 | systemctl stop ollama |
截至到此,如果只打算局域网内使用,那么就部署完了。
如果打算通过公网访问刚部署的模型,那么接下来介绍下内网穿透 FRP
三、内网穿透
关于内网穿透FRP 之前已经录制过视频了,这里不再重新讲解一遍。
这里讲解下本地如何设置。