Linux 与服务器环境随笔
2025/12/5大约 3 分钟
Linux 与服务器环境随笔
这里记录一些在 Linux 服务器上经常会用到、但又容易忘的点,主要围绕:
- 基本环境检查;
- 常见排错思路;
- 和大模型服务相关的几个小细节。
1. 登录之后我一般先看什么?
# 看系统版本和内核
cat /etc/os-release
uname -a
# 看磁盘空间
df -h
# 看当前目录下哪些文件夹占空间
du -sh *
df -h 主要用来观察是否有某个分区已经快满;
du -sh * 可以快速定位某个目录是不是被日志撑爆。
2. 进程与端口
# 查看整体负载
top
# 看某个关键进程在不在,比如 python / gunicorn / node
ps aux | grep python
# 看端口监听情况
ss -tulnp
# 看 8000 端口被谁占用
lsof -i:8000
在排查「大模型服务起不来/调不到」这类问题时,一般流程是:1.进程有没有在跑?
2.端口有没有监听?
3.防火墙/安全组有没有放行?
4、反向代理(如Nginx / Cloudflare)转发是否配置正确?3.常见的几种“坑”
3.1 Python 环境乱了
·同一台机子上装了多个Python 版本;. pip和python不是同一个环境;
·忘记激活虚拟环境source venv/bin/activate 。建议:
·每个项目一个虚拟环境,或者使用conda / uv等工具统一管理;
·安装依赖时,优先使用python -m pip install ...的形式,避免装到系统 Python里。3.2端口被其他服务占用
3.2 端口被其他服务占用
有时候在部署 Web UI 或模型服务时,会发现端口已经被占用:
lsof -i:8501
kill -9 <PID>
更好的做法是:
尽量避免硬杀,先看看是不是某个长期服务;统一整理一个「端口规划表」,例如:
. 8000-8099用于内部测试;
. 8501用于某个固定服务,避免别的项目乱占用。
4.和大模型相关的环境小记
·模型推理时要关注内存/显存/临时文件;
· 日志要尽量分模块(API日志、模型日志、系统日志);·如果跑的是长时间推理任务,记得:
·用tmux / screen保持会话;
·或者写成systemd / supervisor服务。
5.以后准备继续补充的方向
. Docker/容器化部署的一些稳定配置;
。使用Nginx /Cloudflare反代模型服务的小套路;·和监控、告警相关的简单实践。
---
## 8. 大模型随笔目录页 `src/law/README.md`
> 虽然目录叫 `law`,但我们当成「llm」用,导航里已经改名为「大模型随笔」,URL 还是 `/law/`,无伤大雅。
```md
---
title: 大模型随笔
---
# 大模型随笔
这里记录和「大模型 / LLM」相关的技术随笔,偏工程实践而不是纯理论。
目前计划覆盖的几个方向:
- 如何理解一个大模型调用链的关键环节;
- 提示工程(prompt engineering)的实际经验;
- 模型服务部署与日常维护中遇到的坑。
已经整理好的内容:
- [大模型调用与工程实践概览](/law/internship-notes.md)
后续如果有新的专题(例如 RAG、向量检索、工具调用实践),会继续往这里追加。