CityU HPC资料汇总,持续更新中。
Important notes:
- 本文档主要是我在使用CityU of HK 的 HPC时遇到的问题和解决方案的总结,仅供参考。
- 不要尝试记住所有东西,只要知道在哪里找到解决方案就可以了。
- 本文档会持续更新,欢迎提出建议。
常用指令
sinfo
:查看集群状态sinfo --all
:查看所有节点状态
sbatch <script.sh>
:提交任务scancel <job_id>
:取消任务sacct -j <job_id>
:查看任务状态squeue -u <user_id>
:查看自己的任务squeue -p special_bios
:查看特定分区的任务
1 | salloc -A pa_bios_department \ # 记账账户 |
脚本模板
文件名:run.slurm
1 |
|
多个task的情况:
1 |
|
运行指令:
1 | sbatch run.slurm |
使用GPU:
1 | salloc -A pa_bios_department -p special_bios --cpus-per-task=6 -n 1 -N1 -t 5:00:00 --mem=128G --nodelist hpc-gpu005 --gres=gpu:1 |
检查可用GPU:
1 | nvidia-smi |
Cheat sheet
Check list
- 基础配置
- VSCode Remote SSH
- FileZilla SFTP
- 在HPC中实现免密登录
- 配置服务器运行环境及修改.bash_profile
- 使用FileZilla上传文件特别是大文件
- 使用Warp进行命令行操作
- 配置 git&github (但是经常因为用的人太多 ssh/http 连不上去)
常用网站
我的.bashrc
1 | # .bashrc |
我的.Rprofile
使用服务器自带的R:
1 | .libPaths(c("$HOME/R/x86_64-pc-linux-gnu-library/4.2", "/opt/R/4.2.2/lib64/R/library")) |
使用自己安装的R,需要注释掉 .bashrc
中的module load R
:
1 | .libPaths(paste0(Sys.getenv("HOME"), "/R/x86_64-pc-linux-gnu-library/4.2")) |
其他事项
- 自己的目录只能存50G的文件,大文件可能要存到
gpfs1/scratch/USER_NAME
目录下. - 服务器的系统版本比较旧,有些R包安装报错找不到
xxx.so.xxx
文件。这种情况下可以尝试使用conda
管理/安装R包。 anaconda
的版本也有点旧了,可以自己装一个新的anaconda
。- 可以使用
scratch/ReserachGroups/<YOUR_GROUP>
实现组内文件共享。在自己根目录下运行ln -s /gpfs1/scratch/ResearchGroups/<YOUR_GROUP> ~/ResearchGroup
建立快捷方式。
Bugs I have met
- Segmentation fault (core dumped): 指定的内存不够,或者CPU数量太多。
- Github/vscode 使用不正常: 可能是用的人太多,建议早上6点爬起来试一下,如果可以就不是配置问题。另外,vscode的图形化界面和附带的插件会导致卡顿,前面推荐的Warp也可能存在这个问题。尽量用命令行操作。
- TODO