From 66f33b675e39c1610dbd0b472058b3a60152c9b6 Mon Sep 17 00:00:00 2001 From: Yu Li Date: Tue, 25 Jul 2023 11:48:06 +0800 Subject: [PATCH] update README adding troubleshooting --- README.md | 51 ++++++++++++++++++++++++++++++++++++++++++++++++++ rlhf/README.md | 48 ----------------------------------------------- 2 files changed, 51 insertions(+), 48 deletions(-) diff --git a/README.md b/README.md index 7dfb823..aaade33 100644 --- a/README.md +++ b/README.md @@ -217,6 +217,57 @@ DPO是最新的最高效的RLHF训练方法。RLHF一直是生成式AI训练的 具体详见:[这里](https://github.com/lyogavin/Anima/tree/main/rlhf)。 + +# Troubleshooting + +### 1. cuda lib 路径问题 + +如果training或者inference碰到以下的问题:可能是cuda lib的路径问题: + + +```bash +libbitsandbytes_cpu.so: undefined symbol: cquantize_blockwise_fp16_nf4 +``` + +```bash +ERROR: python: undefined symbol: cudaRuntimeGetVersion +``` + +```bash +CUDA SETUP: libcudart.so path is None +``` +解决方法: +把以下代码加入到 in .bashrc + +```bash +export LD_LIBRARY_PATH=/usr/lib/x86_64-linux-gnu:$LD_LIBRARY_PATH +``` + +然后: + +```bash +source ~/.bashrc +``` + +可以参考: +https://github.com/TimDettmers/bitsandbytes/issues/85 + +### 2. cuda 问题 +如果碰到以下问题: + +```bash +RuntimeError: "addmm_impl_cpu_" not implemented for 'Half' +``` +可能是cuda驱动或者toolkit安装问题,请查看cuda是否安装成功。可以运行一下命令查看是不是cuda安装成功: + +```bash +nvidia-smi +``` + +可以参考: +https://stackoverflow.com/q/73530569/21230266 + + # 参与贡献 欢迎大家参与贡献本项目 🙏 diff --git a/rlhf/README.md b/rlhf/README.md index 288892c..ffa3635 100644 --- a/rlhf/README.md +++ b/rlhf/README.md @@ -118,54 +118,6 @@ run_dpo_training.sh 中的参数大部分和Anima的训练参数一致。有几 我们认为提升模型的基础推理能力和编码基础的knowledge储备更适合通过大规模与训练进行。而DPO和RLHF更适合进行模型的输出控制,或者领域知识的训练。 -# Troubleshooting - -### 1. cuda lib 路径问题 - -如果training或者inference碰到以下的问题:可能是cuda lib的路径问题: - - -```bash -libbitsandbytes_cpu.so: undefined symbol: cquantize_blockwise_fp16_nf4 -``` - -```bash -ERROR: python: undefined symbol: cudaRuntimeGetVersion -``` - -```bash -CUDA SETUP: libcudart.so path is None -``` -解决方法: -把以下代码加入到 in .bashrc - -```bash -export LD_LIBRARY_PATH=/usr/lib/x86_64-linux-gnu:$LD_LIBRARY_PATH -``` - -然后: - -```bash -source ~/.bashrc -``` - -可以参考: -https://github.com/TimDettmers/bitsandbytes/issues/85 - -### 2. cuda 问题 -如果碰到以下问题: - -```bash -RuntimeError: "addmm_impl_cpu_" not implemented for 'Half' -``` -可能是cuda驱动或者toolkit安装问题,请查看cuda是否安装成功。可以运行一下命令查看是不是cuda安装成功: - -```bash -nvidia-smi -``` - -可以参考: -https://stackoverflow.com/q/73530569/21230266 # 参与贡献