@@ -178,9 +178,9 @@ ifdef LLAMA_HIPBLAS
178
178
CC := $(ROCM_PATH)/llvm/bin/clang
179
179
CXX := $(ROCM_PATH)/llvm/bin/clang++
180
180
GPU_TARGETS = gfx803 gfx900 gfx906 gfx908 gfx90a gfx1030 gfx1100
181
- LLAMA_CUDA_DMMV_X ?= 256
182
- LLAMA_CUDA_DMMV_Y ?= 2
183
-
181
+ LLAMA_CUDA_DMMV_X ?= 64
182
+ LLAMA_CUDA_MMV_Y ?= 2
183
+ LLAMA_CUDA_FORCE_DMMV = true
184
184
CFLAGS += -DGGML_USE_HIPBLAS -DGGML_USE_CUBLAS $(shell $(ROCM_PATH)/bin/hipconfig -C)
185
185
CXXFLAGS += -DGGML_USE_HIPBLAS -DGGML_USE_CUBLAS $(shell $(ROCM_PATH)/bin/hipconfig -C)
186
186
LDFLAGS += -L/opt/rocm/lib -Wl,-rpath=$(ROCM_PATH)/lib -lhipblas -lamdhip64
@@ -190,25 +190,25 @@ ifdef LLAMA_CUDA_DMMV_X
190
190
CXXFLAGS += -DGGML_CUDA_DMMV_X=$(LLAMA_CUDA_DMMV_X )
191
191
else
192
192
CXXFLAGS += -DGGML_CUDA_DMMV_X=32
193
- endif # LLAMA_CUDA_DMMV_X
193
+ endif
194
+ ifeq ($(LLAMA_CUDA_FORCE_DMMV ) , true)
195
+ CXXFLAGS += -DGGML_CUDA_FORCE_DMMV
196
+ endif
194
197
ifdef LLAMA_CUDA_MMV_Y
195
198
CXXFLAGS += -DGGML_CUDA_MMV_Y=$(LLAMA_CUDA_MMV_Y )
196
199
else ifdef LLAMA_CUDA_DMMV_Y
197
200
CXXFLAGS += -DGGML_CUDA_MMV_Y=$(LLAMA_CUDA_DMMV_Y ) # for backwards compatibility
198
201
else
199
202
CXXFLAGS += -DGGML_CUDA_MMV_Y=1
200
- endif # LLAMA_CUDA_MMV_Y
203
+ endif
201
204
202
205
ifdef LLAMA_CUDA_KQUANTS_ITER
203
206
CXXFLAGS += -DK_QUANTS_PER_ITERATION=$(LLAMA_CUDA_KQUANTS_ITER)
204
207
else
205
208
CXXFLAGS += -DK_QUANTS_PER_ITERATION=2
206
209
endif
207
210
208
- ggml-cuda.o : CXXFLAGS += $(addprefix --offload-arch=,$(GPU_TARGETS ) ) \
209
- -DGGML_CUDA_DMMV_X=$(LLAMA_CUDA_DMMV_X ) \
210
- -DGGML_CUDA_MMV_Y=$(LLAMA_CUDA_DMMV_Y ) \
211
- -DGGML_CUDA_FORCE_DMMV
211
+ ggml-cuda.o : CXXFLAGS += $(addprefix --offload-arch=,$(GPU_TARGETS ) )
212
212
213
213
214
214
# DGGML_CUDA_DMMV_F16 does not currently work with AMD.
0 commit comments