大模型侧工具安装部署实践及对比选型 大型模具的安装方法

大模型侧工具安装部署实践及对比选型大模型侧工具安装部署实践 这里首先介绍的是大模型侧的工具安装部署实践,至于为什么先提大模型侧后提知识库侧呢?这是因为大模型通常是知识库操作和应用的基础与核心,是提供

大模型侧工具安装部署实践

这里首先要介绍的是大模型端安装部署工具的实践。为什么我先提大模型侧,然后再提知识库侧呢?这是因为大规模模型通常是知识化运营和应用的基础和核心,是提供智能决策的引擎。这些构建了理解和生成文本、图像和音频等多模态响应的基本能力,同时主题是本地的、大规模的模型个人知识库,因此,它是整个智能应用的核心。安装、配置、优化和部署大规模模型是保证知识库工具顺利运行的第一步和基础。

接下来,我们转向知识库方面。知识库是大型模型应用的扩展和优化层,提供模型和业务场景之间的桥梁。 RAG 集成等知识库允许模型准确识别和捕获增强代,通过文档和上下文理解来改进交互式问答。知识库通过索引声明来确定模型的有用性,使模型更贴近业务需求,并使用MaxKB、Open WebUI等工具实现模型和业务的直接上传、文档管理和知识集成。系统无缝连接。因此,知识库是对大规模模型的补充,并在模型之后引入,因为它们是增加模型在特定应用中的价值的关键。

所以模型侧之后就是知识库。它遵循从基础设施到应用程序优化的技术实施的逻辑顺序,并建立在对模型的深入理解和逐步将模型部署到业务场景的基础上。高效且用户友好的智能系统。

Ollama部署

Windows部署Ollama

首先,请访问Ollama的官方网站。

单击“下载”并选择适合您计算机的版本。

下载Windows 后,我在计算机上看不到任何快捷方式启动说明。通常,您单击缩写进入日志目录,然后右键单击打开终端。

返回Ollama 官网,点击右上角“Models”。

您可以检查多种型号,如下所示:

点击“llama3”,您将看到以下界面。

单击“最新”并选择您的模型类型。我们建议笔记本电脑运行8b,服务器运行70b(笔者笔记本电脑的显卡是RTX4070)。

单击复制按钮,将命令行粘贴到终端框中,然后运行它。

登录后复制

奥拉玛兰花拉玛3:8b

1.

安装后,它应该看起来像这样:

当然,你实际上可以在Windows环境下使用docker来部署Ollama,但我们这里没有深入讨论。原因之一是配置过程有点繁琐。其次,当你在Windows上部署docker时,任何有Linux操作基础知识的人都可以简单地参考下面的Linux部署部分。

Linux部署Ollama

在Linux环境中,只需一条命令即可部署Ollama。最初的基本虚拟机搭建,请参见我之前的文章《Linux虚拟机安装操作》。

进入虚拟机后,打开命令行并输入:

登录后复制

卷曲-fsSL https://ollama.com/install.sh |

1.

这时候会要求你更新包。

通过运行以下命令更新包:

登录后复制

须藤安装卷曲

1.

更新完成后,再次运行以开始部署并启动Ollama。

这个过程很可能会出现超时,所以需要修改hosts文件,将**http://github.com**直接指向IP地址,才能进入下一个编辑页面。

登录后复制

须藤vim /etc/hosts

1.

输入:后添加以下设置

登录后复制

# 注意github下面的IP地址和域名之间的空格

140.82.114.3 github.com

199.232.69.194 github.global.ssl.fastly.net

185.199.108.153 资产-cdn.github.com

185.199.109.153 资产-cdn.github.com

185.199.110.153 资产-cdn.github.com

185.199.111.153 资产-cdn.github.com

1.2.3.4.5.6.7。

重试并不会直接导致超时,但由于是国内环境速度还是不太理想。

Ollama 安装完成后,Ollama 服务通常会自动启动,并配置为在启动时自动启动。然后直接运行Qianwen模型就可以看到运行成功了。

除了直接部署之外,作者还支持并推荐使用docker部署。

第一步是安装docker和docker-compose

登录后复制

sudo apt install docker.io

sudo apt-get 安装docker-compose

须藤usermod -aG docker $USER

sudo systemctl 守护进程重新加载

sudo systemctl 重新启动docker

1.2.3.4.5。

接下来,配置您国内的Docker镜像源,修改/etc/docker/daemon.json,添加以下配置:

登录后复制

{

‘注册表镜像’: [

\’https://docker.mirrors.ustc.edu.cn\’,

“https://hub-mirror.c.163.com”

]

}

1.2.3.4.5.6。

设置完成后,重启docker。

登录后复制

sudo systemctl 守护进程重新加载

sudo systemctl 重新启动docker

1.2.

拉取镜像

登录后复制

码头工人拉奥拉马/奥拉马

1.

docker有几种不同的启动方式(请根据自己的实际情况更改相应的路径)。

CPU模式

登录后复制

docker run -d -v /opt/ai/ollama:/root/.ollama -p 11434:11434 –name ollama ollama/ollama

1.

GPU模式(需要NVIDIA显卡支持)

登录后复制

docker run –gpus all -d -v /data/ai/ollama:/root/.ollama -p 11434:11434 –name ollama ollama/ollama

1.

docker 部署ollam web ui

登录后复制

docker run -d -p 8080:8080 –add-host=host.docker.internal:host-gateway –name ollama-webui –restart 始终ghcr.io/ollama-webui/ollama-webui:main

1.

例如,以CPU 模式启动:

您可以在浏览器中访问并查看服务器IP:11434,如下所示。

接下来,运行模型。

登录后复制

docker exec -it ollama ollama 运行llama3

1.

安装完成后,您就可以正常体验操作了。如果你觉得命令行看起来不太好,你也可以尝试上面的Web-UI部署。

Ollama使用技巧

模型更换存储路径

在Windows系统上下载时一个非常不科学的点是默认使用C盘来保存模型文件。本质上C盘不够用,下载的模型至少会损失7-8GB。不过,不要惊慌。您可以通过更改环境变量来设置指定模型的目录位置。

[计算机] 右键单击—— [属性] —— [高级系统设置] —— [高级设置] —— [环境变量]

通过设置环境变量(OLLAMA_MODELS) 指定模型目录。环境变量可以通过系统设置(系统变量或用户变量)进行配置。

在Linux 系统上,默认地址是~/.ollama/models。如果移动到其他目录,还需设置环境变量OLLAMA_MODELS。

登录后复制

导出OLLAMA_MODELS=/数据/OLLAMA

1.

导出某个模型

我们以llama3:8b为例,先查看一下型号信息。

登录后复制

Orama show –模型文件llama3:8b

1.

从模型文件信息中我们可以看到/xxx/xxx/xxx/xxx/xxx/sha256-00e1317cbf74d901080d7100f57580ba8dd8de57203072dc6f668324ba545f29就是需要的llama3:8b(格式为gguf)。导出代码为:

对于Linux系统

登录后复制

cp /xxx/xxx/xxx/xxx/xxx/sha256-00e1317cbf74d901080d7100f57580ba8dd8de57203072dc6f668324ba545f29

1.

对于Windows 系统

登录后复制

复制/xxx/xxx/xxx/xxx/xxx/sha256-00e1317cbf74d901080d7100f57580ba8dd8de57203072dc6f668324ba545f29

1.

导入某个模型

例如,选择链接https://hf-mirror.com/brittlewis12/Octopus-v2-GGUF/tree/main 下载octopus-v2.Q8_0.gguf。

准备模型文件

登录后复制

/路径/到/qwen_7b.gguf

1.

当然,这是最简单的方法。可以从上述模型信息生成模型文件的完整版本。

登录后复制

# 由\’ollam show\’生成的模型文件

# 要基于此构建新的模型文件,请将FROM 行替换为:

# 来自qwen:7b

从/path/to/qwen_7b.gguf

模板\’\'{{ if .System }}|im_start|system

{{ .System }}|im_end|{{ end }}|im_start|用户

{{ .prompt }}|im_end|

|im_start|助理

””

参数停止\’|im_start|\’

参数停止\’\\\’|im_end|\\\’\’

1.2.3.4.5.6.7.8.9.10.11.12。

此外,请记住,每个模型的模板和停止参数都不同,因此不要编写它们。或者直接在网上搜索并执行。

登录后复制

ollam 创建qwen:7b -f 模型文件

1.

导入模型时,请确保可用硬盘空间至少是模型大小的两倍。

小结

从上面提到的实际部署和使用体验来看,我只能说Ollama这些天(包括我)火起来也不足为奇。轻松完成本地模型部署。只需点击几下鼠标,这种“即插即用”的模式彻底改变了之前需要深厚技术背景才能参与的大规模语言模型的应用领域,带来更多的想法和项目。模型种类也很丰富,Ollama支持的模型库数量达到92个,涵盖了从基础研究到工业应用的广泛需求,其中包括最新的Qwen2。

关于使用,Ollama 并没有直接提供可视化的一键拉取模型的方式,但由于简洁的命令和清晰的文档,我认为这是可以接受的。

综上所述,截至2024年6月8日,我仍然认为Ollama确实是一个有用的、模型资源丰富的、高度可扩展的大规模模型部署工具。最好的选择。

LM Studio部署

Windows部署LM Studio

访问LM Studio 官方网站。加载大约需要1 分钟。单击下载适用于Windows 的LM Studio。

这下载速度真是无语了。

下载终于完成了。

点击直接启动。界面是:

Home:主屏区域,稍后我们会推荐各种较大的型号。 搜索:搜索并下载各种大模型。 AI聊天:模型对话区多模型:多模型对话,显存必须24G+。本地服务器:创建Web 服务。 我的模型:下载模型和文档的设置

首先,进入该文件夹并将模型下载路径更改为您的D盘。

目录结构必须创建在D盘下。

登录后复制

D:\\模型\\发布者\\存储库

1.

但是,当您单击“更改”时,只需选择/models 层的自定义路径即可。

在主界面直接下拉浏览各种大语言模型,选择下载按钮即可直接下载。但是,某些型号可能需要VPN 才能下载。

同时,您也可以直接在搜索栏中搜索您想要下载的型号。

下载模型后,您可以选择左侧菜单栏的聊天图标,然后选择模型,如下图(下拉列表中会出现下载的模型)。

直接输入您想问的问题来与模特交谈。

当然,LM也支持以服务器的形式在本地提供API接口服务。这意味着大型语言模型可以作为后端服务来调用,并且面向业务的功能可以封装在前端。

Linux部署LM Studio

进入LM Studio官方网站,点击下载LM Studio for Linux。然而,在检查文档后,它似乎只与Linux(x86、Ubuntu 22.04、AVX2)兼容。您的系统可能存在兼容性问题。

又是漫长的等待。最终,雨足足持续了一个多小时才停。另外,途中还出现过一次失败,感觉头晕。

起初我想以探险家的身份尝试一下,但我很犹豫。关于Linux上的安装和启动,Ubuntu也有可视化操作,所以和上面提到的Windows没有太大区别。如果您有兴趣,请跳过这里。您可以尝试使用VPN 下载、安装和部署。

LM Studio本地大模型下载设置

通过上面的实践,你也会发现日常使用VPN其实并不需要直接快捷的方式,无论是下载LM Studio工具本身还是内置的大型模型。不过,还有其他方法可以下载大型模型并将其导入LM Studio 中使用。

下面提供了两个选项。

请从国内模型网站Magic Tower社区:ModelScope Magic Community下载。使用VScode,更改huggingface.co链接,替换为国内镜像hf-mirror.com,即可搜索并下载大模镜像。

从魔塔社区下载

加入Magic Tower 社区:ModelScope Magic 社区。

下载模型后,将其复制到您可以在下面识别的目录位置。

修改js文件中的默认下载路径

输入如下所示的目录。

右键单击app-0.2.23,在VS Code中打开它,并将里面的huggingface.co链接替换为hf-mirror.com。

再次重启LM Studio即可搜索并下载LLM大模型。

小结

就工具本身的性能而言,我认为这个工具比Ollama强。首先,我们来谈谈型号的数量。与Ollama 相比,下载LM Studio 内部模型的主要来源相当大。

我个人真正喜欢的第二件事是与模型交互时的可视化界面和负载设置。

与Ollama 相比,LM Studio 提供了更直观且易于使用的界面,让您只需单击下载按钮即可安装和部署模型。

同时,LM Studio 在设置模型负载方面也做得很好。例如:通常,您的计算机的CPU 将默认完成所有工作,但如果您安装了GPU,您将在此处看到它。如果您没有足够的GPU 内存,您可以设置GPU 处理的层数(从10-20 开始)。然后该层的这一部分由GPU 处理。这与llama 的参数相同。cpp。还有一个选项可以增加LLM 使用的CPU 线程数。默认值为4。这也需要根据你本地的电脑进行配置。

唯一的问题是需要VPN 来下载工具及其中的模型,但可以通过如上所述更改源来解决此问题。

总体而言,LM Studio和Ollama各有以下优势:

总体而言,LM Studio 在功能丰富度和性能优化方面明显更胜一筹。从工具本身的使用以及模型部署的效率来看,Ollama 上手更快、更容易使用、效率更高。

所以我大胆地得出以下结论。

LM Studio 适合寻求快速原型设计、广泛实验和高效模型管理的开发人员和研究人员。 Ollama适合喜欢轻量级解决方案、看重快速启动和执行效率的用户。适合小型项目或环境要求简单的应用场景。

Xinference

Xinference支持两种方法

式的安装,一种是使用 Docker 镜像安装,另外一种是直接本地源码进行安装。个人建议,如果在windows环境中最好采用源码安装,Linux环境中可以采用Docker来安装。

Windows 安装 Xinference

首先我们需要准备一个 3.9 以上的 Python 环境运行来 Xinference,建议先根据 conda 官网文档安装 conda。 然后使用以下命令来创建 3.11 的 Python 环境:

登录后复制

conda create –name xinference python=3.10
conda activate xinference
1.2.

安装 pytorch

登录后复制

conda install pytorch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 pytorch-cuda=11.8 -c pytorch -c nvidia
1.

安装 llama_cpp_python

登录后复制

pip install https://github.com/abetlen/llama-cpp-python/releases/download/v0.2.55/llama_cpp_python-0.2.55-cp310-cp310-win_amd64.whl
1.

安装 chatglm-cpp

登录后复制

pip install https://github.com/li-plus/chatglm.cpp/releases/download/v0.3.1/chatglm_cpp-0.3.1-cp310-cp310-win_amd64.whl
1.

安装 Xinference

登录后复制

pip install \”xinference[all]\”
1.

如有需要,也可以安装 Transformers 和 vLLM 作为 Xinference 的推理引擎后端(可选):

登录后复制

pip install \”xinference[transformers]\” -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install \”xinference[vllm]\” -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install \”xinference[transformers,vllm]\” # 同时安装
#或者一次安装所有的推理后端引擎
pip install \”xinference[all]\” -i https://pypi.tuna.tsinghua.edu.cn/simple
1.2.3.4.5.

设置 model 路径

在电脑上设置环境变量,路径请根据各自环境修改。

登录后复制

XINFERENCE_HOME=D:\\XinferenceCache
1.

不过同样,这里也面临着VPN的问题,Xinference 模型下载缺省是从Huggingface官方网站下载  https://huggingface.co/models 。在国内因为网络原因,可以通过下面的环境变量设计为其它镜像网站:

登录后复制

HF_ENDPOINT=https://hf-mirror.com.
1.

或者直接设置为:ModelScope:

通过环境变量\”XINFERENCE_MODEL_SRC\”设置。

登录后复制

XINFERENCE_MODEL_SRC=modelscope.
1.

另外,可以通过环境变量XINFERENCE_HOME设置运行时缓存文件主目录。

登录后复制

export HF_ENDPOINT=https://hf-mirror.com
export XINFERENCE_MODEL_SRC=modelscope
export XINFERENCE_HOME=/jppeng/app/xinference
可以设置环境变量,临时启作用,或者设置在用户环境变量中,登陆即自动生效。
1.2.3.4.

启动 Xinference

登录后复制

xinference-local -H 0.0.0.0或<your_ip>
1.

Xinference 默认会在本地启动服务,端口默认为 9997。因为这里配置了-H 0.0.0.0参数,非本地客户端也可以通过机器的 IP 地址来访问 Xinference 服务。

启动成功后,我们可以通过地址 http://localhost:9777 来访问 Xinference 的 WebGUI 界面了。

打开“Launch Model”标签,搜索到 Yi-chat,选择模型启动的相关参数,然后点击模型卡片左下方的【火箭】按钮,就可以部署该模型到 Xinference。 默认 Model UID 是 Yi-chat(后续通过将通过这个 ID 来访问模型)。

当第一次启动 Yi-chat 模型时,Xinference 会从 HuggingFace 下载模型参数,大概需要几分钟的时间。Xinference 将模型文件缓存在本地,这样之后启动时就不需要重新下载了。

点击该下载好的模型。

运行成功后,在 “Running Models” 页面可以查看。

Linux 安装 Xinference

在Linux下个人更推荐docker安装,这里需要准备两个前提,确保机器上已经安装了 Docker 和 CUDA。

docker一键安装 Xinference 服务。

登录后复制

docker pull xprobe/xinference:latest
1.

docker启动 Xinference 服务

登录后复制

docker run -it –name xinference -d -p 9997:9997 -e XINFERENCE_MODEL_SRC=modelscope -e XINFERENCE_HOME=/workspace -v /yourworkspace/Xinference:/workspace –gpus all xprobe/xinference:latest xinference-local -H 0.0.0.0
1.

-e XINFERENCE_MODEL_SRC=modelscope:指定模型源为modelscope,默认为hf-e XINFERENCE_HOME=/workspace:指定docker容器内部xinference的根目录-v /yourworkspace/Xinference:/workspace:指定本地目录与docker容器内xinference根目录进行映射–gpus all:开放宿主机全部GPU给container使用xprobe/xinference:latest:拉取dockerhub内xprobe发行商xinference项目的最新版本xinference-local -H 0.0.0.0:container部署完成后执行该命令
部署完成后访问IP:9997即可。

Xinference使用
Xinference接口

在 Xinference 服务部署好的时候,WebGUI 界面和 API 接口已经同时准备好了,在浏览器中访问http://localhost:9997/docs/就可以看到 API 接口列表。

接口列表中包含了大量的接口,不仅有 LLM 模型的接口,还有其他模型(比如 Embedding 或 Rerank )的接口,而且这些都是兼容 OpenAI API 的接口。以 LLM 的聊天功能为例,我们使用 Curl 工具来调用其接口,示例如下:

登录后复制

curl -X \’POST\’ \\
\’http://localhost:9997/v1/chat/completions\’ \\
-H \’accept: application/json\’ \\
-H \’Content-Type: application/json\’ \\
-d \'{
\”model\”: \”chatglm3\”,
\”messages\”: [
{
\”role\”: \”user\”,
\”content\”: \”hello\”
}
]
}\’
# 返回结果
{
\”model\”: \”chatglm3\”,
\”object\”: \”chat.completion\”,
\”choices\”: [
{
\”index\”: 0,
\”message\”: {
\”role\”: \”assistant\”,
\”content\”: \”Hello! How can I help you today?\”,
},
\”finish_reason\”: \”stop\”
}
],
\”usage\”: {
\”prompt_tokens\”: 8,
\”total_tokens\”: 29,
\”completion_tokens\”: 37
}
}
1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.16.17.18.19.20.21.22.23.24.25.26.27.28.29.30.31.32.33.34.

Xinference多模态模型

多模态模型是指可以识别图片的 LLM 模型,部署方式与 LLM 模型类似。

首先选择Launch Model菜单,在LANGUAGE MODELS标签下的模型过滤器Model Ability中选择vl-chat,可以看到目前支持的 2 个多模态模型:

选择qwen-vl-chat这个模型进行部署,部署参数的选择和之前的 LLM 模型类似,选择好参数后,同样点击左边的火箭图标按钮进行部署,部署完成后会自动进入Running Models菜单,显示如下:

点击图中Launch Web UI的按钮,浏览器会弹出多模态模型的 Web 界面,在这个界面中,你可以使用图片和文字与多模态模型进行对话,界面如下:

XinferenceEmbedding 模型

Embedding 模型是用来将文本转换为向量的模型,使用 Xinference 部署的话更加简单,只需要在Launch Model菜单中选择Embedding标签,然后选择相应模型,不像 LLM 模型一样需要选择参数,只需直接部署模型即可,这里我们选择部署bge-base-en-v1.5这个 Embedding 模型。

我们通过 Curl 命令调用 API 接口来验证部署好的 Embedding 模型:

登录后复制

curl -X \’POST\’ \\
\’http://localhost:9997/v1/embeddings\’ \\
-H \’accept: application/json\’ \\
-H \’Content-Type: application/json\’ \\
-d \'{
\”model\”: \”bge-base-en-v1.5\”,
\”input\”: \”hello\”
}\’
# 显示结果
{
\”object\”: \”list\”,
\”model\”: \”bge-base-en-v1.5-1-0\”,
\”data\”: [
{
\”index\”: 0,
\”object\”: \”embedding\”,
\”embedding\”: [0.0007792398682795465, …]
}
],
\”usage\”: {
\”prompt_tokens\”: 37,
\”total_tokens\”: 37
}
}
1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.16.17.18.19.20.21.22.23.24.25.

Xinference Rerank 模型

Rerank 模型是用来对文本进行排序的模型,使用 Xinference 部署的话也很简单,方法和 Embedding 模型类似,部署步骤如下图所示,这里我们选择部署bge-reranker-base这个 Rerank 模型:

登录后复制

curl -X \’POST\’ \\
\’http://localhost:9997/v1/rerank\’ \\
-H \’accept: application/json\’ \\
-H \’Content-Type: application/json\’ \\
-d \'{
\”model\”: \”bge-reranker-base\”,
\”query\”: \”What is Deep Learning?\”,
\”documents\”: [
\”Deep Learning is …\”,
\”hello\”
]
}\’
# 显示结果
{
\”id\”: \”88177e80-cbeb-11ee-bfe5-0242ac110007\”,
\”results\”: [
{
\”index\”: 0,
\”relevance_score\”: 0.9165927171707153,
\”document\”: null
},
{
\”index\”: 1,
\”relevance_score\”: 0.00003880404983647168,
\”document\”: null
}
]
}
1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.16.17.18.19.20.21.22.23.24.25.26.27.28.29.

Xinference 注意事项

Xinference 默认是从 HuggingFace 上下载模型,如果需要使用其他网站下载模型,可以通过设置环境变量XINFERENCE_MODEL_SRC来实现,使用以下代码启动 Xinference 服务后,部署模型时会从Modelscope上下载模型:

登录后复制

XINFERENCE_MODEL_SRC=modelscope xinference-local
1.

在 Xinference 部署模型的过程中,如果你的服务器只有一个 GPU,那么你只能部署一个 LLM 模型或多模态模型或图像模型或语音模型,因为目前 Xinference 在部署这几种模型时只实现了一个模型独占一个 GPU 的方式,如果你想在一个 GPU 上同时部署多个以上模型,就会遇到这个错误:No available slot found for the model。

但如果是 Embedding 或者 Rerank 模型的话则没有这个限制,可以在同一个 GPU 上部署多个模型。

小结

Xinference在基础配置功能上也是毫不含糊,相比于LM studio的界面更加简洁清爽,在模型库方面同样也是下载自Hugging Face Hub,同样也是需要VPN或者修改下载源。

但有两个比较大的优势就是:Xinference的显存管理能力还比较好,服务挂掉可以自动重启,具有较高的稳定性。其次是支持集群模式部署,可以保证大模型的高可用。

大模型侧工具安装部署总结

由于作者的眼界、精力和能力也有限,并且确实也不是专业的AI研究员,仅仅是一位兴趣使然的爱好者,这里列出的几款也单纯只是作者平常关注到的,所以可能也不全,请各位见谅!

文章从起笔写到这里已经过了三天了,这三天也基本把上文提到的大模型侧工具全部体验了一遍,下面说一下主要结论吧。

就这三个工具而言,确实也是各有千秋:

从功能丰富度和性能优化的角度综合评估,LM Studio明显更胜一筹。从工具本身使用及模型部署效率来看,Ollama的上手速度会更快,使用会更便捷,效率也会更高。从企业级稳定性和高可用来看,Xinference支持分布式部署,并且可以故障自动拉起。

【注】:评分标准为1-5分,5分为最高。

对于AI小白来说(完全不懂AI,不知道大模型是什么具体含义,完全不知道怎么下载模型),选择Ollama来管理和下载模型是保证没有问题的,体验感确实拉满了。

对于一些开发者和研究员而言,我觉得可以在LM Studio和Xinference中任选其一,如果是个人实验的话,我倾向于推荐LM Studio;如果是企业级内部或者中大型项目需要的话,我建议还是采用Xinference。

除了上述提到的之外可能也还有一些比较好用的大模型管理工具是周周没有接触过的,也请小伙伴们积极指出~

随着AI技术的飞速发展,新的工具和服务也会不断涌现,本文截止至2024年6月9日,请各位选择最适合自己需求的工具,这将有助于提升工作效率,推动项目的成功。

记住,没有绝对最好,只有最适合当前情境的工具。

原创作者: u_16310027 转载于: https://blog.51cto.com/u_16310027/11347943
#以上关于大模型侧工具安装部署实践及对比选型的相关内容来源网络仅供参考,相关信息请以官方公告为准!

原创文章,作者:CSDN,如若转载,请注明出处:https://www.sudun.com/ask/93078.html

(0)
CSDN's avatarCSDN
上一篇 2024年7月5日 上午9:46
下一篇 2024年7月5日 上午9:46

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注