坚持:做对他人有益的事
生态
Are we learning yet?
应用与框架
candle
是一个极小主义机器学习框架,使用Rust 实现。它不仅仅是大模型深度学习框架,它还是一个机器学习框架,因此它也支持其他的机器学习算法和强化学习(reinforcement learning)。
特性:
- HuggingFace 出品,几乎能支持 HuggingFace 上所有的模型(有的需要经过转换)
- 语法简单,跟 PyTorch 差不多
- CPU、Cuda、Metal 的支持
- 让 serverless 和快速部署成为可能。模型训练
- 分布式计算(通过 NCCL)。开箱即用的模型支持,LLaMA、Whisper、 Falcon 等等
burn
Burn 是一个新的综合性的动态深度学习框架,使用 Rust 构建,以极高的灵活性、计算效率和可移植性作为其主要目标。
llama.cpp
一个用 C/C++ 重新实现引擎的版本,不需要安装 PyTorch,就可以运行 LLaMA 2 模型文件。最关键的是,它提出了一种量子化(quantization)方法,可以将权重从 16 位量子化到 8 位、6 位、5 位、4 位,甚至 2 位。这样,就相当于等比缩小了占用内存的规模。比如,一个 4 位量子化版本的 LLaMA 2 7B 模型,就只需要不到 4G 的内存 / 显存就能运行。这样,就能适配大多数的个人计算机了。
“量子化方法”是个重大的创新,它直接促进了LLM生态的进一步繁荣。
相关库
safetensors
Safetensors 是一种新的、安全的存储 tensors 的简单格式(与 pickle 相比)并且非常的快(0复制)。
相关资源
Huggingface 镜像站
要点
大模型文件格式
HuggingFace 上常见的LLM文件格式:
bin格式:Pytorch 导出的模型文件格式
safetensors 格式:HuggingFace 定义的一种新的模型文件格式,有可能成为未来的主流格式。HuggingFace 用 Rust 实现 safetensors 格式的解析,并导出为 Py 接口。
ggml 格式:llamma.cpp 项目量子化模型的前期模型格式。
gguf 格式:llama.cpp 项目量子化模型的后期模型格式,也是现在主流的量子化 LLM 格式。
评论区
写评论
登录
所以,就随便说点什么吧...
这里什么都没有,快来评论吧...