IT 之家 12 月 30 日音问,一个名为 EXO Labs 的组织本日在应答媒体上发布了一段视频,展示了一台运转 Windows 98 系统的 26 年乐龄的奔腾 II 电脑(128MB 内存)收效运转大型说话模子(LLM)的情形。随后,EXO Labs 在其博客上发表了一篇详备著述苍井空种子,进一步线路了这个样子的细节,以偏持"擢升东说念主工智能"的愿景。
IT 之家精良到,视频中一台 350MHz 的 Elonex 奔腾 II 电脑启动 Windows 98 后,EXO Labs 运转了基于 Andrej Karpathy 的 Llama2.c 设备的定制纯 C 推理引擎,并让 LLM 生成了一个对于" Sleepy Joe "的故事。令东说念主骇怪的是,总共经由运转运动,故事生成速率也终点可不雅。
EXO Labs 由牛津大学的参谋东说念主员和工程师构成,于本年 9 月弘扬对外亮相,其劳动是"擢升东说念主工智能"。该组织觉得,少数大型企业抑制东说念主工智能会对文化、真相以及社会其他基本方面酿成负面影响。因此,EXO Labs 但愿"构建盛开的基础标准,以考验前沿模子,并使任何东说念主王人能在职何场地运转它们",从而让庸碌东说念主也能在险些任何设立上考验和运转 AI 模子。这次在 Windows 98 上运转 LLM 的豪举,恰是对这一理念的有劲解释。
把柄 EXO Labs 的博客著述,他们从 eBay 上购得了一台旧式 Windows 98 电脑。接洽词,将数据传输到这台老机器上却是一个挑战,他们最终通过其以太网端口使用"陈旧的 FTP "完成了文献传输。
自拍更大的挑战在于为 Windows 98 编译当代代码,运道的是他们找到了 Andrej Karpathy 的 llama2.c,这是一个"用 700 行纯 C 代码即可在 Llama 2 架构的模子上运转推理"的器具。借助这一资源以及旧式的 Borland C++ 5.02 IDE 和编译器(以及一些小的调治),EXO Labs 收效将代码编译成可在 Windows 98 上运转的可实际文献。他们还在 GitHub 上公开了最终代码。
EXO Labs 的 Alex Cheema 稀奇感谢了 Andrej Karpathy 的代码,并对其性能赞誉不已,称其在使用基于 Llama 架构的 26 万参数 LLM 时,在 Windows 98 上终显著"每秒 35.9 个 token "的生成速率。值得一提的是,Karpathy 曾任特斯拉东说念主工智能专揽,亦然 OpenAI 的首创团队成员之一。
固然 26 万参数的 LLM 鸿沟较小,但在这台陈旧的 350MHz 单核电脑上运转速率终点可以。把柄 EXO Labs 的博客,使用 1500 万参数的 LLM 时,生成速率略高于每秒 1 个 token。而使用 Llama 3.2 10 亿参数模子时,速率则终点徐徐,仅为每秒 0.0093 个 token。
EXO Labs 的观点远不啻于在 Windows 98 机器上运转 LLM。他们在博客著述中进一步线路了其对翌日的瞻望,并但愿通过 BitNet 终了东说念主工智能的擢升。
据先容," BitNet 是一种使用三元权重的 transformer 架构",使用这种架构,一个 70 亿参数的模子只需要 1.38GB 的存储空间。这对于一台 26 年前的奔腾 II 来说可能仍然有些辛劳,但对于当代硬件甚而十年前的设立来说,王人终点轻量级的。
EXO Labs 还强调,BitNet 是" CPU 优先"的,幸免了对不菲 GPU 的依赖。此外苍井空种子,据称这种类型的模子比全精度模子效果高 50%,何况可以在单个 CPU 上以东说念主类阅读速率(约每秒 5 到 7 个 token)运转一个 1000 亿参数的模子。