“最近在尝试完全使用开源 AI 模型工作,确实有很多不一样的体验和心得。今天遇到一个场景,我有一篇很长的文章想要用 AI 翻译。我的机器有四张显卡,每张显卡都正好能装下一个不是特别大的模型,可以用来翻译。 因此,一个很直观的想法是,我每张卡放一个模型,四张卡一起跑,就可以有效地离线批量处理,来完成翻译这个任务。
但是意外的是,我折腾了一下午,也没找到一个现成的、可以很方便地做到这一点的工具。包括 VLLM、Ollama 这些流行工具都不行。似乎业界的标准解决办法也是手工起四个 VLLM server instances,手工给它们指定不同的端口,然后自己写一个 load balancer 或者 round robin scheduling 来并行处理。用 AI 写一个确实不难,但也得要一两百行。我写了一个 reference implementation 分享在 GitHub 上,也许对大家有用。但这件事情让我非常意外,没想到这么简单且常用的任务都没有成熟的工具来处理。感觉最近对开源模型和平台的探索刷新了我的好多认知。”
但是意外的是,我折腾了一下午,也没找到一个现成的、可以很方便地做到这一点的工具。包括 VLLM、Ollama 这些流行工具都不行。似乎业界的标准解决办法也是手工起四个 VLLM server instances,手工给它们指定不同的端口,然后自己写一个 load balancer 或者 round robin scheduling 来并行处理。用 AI 写一个确实不难,但也得要一两百行。我写了一个 reference implementation 分享在 GitHub 上,也许对大家有用。但这件事情让我非常意外,没想到这么简单且常用的任务都没有成熟的工具来处理。感觉最近对开源模型和平台的探索刷新了我的好多认知。”