项目简介
这个产品叫「寻隐」(英文版叫 Queryable ),简单来说,它是一个离线的自然语言相册搜索工具,你可以用「一只狗在玩滑梯」来搜索你的 iPhone 相册,而不是搜单纯的“狗”,并且不联网。
动机
「将 CLIP 模型部署在手机上,用自然语言搜相册」这个 idea 源自于 2022 年 9 月,直到去年 12 月我才有空闲和能力完成,在今年的 2 月 7 日上了Hacker News 首页,让 Queryable 在当天占领了全部欧洲国家工具榜#1 ,美国工具榜#2 。
它的实现原理是集成了iOS上的CLIP模型,CLIP(Contrastive Language-Image Pre-Training)是OpenAI于2021年提出的一个模型。CLIP将图像和文本编码成向量,可以在同一空间进行比较的表示。
后续国内的果壳、差评、少数派的自来水曝光,让我从 1-3 月几乎每个月可以获得 1-2 万块的收入。因为运行在手机端,在不想添加新功能的情况下,也不需要维护和服务器成本。从 4 月份起,没有任何流量曝光、不做任何更新的情形下,平均每月大概可以获得 3000 元的收入。
我在前天限时免费了一次,很惊讶有很多人下载。我想,与其维持这样每月 3000 块的收入,可能阻止了 99%的人发现这个产品(用户数决定了关键词排序),不如让所有人都可以使用它,因此产生了「让它一直免费的念头」。
在昨天,我决定这么做了。
想起来过去半年,一直有用户对寻隐/Queryable 的相册隐私安全提出疑虑,很多美国人也天然反感中国开发者的产品,而另一些开发者也常常发邮件询问我技术方案。既然决定让产品免费,不如也一起开源了:你可以从了解如何做 LLM 模型的本地加载、向量计算、存储和排序。
怎么不一开始就免费/开源?
因为我需要生存。当时刚从之前的工作离开,我需要新的收入维持生计,并且缓解焦虑。现在,我有了新的收入(虽然不多),焦虑感也降低了很多,因此才下定决心,帮助他人的想法战胜了对收入的依赖。
我可以商业使用吗?
项目的协议是MIT,所以将这个 repo 用于商业产品使用是完全可行的,但是我不建议你换个 icon 上架 App Store ,或者类似的恶性竞争,你可以试试开发自己的 Android 版本。
我并非 iOS 工程师,所以代码里 Swift 的部分非常的烂,但你可以参考其中关于模型的部分。我希望它能帮你实现本地向量存储、搜索,这样对于短文本构建向量,可能也不需要 OpenAI Embedding API 了。如果你有想实现的功能,非常欢迎贡献 PR 。
另外,中文模型的训练使用了一些非公开语料,所以抱歉目前只公开了英文模型权重。
项目地址
https://github.com/mazzzystar/Queryable
https://mazzzystar.github.io/2022/12/29/Run-CLIP-on-iPhone-to-Search-Photos/