OpenAI发布新的嵌入模型text-embedding-ada-002,该模型功能更强大成本更低,且使用起来也比较简单,可取代了文本搜索、文本相似性和程序代码搜索等5个独立模型,比起之前最强大的模型Davinci,价格更是便宜了99.8%


官方解释,嵌入是指将概念的数字表示转换成数字符串行,这使计算功能够简单理解概念之间的关系。从OpenAI的嵌入端点推出以来,许多应用程序都运用嵌入来进行个性化、推荐和搜索内容。


新模型text-embedding-ada-002性能更强大,无论是在文本搜索、程序代码搜索还是语句相似性任务上,表现都优于旧的嵌入模型Davinci。


Text-embedding-ada-002在能力表现上也更一致,过去要分散5个独立模型个别处理文本搜索、文本相似性和程序代码等任务,现在统一整合使用text-embedding-ada-002就能够完成,官方提到,text-embedding-ada-002的单一表示,在不同的文本搜索、语句相似性和程序代码搜索基准测试,都比过去的嵌入模型表现还要好。


另外,text-embedding-ada-002也能够处理更长的上下文,是旧模型长度的4倍,从2048增加到8192,用户能够更简单地处理长文件。text-embedding-ada-002还拥有较小的嵌入大小,新嵌入只有1536维,是davinci-001嵌入的八分之一,较小的嵌入使矢量数据库更具成本效益。


与相同大小的旧模型相比,text-embedding-ada-002价格降低了90%,只要0.2%的旧模型价格,就可以获得和Davinci更好或是类似的性能。


整体来说,新模型是更强大的自然语言处理和程序代码任务工具,但仍存在一些限制,像是在SentEval线性探测分类基准的表现不如text-similarity-davinci-001,对于需要在嵌入矢量上训练轻量级线性层,以进行分类预测的任务,OpenAI建议用户可以先比较新旧模型的表现,以选出最符合需求的模型。