IBM Graniteの新しい多言語EmbeddingモデルR2をわかりやすく紹介:32K対応・Apache 2.0・サブ1億パラメータで強い
IBM Graniteが多言語Embeddingモデルの新作R2を公開 97Mの小型モデルと311Mの高性能モデルの2種類 どちらもApache 2.0で使いやすい 32,768トークンの長い文脈に対応し、R1の64倍 200+言語をカバーし、52言語は検索向けに強化 Pythonなど9種類のプログラミング言語のコード検索にも対応 小型の97Mモデルは、100M未満の公開多言語Embeddingモデルで最高クラスの検索性能を主張 LangChain、LlamaIndex、Haystack、Milvusなどで差し替えやすい --- この記事の主役は、Embeddingモデルです。 Embeddingは、文章や単語の意味をベクトルという数字の並びに変換する技術です。 これを使うと、 「意味が近い文章どうし」を見つける 文書検索で、キーワード一致ではなく意味検索をする 多言語の質問と文書をつなぐ コードと説明文をまたいで検索する みたいなことができます。 たとえば日本語で「返品方法」と検索
papoo.work