דלג לתוכן
ליבת AI

Embeddings (וקטורי משמעות)

ייצוג מספרי של טקסט (או תמונה/וידאו) כווקטור — מאפשר חיפוש סמנטי, השוואת דמיון, וקלסטרינג של תוכן.

מונחים נרדפים: Embeddings · וקטור משמעות · Semantic Vector

מה זה Embeddings

Embeddings (וקטורי משמעות) הם ייצוג מספרי של טקסט (או תמונה/וידאו/אודיו) במרחב רב-מימדי. כל טקסט הופך לרשימה של מספרים — בדרך כלל 768, 1024, או 1536 מימדים — שמייצגים את "המשמעות" שלו.

הקסם: שני טקסטים בעלי משמעות דומה יקבלו וקטורים קרובים במרחב. למשל, "כלב נובח" ו-"חתול מילל" יהיו רחוקים מ-"רוזמרי על תפוחי אדמה" בעולם הסמנטיקה — גם אם המילים עצמן שונות.

למה זה חשוב

חיפוש מבוסס מילות מפתח רגילות עובד טוב רק כשהמילים זהות. חיפוש מבוסס embeddings מבין דמיון — שאלת משתמש "איך לבטל מנוי" תמצא תיעוד שכותרתו "ביטול חבילה" גם אם המילה "מנוי" לא מופיעה שם.

איך משתמשים

תהליך בסיסי:

  1. כל מסמך/קטע ב-DB עובר דרך מודל embeddings (OpenAI, Voyage, Cohere) ומקבל וקטור
  2. הוקטורים נשמרים ב-vector database (Pinecone, Qdrant, pgvector)
  3. בזמן שאילתה — שאלת המשתמש מומרת לוקטור, המערכת מחפשת את ה-K הקרובים ביותר (cosine similarity)
  4. הקטעים הרלוונטיים מוזרקים ל-LLM לייצור תשובה (RAG)

ספקי embeddings מובילים ב-2026

  • OpenAI — text-embedding-3-large, text-embedding-3-small (הכי בשוק)
  • Voyage AI — voyage-3, voyage-3-large (איכות גבוהה במיוחד)
  • Cohere — embed-english-v3, embed-multilingual-v3 (תמיכה רב-לשונית מצוינת)
  • Anthropic — לא מציעה embeddings ישירות, ממליצה על Voyage
  • Mistral, Google — אופציות נוספות

עלויות

מאוד נמוכות. OpenAI text-embedding-3-small עולה $0.02 ל-1M טוקנים — אתם יכולים לאמבד מאות אלפי מסמכים ב-$10. רוב המערכות מאמבדות פעם אחת ושומרות, ולא חוזרות לאמבד שוב אלא אם המודל השתנה.

שימושים מעבר ל-RAG

  • קלסטרינג — קיבוץ מסמכים לפי דמיון
  • המלצות — מצא מאמרים דומים
  • דה-דופליקציה — זיהוי תוכן כפול
  • ניתוח רגשות — המידה שטקסט קרוב ל-embedding של "חיובי" או "שלילי"
  • תיוג אוטומטי — קטגוריזציה של פריטים חדשים

קריאה נוספת

מונחים קשורים