Embeddings (וקטורי משמעות)

ייצוג מספרי של טקסט (או תמונה/וידאו) כווקטור — מאפשר חיפוש סמנטי, השוואת דמיון, וקלסטרינג של תוכן.

מה זה Embeddings

Embeddings (וקטורי משמעות) הם ייצוג מספרי של טקסט (או תמונה/וידאו/אודיו) במרחב רב-מימדי. כל טקסט הופך לרשימה של מספרים — בדרך כלל 768, 1024, או 1536 מימדים — שמייצגים את "המשמעות" שלו.

הקסם: שני טקסטים בעלי משמעות דומה יקבלו וקטורים קרובים במרחב. למשל, "כלב נובח" ו-"חתול מילל" יהיו רחוקים מ-"רוזמרי על תפוחי אדמה" בעולם הסמנטיקה — גם אם המילים עצמן שונות.

למה זה חשוב

חיפוש מבוסס מילות מפתח רגילות עובד טוב רק כשהמילים זהות. חיפוש מבוסס embeddings מבין דמיון — שאלת משתמש "איך לבטל מנוי" תמצא תיעוד שכותרתו "ביטול חבילה" גם אם המילה "מנוי" לא מופיעה שם.

איך משתמשים

תהליך בסיסי:

כל מסמך/קטע ב-DB עובר דרך מודל embeddings (OpenAI, Voyage, Cohere) ומקבל וקטור
הוקטורים נשמרים ב-vector database (Pinecone, Qdrant, pgvector)
בזמן שאילתה — שאלת המשתמש מומרת לוקטור, המערכת מחפשת את ה-K הקרובים ביותר (cosine similarity)
הקטעים הרלוונטיים מוזרקים ל-LLM לייצור תשובה (RAG)

ספקי embeddings מובילים ב-2026

OpenAI — text-embedding-3-large, text-embedding-3-small (הכי בשוק)
Voyage AI — voyage-3, voyage-3-large (איכות גבוהה במיוחד)
Cohere — embed-english-v3, embed-multilingual-v3 (תמיכה רב-לשונית מצוינת)
Anthropic — לא מציעה embeddings ישירות, ממליצה על Voyage
Mistral, Google — אופציות נוספות

עלויות

מאוד נמוכות. OpenAI text-embedding-3-small עולה $0.02 ל-1M טוקנים — אתם יכולים לאמבד מאות אלפי מסמכים ב-$10. רוב המערכות מאמבדות פעם אחת ושומרות, ולא חוזרות לאמבד שוב אלא אם המודל השתנה.

שימושים מעבר ל-RAG

קלסטרינג — קיבוץ מסמכים לפי דמיון
המלצות — מצא מאמרים דומים
דה-דופליקציה — זיהוי תוכן כפול
ניתוח רגשות — המידה שטקסט קרוב ל-embedding של "חיובי" או "שלילי"
תיוג אוטומטי — קטגוריזציה של פריטים חדשים

Embeddings (וקטורי משמעות)

מה זה Embeddings

למה זה חשוב

איך משתמשים

ספקי embeddings מובילים ב-2026

עלויות

שימושים מעבר ל-RAG

קריאה נוספת

מונחים קשורים

RAG (Retrieval Augmented Generation)

מסד נתונים וקטורי (Vector Database)

LLM (Large Language Model)

AI אגנטי (Agentic AI)