RAG (Retrieval Augmented Generation)

טכניקה שמאפשרת ל-LLM לענות על שאלות מבוססות על נתונים פרטיים שלכם, על ידי שילוב חיפוש סמנטי לפני יצירת התשובה.

מה זה RAG

RAG (Retrieval Augmented Generation) הוא דפוס ארכיטקטורי שמאפשר ל-LLM לענות על שאלות עם מידע שלא היה בנתוני האימון שלו — למשל, מסמכים פנים-ארגוניים שלכם, base ידע ספציפי לתעשייה, או נתונים שעודכנו אחרי ה-cutoff של המודל.

איך זה עובד

התהליך מורכב משני שלבים:

Retrieval (אחזור) — שאלת המשתמש מומרת ל-embedding (וקטור סמנטי), המערכת מחפשת ב-vector database את 3-10 קטעי המידע הקרובים ביותר סמנטית לשאלה.
Augmented Generation (יצירה מוגברת) — קטעי המידע הרלוונטיים מוזרקים לתוך ה-prompt של ה-LLM, יחד עם השאלה המקורית. המודל עונה על השאלה כשהוא רואה את המידע הספציפי הרלוונטי.

למה לא פשוט לאמן את המודל על הנתונים שלכם?

Fine-tuning (אימון מחדש) יקר, איטי, ולא תופס שינויים תכופים. RAG מאפשר:

עדכון מיידי — תוסיפו מסמך חדש ל-DB, השאלה הבאה כבר מתחשבת בו
שקיפות — אתם רואים בדיוק איזה קטעים שימשו לתשובה
בקרת גישה — קל לאכוף הרשאות (משתמש X רואה רק מסמכים שהוא רשאי)
עלות נמוכה — אין צורך לאמן מודל

דוגמאות

תמיכה טכנית — סוכן AI עונה על שאלות על המוצר שלכם, מבוסס על תיעוד פנימי
HR Assistant — עונה על שאלות עובדים על נהלי החברה, ביטוח, חופשות
מחקר משפטי — חיפוש בפסיקה ובחוזים פנימיים
CRM intelligence — עונה על שאלות על לקוח ספציפי מבוסס היסטוריית אינטראקציות

רכיבים טכניים

ב-2026 stack טיפוסי כולל: embeddings מ-OpenAI/Voyage/Cohere, vector DB (Pinecone, Qdrant, pgvector ב-Supabase), reranker למיון תוצאות, ו-LLM שמייצר את התשובה הסופית. רוב המערכות החדשות משתמשות ב-MCP servers שמספקים RAG ל-סוכני AI באופן סטנדרטי.

RAG (Retrieval Augmented Generation)

מה זה RAG

איך זה עובד

למה לא פשוט לאמן את המודל על הנתונים שלכם?

דוגמאות

רכיבים טכניים

קריאה נוספת

מונחים קשורים

LLM (Large Language Model)

Embeddings (וקטורי משמעות)

מסד נתונים וקטורי (Vector Database)

חלון הקשר (Context Window)