RAG (Retrieval Augmented Generation)
טכניקה שמאפשרת ל-LLM לענות על שאלות מבוססות על נתונים פרטיים שלכם, על ידי שילוב חיפוש סמנטי לפני יצירת התשובה.
מה זה RAG
RAG (Retrieval Augmented Generation) הוא דפוס ארכיטקטורי שמאפשר ל-LLM לענות על שאלות עם מידע שלא היה בנתוני האימון שלו — למשל, מסמכים פנים-ארגוניים שלכם, base ידע ספציפי לתעשייה, או נתונים שעודכנו אחרי ה-cutoff של המודל.
איך זה עובד
התהליך מורכב משני שלבים:
- Retrieval (אחזור) — שאלת המשתמש מומרת ל-embedding (וקטור סמנטי), המערכת מחפשת ב-vector database את 3-10 קטעי המידע הקרובים ביותר סמנטית לשאלה.
- Augmented Generation (יצירה מוגברת) — קטעי המידע הרלוונטיים מוזרקים לתוך ה-prompt של ה-LLM, יחד עם השאלה המקורית. המודל עונה על השאלה כשהוא רואה את המידע הספציפי הרלוונטי.
למה לא פשוט לאמן את המודל על הנתונים שלכם?
Fine-tuning (אימון מחדש) יקר, איטי, ולא תופס שינויים תכופים. RAG מאפשר:
- עדכון מיידי — תוסיפו מסמך חדש ל-DB, השאלה הבאה כבר מתחשבת בו
- שקיפות — אתם רואים בדיוק איזה קטעים שימשו לתשובה
- בקרת גישה — קל לאכוף הרשאות (משתמש X רואה רק מסמכים שהוא רשאי)
- עלות נמוכה — אין צורך לאמן מודל
דוגמאות
- תמיכה טכנית — סוכן AI עונה על שאלות על המוצר שלכם, מבוסס על תיעוד פנימי
- HR Assistant — עונה על שאלות עובדים על נהלי החברה, ביטוח, חופשות
- מחקר משפטי — חיפוש בפסיקה ובחוזים פנימיים
- CRM intelligence — עונה על שאלות על לקוח ספציפי מבוסס היסטוריית אינטראקציות
רכיבים טכניים
ב-2026 stack טיפוסי כולל: embeddings מ-OpenAI/Voyage/Cohere, vector DB (Pinecone, Qdrant, pgvector ב-Supabase), reranker למיון תוצאות, ו-LLM שמייצר את התשובה הסופית. רוב המערכות החדשות משתמשות ב-MCP servers שמספקים RAG ל-סוכני AI באופן סטנדרטי.