דלג לתוכן
ליבת AI

חלון הקשר (Context Window)

כמות הטקסט המקסימלית שמודל שפה יכול לעבד בבקשה אחת — כולל ה-prompt וגם התשובה. נמדד בטוקנים.

מונחים נרדפים: Context Window · Context Length · Token Limit

מה זה Context Window

Context Window (חלון הקשר) הוא כמות הטקסט המקסימלית שמודל שפה יכול "לראות" בבקשה אחת — כולל ה-prompt שלכם, ההיסטוריה של השיחה, מסמכים שצירפתם, וגם התשובה שיוצרת. נמדד בטוקנים (token) — יחידת בסיס שווה ערך ל-3-4 תווים בעברית או ל-0.75 מילה באנגלית.

גדלים נפוצים ב-2026

  • Claude Opus 4.7 / Sonnet 4.6 — 1,000,000 טוקנים (1M)
  • GPT-5.4 — 200,000 טוקנים
  • Gemini 3.1 Pro — 2,000,000 טוקנים (2M)
  • GPT-5 Nano / Haiku 4.5 — 200K טוקנים
  • Open source models (Llama 4) — בדרך כלל 128K-200K

לרוב המקרים העסקיים, חלון של 200K-1M מספיק בהחלט. דברים שהיו בלתי אפשריים ב-2024 (לדוגמה, להזין ספר שלם או חוזה של 200 עמודים) הפכו טריוויאליים.

למה זה חשוב

  • קריאה של מסמכים שלמים — חוזה, מאמר, דוח שנתי
  • שיחה ארוכה — צ׳אטבוט שזוכר את כל ההיסטוריה
  • ניתוח קוד — קריאת קובץ קוד שלם או repo קטן
  • RAG — איזה סך מידע אפשר להזריק בבקשה אחת

מגבלות גם בחלון גדול

מודלים מאבדים פוקוס בחלקים מסוימים של ה-context. הדפוס הידוע: המודל זוכר טוב את תחילת ה-context ואת הסוף שלו, אבל יכול להחמיץ פרטים באמצע — תופעה שנקראת "lost in the middle". פרקטיקות טובות:

  • שמרו על מידע קריטי בתחילה או בסוף ה-prompt
  • אל תזרקו מסמך של 500 עמודים בלי בחירה — בצעו RAG קודם וצרפו רק את החלקים הרלוונטיים
  • בקשו מהמודל לסכם את המידע לפני שעונה — מאלץ אותו "לקרוא הכל"

עלות

ככל שה-context ארוך יותר, העלות גבוהה יותר (משלמים לפי טוקן). יש שתי אסטרטגיות עיקריות:

  1. Prompt Caching — Anthropic ו-OpenAI מציעים caching של קטעי prompt חוזרים. אם system prompt שלכם 10K טוקנים ואתם משתמשים בו 1000 פעמים — אתם משלמים את העלות פעם אחת בלבד (חיסכון של עד 90%).
  2. RAG — במקום להזריק את כל המידע, רק את הקטעים הרלוונטיים. חוסך עלות, גם משפר דיוק (פחות "lost in the middle").

מונחים קשורים

מאמרים שמרחיבים על הנושא