חלון הקשר (Context Window)
כמות הטקסט המקסימלית שמודל שפה יכול לעבד בבקשה אחת — כולל ה-prompt וגם התשובה. נמדד בטוקנים.
מה זה Context Window
Context Window (חלון הקשר) הוא כמות הטקסט המקסימלית שמודל שפה יכול "לראות" בבקשה אחת — כולל ה-prompt שלכם, ההיסטוריה של השיחה, מסמכים שצירפתם, וגם התשובה שיוצרת. נמדד בטוקנים (token) — יחידת בסיס שווה ערך ל-3-4 תווים בעברית או ל-0.75 מילה באנגלית.
גדלים נפוצים ב-2026
- Claude Opus 4.7 / Sonnet 4.6 — 1,000,000 טוקנים (1M)
- GPT-5.4 — 200,000 טוקנים
- Gemini 3.1 Pro — 2,000,000 טוקנים (2M)
- GPT-5 Nano / Haiku 4.5 — 200K טוקנים
- Open source models (Llama 4) — בדרך כלל 128K-200K
לרוב המקרים העסקיים, חלון של 200K-1M מספיק בהחלט. דברים שהיו בלתי אפשריים ב-2024 (לדוגמה, להזין ספר שלם או חוזה של 200 עמודים) הפכו טריוויאליים.
למה זה חשוב
- קריאה של מסמכים שלמים — חוזה, מאמר, דוח שנתי
- שיחה ארוכה — צ׳אטבוט שזוכר את כל ההיסטוריה
- ניתוח קוד — קריאת קובץ קוד שלם או repo קטן
- RAG — איזה סך מידע אפשר להזריק בבקשה אחת
מגבלות גם בחלון גדול
מודלים מאבדים פוקוס בחלקים מסוימים של ה-context. הדפוס הידוע: המודל זוכר טוב את תחילת ה-context ואת הסוף שלו, אבל יכול להחמיץ פרטים באמצע — תופעה שנקראת "lost in the middle". פרקטיקות טובות:
- שמרו על מידע קריטי בתחילה או בסוף ה-prompt
- אל תזרקו מסמך של 500 עמודים בלי בחירה — בצעו RAG קודם וצרפו רק את החלקים הרלוונטיים
- בקשו מהמודל לסכם את המידע לפני שעונה — מאלץ אותו "לקרוא הכל"
עלות
ככל שה-context ארוך יותר, העלות גבוהה יותר (משלמים לפי טוקן). יש שתי אסטרטגיות עיקריות:
- Prompt Caching — Anthropic ו-OpenAI מציעים caching של קטעי prompt חוזרים. אם system prompt שלכם 10K טוקנים ואתם משתמשים בו 1000 פעמים — אתם משלמים את העלות פעם אחת בלבד (חיסכון של עד 90%).
- RAG — במקום להזריק את כל המידע, רק את הקטעים הרלוונטיים. חוסך עלות, גם משפר דיוק (פחות "lost in the middle").