أغلب أدوات "ChatPDF" تدّعي دعم العربية. الصفحات الترويجية تذكر أكثر من مئة لغة. بعضها يعرض واجهته بالعربية أيضاً. لكن مرّر إليها مستنداً عربياً حقيقياً — فصلاً من تراث كلاسيكي، أو تفريغ محاضرة بلهجة، أو صفحة تفسير ممسوحة — وستظهر الشروخ بسرعة. الإجابات ترجع بثقة وهي خاطئة، أو تُقطع في منتصف الكلمة بصمت، أو ترفض الإجابة لأنّ المُسترجِع لم يعثر على ما كان ينبغي أن يعثر عليه.
أنا أبني نـصّ، أداة عربية للكتابة والبحث، وأشغّل ضمنها خطّ RAG عربيّ حقيقياً في الإنتاج. حين أقول إنّ أدوات ChatPDF العامّة تفشل مع العربية، فأنا لا أُخمّن من تجربة واحدة. سأخبرك أيّ القرارات في الخطّ تهمّ، ولماذا تخطئ أغلب الأدوات فيها، وكيف يبدو "الجيّد" حقّاً حين تحتاج فعلاً أن تحادث ملفاً عربياً.
هذه الصفحة لصنفين من القرّاء. لو كنت باحثاً أو طالب علم تريد أن ترفع تفسيراً وتسأل عنه، ستجد هنا حديثاً صريحاً عن مواضع الإخفاق المتوقَّعة. ولو كنت قارئاً تقنيّاً تقيّم خياراتك في RAG عربيّ، ستجد المفاضلات الهندسية شرحاً بلغة واضحة.
الوعد ثمّ الحقيقة
الفكرة بسيطة في ظاهرها. ترفع ملفّاً، تقرؤه الأداة، تسألها فتجيب وتُشير إلى الصفحة. تحت الغطاء هذا هو RAG، أي "التوليد المُعزَّز بالاسترجاع". يُقسَّم المستند إلى مقاطع، يُحوَّل كلّ مقطع إلى متّجه عددي (تضمين)، وحين تسأل يستردّ النظام أقرب المقاطع إلى سؤالك ويُمرّرها إلى نموذج لغويّ يصوغ الإجابة.
هذا الخطّ يعمل على الملفّات الإنجليزية بمستوى جيّد بما يكفي لقيام سوق ChatPDF بأسرها. مع العربية، كلّ خطوة من هذه الخطوات فيها وضع إخفاق صامت لا تذكره الصفحات الترويجية.
ما أراه حين أرفع ملفّاً عربياً إلى الأدوات العامّة:
- استخراج النصّ يفقد التشكيل، وأحياناً يدمج كلمات عبر فواصل السطور.
- لو كان الملفّ صورة (PDF ممسوح ضوئياً)، إمّا يفشل OCR كلياً، أو ينتج نصاً مشوّهاً لا يراجعه أحد قبل الفهرسة.
- يقسّم النصّ على فراغات وعلامات إنجليزية، وهي لا تطابق دائماً كيف تنتهي الجملة العربية.
- يتعامل نموذج التضمين مع تصاريف العربية كأنّها حروف عشوائية، فيقع سؤال عن "الباحث" ومقطع عن "الباحثين" في مكانين بعيدين من فضاء المتّجهات.
- يستلم النموذج اللغويّ مقاطع عربية ويجيب بالإنجليزية ما لم تحاربه، وحين يجيب بالعربية يميل إلى "تصحيح" اللهجة وإعادة كتابتها فصحى.
كلّ نقطة من هذه قد تبدو هيّنة في ذاتها. مجتمعةً، هي الفرق بين أداة نافعة وأداة كاذبة بثقة.
لماذا تنكسر RAG العامّة مع العربية
ثلاثة أسباب، رتّبتها بحسب أيّها يُربك المستخدمين أكثر.
التصريف والاشتقاق
العربية لغة قوالب. الجذر الواحد يُنتج عشرات الصيغ. الجذر ك-ت-ب يعطيك كتاب، كاتب، مكتبة، مكتوب، اكتتاب، وأكثر. حين تبحث عن صيغة واحدة، فأنت تريد عادةً نتائج لباقي صيغها. نماذج التضمين المدرَّبة أساساً على الإنجليزية تتعامل مع هذه الصيغ كأنّها كلمات لا علاقة لها ببعض. فيخسر المستردّ المقطعَ الذي فيه الإجابة لأنّ السؤال جاء بصيغة تصريفية أخرى.
النماذج متعدّدة اللغات الشائعة مثل عائلة paraphrase-multilingual-mpnet تحلّ جزءاً من المشكلة، لكنّها تبقى مدرَّبة بمركز ثقل إنجليزيّ. النماذج العربية الأصيلة مثل عائلة GATE-AraBERT أو نماذج Omartificial العربية على Hugging Face تردم أغلب الفجوة. كون أنّ أداة ChatPDF عامّة واحدة تقريباً لا تستخدم تضميناً عربياً مخصّصاً، هو السبب الأهمّ في أنّ استرجاعها العربيّ متوسّط.
التشكيل واللهجة والرسم العثماني
لو رفعت مستنداً مشكولاً، كتفسير كامل التشكيل أو مصحف، فالمقسّم يجب أن يعرف أنّ ٱلْحَمْدُ والحمد كلمة واحدة لأغراض الاسترجاع. أغلبها لا يعرف. يفهرس الصيغة المشكولة، فيرجع سؤال بلا تشكيل بلا نتائج مفيدة.
الرسم العثماني المستعمل في المصاحف المطبوعة وجع آخر: أشكال حروف خاصّة، ووصلات، ونقاط Unicode ليست كلّ نماذج التضمين قد رأتها. الأدوات التي تفهرس البايتات الخامّة بلا تطبيع تفشل بصمت.
اللهجة هي المحور الثالث. لو كان المستند تفريغاً لخطبة بالمصرية أو الشامية، فالأسئلة التي ستطرحها قد تأتي بنفس اللهجة. نماذج مدرَّبة على الفصحى والإنجليزية تُنتج تضمينات تكون فيها الكلمات العامية معلَّقة في فضاء عشوائيّ.
OCR للصور الممسوحة
هنا تسكن الإخفاقات الصامتة. خذ كتاباً ممسوحاً ضوئياً، ملفّ تراثياً من "المكتبة الشاملة" أو طبعة قديمة لمخطوطة، ومرّره على أداة عامّة. ثلاثة أوضاع إخفاق:
تشغّل الأداة Tesseract أو OCR عاماً عليه، تحصل على عربية بحروف مكسورة الاتصال ومنقوصة النقاط، فتفهرس الفوضى الناتجة. تسأل سؤالاً، تأخذ إجابة بثقة لا علاقة لها بالكتاب أصلاً.
ترصد الأداة "لا توجد طبقة نصّ" وتفشل بلا إنذار. مستندك "المفهرس" فارغ. كلّ سؤال يجيبك بأنّه "لم يجد ذلك في المستند".
تشغّل الأداة نموذجاً متعدّد الوسائط حديثاً يقرأ الصفحة لكنّه يفقد أرقام الصفحات والبنية، فحين تسأل "ماذا قال المؤلّف في صفحة ٤٧" تأتيك الإجابة منفصلة عن الصفحة الفعلية. الإحالات تصير غير قابلة للتحقّق.
من هذه الثلاثة، الثاني أسوأها لأنّه يخبرك أنّ المستند قد جُهِّز وهو في الحقيقة لم يُجَهَّز.
مشكلة الاسترجاع بلغة بسيطة
التضمينات هي كيف يقرّر نظام RAG أيّ مقاطع مستندك "تتعلّق" بسؤالك. يُحوَّل كلٌّ من السؤال والمقطع إلى قائمة أرقام (متّجه)، ويقيس النظام مدى قُرب المتّجهَين.
اختيار نموذج التضمين هو أهمّ قرار في خطّ RAG عربيّ. وهذه ترتيب تقريبيّ بلغة غير هندسية:
- التضمينات الإنجليزية وحدها (نسخ ada القديمة من OpenAI، نسخ BERT إنجليزية الأصل): غير صالحة للعربية. سترجع لك مقاطع عشوائية.
- التضمينات متعدّدة اللغات العامّة (OpenAI text-embedding-3، Cohere multilingual،
paraphrase-multilingual-mpnet): صالحة لكن متوسّطة. أغلب أدوات ChatPDF العامّة هنا. الاسترجاع يعمل على الفصحى النظيفة، وينكسر مع اللهجة والتشكيل والتصريف. - التضمينات العربية الأصيلة أو المضبوطة عربياً (GATE-AraBERT، E5-Arabic، نماذج Omartificial الأحدث): استرجاع أفضل بشكل ملموس على العربية، خاصّةً على النصوص الكلاسيكية واللهجات.
الفخّ أنّ التضمينات العربية الأصيلة غالباً أغلى في الاستضافة (لا API مُدارة لكثير منها)، وتأتي بلا التوثيق المصقول الذي يحيط بـ OpenAI أو Cohere. فأداة عامّة تريد "أن تُطلق دعم العربية بسرعة" تختار شبه دائماً نموذجاً متعدّد اللغات عاماً وتعتبر العمل منجزاً.
هذا قرار منتج معقول من جهتهم. وهو نتيجة سيّئة بالنسبة لك لو كان مستندك بالعربية الكلاسيكية، أو باللهجة، أو فيه أيّ من الخصوصيات أعلاه.
مشكلة التوليد
نفترض أنّ الاسترجاع نجح. النظام جاء بالمقطع الصحيح. الآن على النموذج اللغوي صياغة الإجابة.
ثلاث إخفاقات تظهر هنا مع العربية:
يستلم النموذج سياقاً عربياً ويجيبك بالإنجليزية، لأنّ سلوكه الافتراضي مُعايَر للمستخدم الإنجليزي. عليك إمّا أن تأمره صراحةً، أو أن تكون على أداة تأمره نيابةً عنك. واجهات ChatPDF العامّة تتيح لك ضبط ذلك، لكنّ الإعدادات الافتراضية نادراً ما تناسب القارئ العربي.
يستلم النموذج سياقاً عربياً عاميّاً (تفريغ محاضرة مصرية مثلاً) فيعيد كتابة اللهجة فصحى حين يلخّص أو ينقل. الكلمات التي قالها المتحدّث بالفعل، مثل "بيدور" و"اللي" و"كده"، تصير "يبحث" و"الذي" و"كذلك". هذه مشكلة التزييف نفسها التي وصفتها في دليل تفريغ المحاضرات الصوتية. نوع من الهلوسة خطر بوجه خاص حين تستشهد بكلام عالم.
يلتبس على النموذج اتّجاه RTL في المحتوى المختلط (إجابة عربية فيها عنوان كتاب إنجليزيّ، أو رقم صفحة، أو إحالة سطرية). يخرج الجواب مكسوراً في واجهة المحادثة: تقع الأرقام والكلمات اللاتينية في مواضع خاطئة، تنقلب الأقواس، تصير الإحالات غير مقروءة. لهذا أكرّر دائماً أنّ اتّجاه النصّ ليس مسألة شكلية، بل مسألة صحّة. وهذا ينطبق على ناتج الذكاء الاصطناعي لا على محرّرك فقط.
كيف تبدو مقارنة فعلية
لن أعطيك نسباً مزيّفة. لم أُجرِ المقارنة المضبوطة التي تنتج أرقاماً صادقة، وأنا متحفّظ على كلّ تدوينة تفعل. عوضاً عن ذلك، هذا النمط الذي ألاحظه حين أمرّر نفس الملفّ العربيّ على ChatPDF، ومحادثة PDF في Monica، وUPDF AI، ونـصّ، وأسأل نفس مجموعة الأسئلة:
ملفّات فصحى حديثة نظيفة من ناشر معاصر، كمقال مجلّة، أو ترجمة حديثة، أو بيان صحفيّ. الأدوات الأربع تتعامل معها بمستوى مقبول. ChatPDF وMonica يجيبان بعربية سلسة لو سألت بالعربية. الاسترجاع غالباً صحيح. هذه هي الحالة السهلة، وهي ما تعرضه صورهم الترويجية.
التراث العربي الكلاسيكي، فصل من ابن خلدون، باب من تفسير الطبري، كتاب فقهيّ بلا ترقيم حديث. هنا تتّسع الفروقات. تبدأ الأدوات العامّة بسحب مقاطع متجاورة موضوعياً لكنّها ليست المطلوبة. الإحالات تصير ضبابية. أرقام الصفحات تنزلق. يصير النموذج يُعيد الصياغة بدل أن يقتبس لأنّه لا يثق بالمقطع المسترجع.
كتب ممسوحة ضوئياً، أيّ تنزيلة من "المكتبة الشاملة" تكون صور PDF بلا طبقة نصّ. الأدوات التي لا تشغّل OCR عربياً واعياً تفهرس لا شيء فعلياً. المحادثة تشتغل بمعنى أنّك تأخذ إجابات، لكنّها مُختلَقة. وهذا أخطر أوضاع الإخفاق لأنّ لا شيء في الواجهة يخبرك أنّ الفهرس فارغ.
تفريغات لهجات، محاضرة أو مقابلة بالعامية. تكاد كلّ أداة تجيبك بفصحى، فتمحو اللهجة من السياق. الصياغة الأصلية تختفي.
لو كنت تقيّم أدوات، اختبر الفئات الأربع قبل أن تثق بأيّها. اختبار الفصحى المعاصرة هو الذي يجتازه الجميع. الفئات الثلاث الأخرى هي حيث تكتشف الحقيقة.
كيف يبدو "الجيّد"
نقاط أصرّ عليها في أيّ أداة RAG عربيّ أنصح بها، شاملةً نـصّ:
- OCR واعٍ بالعربية للملفّات الممسوحة. لو الملفّ بلا طبقة نصّ، يجب أن تشغّل الأداة خطوة OCR تتعامل مع أشكال الحروف العربية والتشكيل، وتظهر ثقة OCR حتى تعرف متى تشكّ.
- تضمينات رأت العربية فعلاً. إمّا نموذج متعدّد لغات مع قياسات موثوقة على العربية، أو نموذج عربيّ مخصّص. التضمينات الإنجليزية العامّة سبب رفض.
- تقسيم يحترم حدود الجملة العربية. ليس عدّ فراغات. ليس عدّ حروف. شيء واعٍ بعلامات الترقيم العربية، بفواصل الفقرات، وبغياب الأحرف الكبيرة كعلامة بداية جملة.
- إحالات إلى أرقام صفحات يمكنك التحقّق منها. لو الأداة لا تستطيع أن تخبرك من أين جاءت الإجابة، فهي لا تصلح للبحث.
- حفظ اللهجة. حين يكون المستند بلهجة، الإجابة يجب أن تقتبس صياغته الأصلية لا أن تُعيد كتابتها فصحى. مبدأ نفسه كالتفريغ.
- مخرَج RTL لا ينكسر مع المحتوى المختلط. عربيّ فيه لاتيني مُضمَّن (عناوين كتب، أرقام، أعلام) يجب أن يُعرَض بشكل صحيح. أوضح أوضاع الإخفاق وأسهلها اختباراً.
نـصّ هو الأداة التي أبنيها، فسأكون مباشراً: هذه القائمة هي المواصفات التي أعمل بها. لو شيء منها لا يزال غير مُتقَن في نـصّ، فهو في خارطة الربع القادم، لا في "قيد البحث". لتفصيل أعمق عن مكان المحادثة في خطّ العمل الأكاديميّ العربيّ كاملاً، انظر الذكاء الاصطناعي في البحث الأكاديمي.
مكان المشاريع مفتوحة المصدر
تنويه باحترام. هناك مجتمع مفتوح المصدر صغير حول RAG العربيّ يعمل عملاً حقيقياً يستحقّ الذكر. مشاريع مثل منشورات Omartificial على Hugging Face ومستودعات أكاديمية متفرّقة على GitHub هي حيث جرى التقدّم في نماذج التضمين العربية. لو كنت مطوّراً، ابدأ من هناك قبل أن تتّجه إلى خدمة مدارة.
ما تفتقر إليه هذه المشاريع، بحكم طبيعتها، هو التجربة المُنتَجة: حساب، فوترة، واجهة رفع، مكتبة مستندات، إحالات سطرية. هذه هي الفجوة التي يفترض أن تملأها الأدوات التجارية. الطريق الأمين لمنتج عربيّ الأصل هو أن يبني على هذه التطوّرات المفتوحة ويغلّفها بمنتج عامل، لا أن يضع نموذجاً غربياً متعدّد لغات على ملفّات عربية ويأمل.
الخلاصة الصريحة
لو كان مستندك ملفّ PDF فصحى نظيفة معاصرة، وأسئلتك بحث في حقائق، فأيّ أداة ChatPDF تقريباً ستعمل. لست أنت الحالة الحدّية.
لو كان مستندك عربية كلاسيكية، أو كتاباً ممسوحاً، أو تفريغ لهجة، أو خليطاً من هذه، فالأدوات العامّة ليست مبنيّة لك. الاسترجاع سيكون متوسّطاً، وOCR سيفشل بصمت، والإجابات ستُعيد صياغة ما يهمّ فعلاً.
الأداة الصحيحة لمحادثة المستندات العربية هي التي تعامل العربية لغةً من الدرجة الأولى، من OCR إلى التضمينات إلى التوليد. ليس عددها كبيراً بعد. نـصّ محاولة منها. لو أردت التجربة، nuss.ink فيه باقة مجانية بلا بطاقة ائتمان، وتستطيع أن ترفع أصعب ملفّاتك العربية من اليوم الأوّل. ولو كنت تبني خطّك الخاصّ، ابدأ بنموذج تضمين مضبوط للعربية، وبخطوة OCR تحقّق منها أحد فعلاً على نصوص عربية. لا تُطلق بلا اختبار التراث واللهجة والصور الممسوحة.