تدفق الفهرسة
تتم معالجة المستندات من الموصلات والملفات التي يحملها المستخدمون عبر خط أنابيب فهرسة Gorbit. مع الإعدادات الافتراضية، لا تغادر أي بيانات النشر أبدًا. الخط العام للمعالجة يسير كما يلي:- يتم سحب المستندات والبيانات الوصفية وأذونات الوصول من الموصلات
- تتم معالجة المستندات إلى نص من خلال أدوات تحليل المستندات
- يتم تقسيم النصوص وتمريرها عبر نماذج التعلم العميق (التضمين)
- يتم تخزين هذه التمثيلات في قاعدة بيانات المتجهات
- اختياريًا (مغلق افتراضيًا)، يمكن استخدام LLM لاستخراج الكيانات والعلاقات من المستندات وتمثيلها كرسم بياني داخل Postgres
يسمح Gorbit أيضًا بتكوين الخيارات التالية:
لاحظ أن تجاوز الإعدادات الافتراضية قد يعني أنه سيتم إرسال المستندات إلى خدمات الطرف الثالث التي اخترتها
للمعالجة
- نموذج التضمين القائم على API. قد تختار الفرق القيام بذلك بدلاً من الاختيار بين تشغيل وحدات GPU الخاصة بهم، أو استخدام نموذج تضمين أقل قدرة، أو قبول فهرسة أولية أبطأ.
- خدمة تحويل المستندات إلى نص من طرف ثالث. توفر بعض خدمات الطرف الثالث معالجة أفضل باستخدام نماذج الرؤية الكبيرة وغيرها من الأساليب. هذا يمكن أن ينتج استخراجًا أفضل للنص من مستنداتك.
- ربط LLM لإنشاء الرسم البياني للمعرفة. يوفر الرسم البياني للمعرفة تمثيلًا إضافيًا للمعرفة المتصلة ويمكن استخدامه للإجابة على أسئلة أكثر تجريدية.
تدفق الاستعلام
عندما يستعلم المستخدمون من Gorbit، يحدد LLM ما إذا كان يجب على النظام جلب سياق إضافي أو الرد على المستخدم مباشرة.
إذا كان السياق الإضافي مطلوبًا، يمكن للنظام الاختيار من بين الخيارات المتاحة بما في ذلك: المعرفة المفهرسة،
البحث على الويب (إذا كان مُعدًا)، الإجراءات المدمجة (مثل مفسر الكود)، أو إجراءات إضافية يُعدّها المستخدم.
بشكل افتراضي، لا يُرسل النظام بيانات إلى أي أنظمة خارجية خارج LLM الذي يُعدّه المسؤول.