كيف تحول “عدسة جوجل” الصور إلى نص؟

25 مارس 2023

By mariya

كيف تحول “عدسة جوجل” الصور إلى نص؟: عندما كنت في عطلة مؤخرًا ، كنت أرغب في تدوين ملاحظات من كتاب إلكتروني كنت أقرأه. ولكن بدلاً من تدوين الملاحظات الصوتية أو خربشة الأشياء في دفتر ملاحظات ، استخدمت Lens لتحديد قسم من الكتاب ونسخه ولصقه في مستند. جعلني ذلك أشعر بالفضول: كيف حدث كل هذا على هاتفي؟ كيف تتعرف الكاميرا على الكلمات بجميع خطوطها ولغاتها؟

قررت الوصول إلى جذر السؤال والتحدث إلى آنا ماناسوفسكا ، مهندسة برمجيات مقرها زيورخ وأحد موظفي Google في الصف الأول لتحويل الصورة إلى نص.

كيف تحول “عدسة جوجل” الصور إلى نص؟: آنا ، أخبرنا عن عملك في Lens.

أنا منخرط في جانب النص ، لذا تأكد من أن التطبيق يمكنه تمييز النص ونسخه للبحث أو ترجمته – دون الحاجة إلى الكتابة. على سبيل المثال ، إذا وجهت كاميرا هاتفك إلى ملصق بلغة أجنبية ، يمكن للتطبيق ترجمة النص الموجود عليه. وبالنسبة للأشخاص المكفوفين وضعاف البصر ، يمكنهم قراءة النص بصوت عالٍ. إنه أمر مثير للإعجاب.

لذا فإن جزءًا مما يفعله فريقي هو جعل Lens يتعرف ليس فقط على النص ، ولكن أيضًا على بنية النص. نحن البشر نفهم تلقائيًا الكتابة المنفصلة إلى جمل وفقرات ، أو كتل وأعمدة ، ونعرف ما يتماشى معًا. من الصعب جدًا على الآلة تمييز ذلك ، على الرغم من ذلك.

هل هذا تعلم الآلة؟

نعم. بعبارة أخرى ، يستخدم أنظمة (نسميها نماذج) دربناها على تمييز الشخصيات والبنية في الصور. لن يكون لنظام الحوسبة التقليدية سوى قدرة محدودة على القيام بذلك. ولكن تم تصميم نموذج التعلم الآلي الخاص بنا “لتعليم نفسه” على مجموعات بيانات هائلة ويتعلم كيفية تمييز هياكل النص بنفس الطريقة التي يقوم بها الإنسان.

هل يمكن للنظام العمل بلغات مختلفة؟

نعم ، يمكنه التعرف على 30 نصًا ، بما في ذلك السيريلية والديفاناغارية والصينية والعربية. إنها الأكثر دقة في لغات الأبجدية اللاتينية في الوقت الحالي ، ولكن حتى هناك ، فإن الأنواع العديدة المختلفة من الخطوط تمثل تحديات. اليابانية والصينية صعبة لأن لديهم الكثير من الفروق الدقيقة في الشخصيات. ما يبدو أنه اختلاف بسيط بالنسبة للعين غير المدربة يمكن أن يغير المعنى تمامًا.

ما هو الجزء الأكثر تحديا في عملك؟

هناك الكثير من التعقيد والغموض ، مما يمثل تحديًا ، لذلك كان علي أن أتعلم كيفية التنقل في ذلك. وهي تسير بخطى سريعة للغاية. الأشياء تتحرك باستمرار وعليك طرح الكثير من الأسئلة والتحدث إلى الكثير من الناس للحصول على الإجابات التي تحتاجها.

عندما يتعلق الأمر بالترميز الفعلي ، ماذا يتضمن ذلك؟

في الغالب أستخدم لغة برمجة تسمى C ++ ، والتي تمكنك من تشغيل خطوات المعالجة اللازمة لنقلك من صورة إلى تمثيل الكلمات والبنية.

كيف تحول “عدسة جوجل” الصور إلى نص؟: هل تدعم Google Lens OCR؟

تدعم Google Lens التعرف الضوئي على الأحرف (OCR). يعد التعرف على النص أحد الميزات البارزة لـ Google Lens. يتم تنفيذ الميزة بناءً على OCR ، وهي التقنية التي تتعرف على الأحرف المكتوبة بخط اليد أو المطبوعة على الصور وتحويل الأحرف إلى نص قابل للتحرير.

تم تضمين عدسة Google مع محرك التعرف الضوئي على الحروف القوي والسريع من Google والذي يمكنه التعرف على الأحرف في الصور أو اللافتات أو المستندات الممسوحة ضوئيًا وتحويلها إلى نص قابل للتحرير. ثم يمكنك البحث عن النص على Google أو نسخه إلى المواقع المطلوبة أو الحصول على ترجماته من Google Translation.

توضح لك الأقسام التالية كيفية استخدام Google Lens للتعرف على النص في سيناريوهات مختلفة.

استخدم Google Lens للتعرف على النص على الصور

يمكنك استخدام Google Lens في العديد من خدمات Google ، مثل Google Chrome و Google Photos ، للتعرف بسهولة على النص الموجود على الصور.

خذ Google Chrome كمثال. عند تصفح صفحات الويب في Google Chrome والعثور على صورة تريد استخراج النص منها ، يكون لديك عدة خيارات. على سبيل المثال ، يمكنك كتابة النص يدويًا في محرر نص أو حفظ الصورة واستخدام برنامج OCR للتعرف على النص.

باستخدام Google Lens ، يصبح التعرف على النص على الصور أسهل بكثير. للتعرف على النص الموجود على الصور في Google Chrome باستخدام Google Lens ، قم بتنفيذ الخطوات البسيطة التالية:

الخطوة 1 افتح صفحة الويب التي تحتوي على الصورة التي تريد التعرف على النص منها في Google Chrome.

الخطوة 2 (اختياري) انقر بزر الماوس الأيمن فوق الصورة واختر فتح الصورة في علامة التبويب الجديدة لفتح الصورة في علامة تبويب جديدة. في بعض الأحيان ، إذا فتحت صورة في علامة تبويب جديدة ، يمكنك عرض الصورة بأكبر دقة لها. يمنحك هذا صورة أوضح للتعرف عليها. يمكنك تخطي هذه الخطوة إذا كانت الصورة واضحة والنص الموجود على الصورة قابلاً للقراءة.