داستان ایرانی OCR فارسی!

یادم است چند سال قبل زمانی که دانشجوی دکترا بودم و شدیدا مشغول فعالیت روی پروژه OCR فارسی که البته موضوع رساله ام بود، همایشی در مرکز تحقیقات مخابرات ایران تشکیل شد با عنوان توسعه خط و زبان فارسی در محیط رایانه و سخنران ابتدایی این همایش استاد بزرگوارم آقای دکتر کبیر بود. موضوع صحبت ایشان «داستان ایرانی OCR فارسی» بود که در آن دلایل مختلف به ثمر نرسیدن پروژه OCR فارسی طی یکی دو دهه اخیر را بیان کردند.

حالا اما پس از اینکه ۵-۶ سال از تولید OCR فارسی می گذرد، یک دلیل بزرگ دیگر برایم کشف شده است که البته چندان هم پنهان نبود و قبل از تولید هم به آن فکر می کردیم اما به امید شرکتهای دولتی و سازمانها، خود را خوشحال نگه می داشتیم! آن دلیل بزرگ این است که ما عادت کرده ایم که برای نرم افزار پول ندهیم یا اگر مثلا ۱۰.۰۰۰ تومان می دهیم، انتظار داریم ۲۰ گیگابایت نرم افزار تحویل بگیریم؛ به عبارتی نرم افزار را هم روی باسکول می گذاریم و خرید می کنیم. (چند سال قبل یکی از مشتریان، قبل از خرید پرشیانگار از من پرسید، حجم نرم افزار شما چقدر است گفتم حدود ۳۰ مگابایت؛ از پشت تلفن نگاه عاقل اندر سفیهی کرد و گفت فقط ۳۰ مگابایت؟!…)

حدود دو ماه قبل یکی از نهادهای خیلی مهم! دولتی، برای ارزیابی و خرید OCR مرا دعوت کرد که دمو بدهم و من هم با وجود اینکه رفتن به تهران برایم زجرآور است، اما پذیرفتم و برنامه ریزی کردم و رفتم… آنجا بود که فهمیدم زهی خیال باطل… دولت هم دنبال ضعیف کشی است. می خواهند ۳۰۰ هزار تومان هم ندهند و بنده و امثال بنده فکری به حال پروژه هایشان بکنیم. می فرمایند چرا با وجود این همه متخصص، وضعیت OCR فارسی اینگونه است! شما چه کار می کنید؟ من چیزی نگفتم و فقط منتظر بودم جلسه تمام شود و برگردم (البته برای پول بنزینی که هدر داده بودم دلم می سوخت!) یعنی واقعا باید پژوهشگر و توسعه دهنده اول پروژه را برای رضا خدا انجام دهد، و اگر آقایان خواستند آن وقت قرارداد ببندند!

این پست را نوشتم برای برخی دوستانی که از طریق سایت FarsiOCR.ir با بنده تماس می گیرند و انتظار به حقی برای توسعه OCR و بهبود امکاناتش را دارند. من البته روی توسعه آن کار می کنم (همین الان هم پروژه باز است و مشغولم!)، اما بازار OCR و در حالت کلی شاید بازار نرم افزار داخلی، کساد است.

Share

23 نظر در “داستان ایرانی OCR فارسی!

  1. سلام
    اول: باید از شما تشکر کنم که مدت زیادی روی این پروژه که یکی از نیاز های اساسی نرم افزاری است وقت گذاشتید.
    دوم: منم روی پروژه ی مشابهی کار کردم. البته نمی توانم نام OCR را روی کارم بگذارم ولی خلاصه اینکه صفحات روزنامه را برش می دهد و متن هر خبر را حدس می زند. خیلی دوست دارم بتوانم از تجربیات شما هم استفاده کنم.
    سوم: در مورد متن باز کردن نرم افزار هم پیشنهادی دارم. بد نیست یک ساختار اولیه برای توسعه OCR فارسی آماده کنیم و بخشی از روش ها و الگوریتم هایی که استفاده می کنید را در آن ارائه کنیم. هم تبلیغی برای کار اصلی شما می شود هم فرصتی برای دانشجویان و علاقمندان برای رشد و توسعه فناوری در این زمینه!

  2. روایت شما، روایت آشنایی است.
    یکی از دلایل پیشرفت و رفاه در سایر کشورهای دنیا، حساسیت و حمایت های قانونی عملی در مورد حقوق مخترع و صاحب امتیاز بوده است.
    قانون در غرب با شدت اجرا می شود. همه سود می برند و راه برای نوآوری و سرمایه گذاری(عمر و دسترنج) باز است.
    وضعیت ما متاسفانه همین است که هست. نویسندگان و مترجم ها ایرانی نیز گرفتار همین مشکل هستند.
    برخی به این نکته واقف نیستند که برای کاری مانند درست کردن نرم افزار شناسایی متن فارسی، عمری باید صرف شود و بقول اهل اقتصاد درگیر شدن در این فعالیت یعنی صرفنظر کردن از انتخابهای دیگر در زندگی.
    هیچ راه دیگری غیر از آنکه قانون مخترعین و مولفین و مترجمین و نوآوران و کارآفرینان را در پناه حمایت خود قرار دهد وجود ندارد.
    من از سال ۱۳۷۴ که اولین اسکنرم را خریدم دنبال یک نرم افزار قابل استفاده برای زبان فارسی بودم و تا قبل از اینکه از طریق جستجوی گوگل با نرم افزار شما آشنا شوم هیچ امیدی به پیدا کردن آن نداشتم.
    در سال ۱۳۷۴ حتی به شرکت Readiris در شهر leuven la neuve بلژیک رفتم که در زمره اولین شرکت هایی بود که روی توسعه نرم افزار شناسایی متن کار می کرد و با یکی از مهندسین پروژه گفتگو کردم و جویای امکانات نرم افزار آنها برای شناسایی خط فارسی شدم.
    ایشان به من گفت که در حال کار روی خط عربی هستند ولی به دلیل شباهت های حروف و اینکه در مواردی تفاوت تنها یک نقطه است و نیز چسبندگی حروف و مشکلات ذاتی این رسم الخط، تا بحال نتیجه خوبی از کارشان نگرفته اند.
    حالا که Readiris را شرکت اچ.پی. خریده و آخرین نرم افزارش روی اسکنرها در دسترس است نیز ظاهرا کارشان پیشرفت خوبی نداشته است زیرا من خودم نسخه سه سال قبل این نرم افزار را نصب کردم و اشتباهات زیادی را برای شناسایی متن داشت. به طوری که کلا از خیرش گذشتم.
    امیدوارم گوش شنوایی پیدا شود و از حقوق متخصصینی مانند شما که می توانید در صورت حمایت های قانونی در مدت کوتاهی کارآفرین شوید و برای ده ها نان آور خانواده شغل ایجاد کنید؛ حمایت شود.
    در دانشگاه که درست می خوانیدم استاد اخلاقی داشتیم به نام حجت الاسلام نجفی قمشه ای. یکی از چیزهایی که ایشان مرتب می گفتند مصرعی از مولوی بود: تا نگرید طفل کی جوشد لبن!
    تصور می کنم اگر با ریاست محترم جمهوری این موضوع را از طریق نامه نگاری (و البته با پیگیری مکرر) آن را دنبال کنید، انشاالله به نتیجه ای خواهید رسید.

  3. من که انتقادی نکردم فقط حقایق رو به طور کلی مرور کردم. خودزنی؟!!!!!!!!!!!!!!!!!!
    آقای دکتر شما که ما رو نصیحت می فرمودید که در انجام پروژه ها به منافع مالی فکر نکنیم شما دیگه چرا؟

    • شاید گفته باشم، تنها به منافع مالی فکر نکنیم اما اینکه اصلا به فکر این موضوع نباشیم… بهتر است پست جدیدم را بخوانید!

  4. با سلام
    یادش بخیر، یک بار هم من در همین رابطه به شما زحمت دادم! البته به چند گروه دیگر هم !
    من گزارش وضع موجود را تنظیم و تقدیم کردم و طی آن سه محصول بومی -از جمله نرم افزار شما – را پیشنهاد کردم ولی نهایتا دوستان ما در آن سازمان محترم تصمیم گرفتند خودشان یک نرم افزار بسازند و ساختند!
    پاینده باشید.

      • سلام دوباره
        برای خواندن فرم ها و پاسخ نامه های اسکن شده در یک پروژه پژوهشی در سازمان سنجش دنبال راه حلی می گشتیم که شما نرم افزار خودتان را که آن موقع در حال توسعه بود به من نشان دادید. تا جایی که یادم هست در محیط […] می نوشتید.

  5. می فرمایند چرا با وجود این همه متخصص، وضعیت OCR فارسی اینگونه است! شما چه کار می کنید؟ می‌فرمودید از صدقه سر امثال جنابعالی بس که درآمدمان از قِبل نرم‌افزار زیاد است خوشی زده زیر دلمان و فکر مشکلات کشور به ذهنمان خطور نمی‌کند! واقعا هم از اون سوالها بودا!
    آها راستی من یه سوالی داشتم. چرا پروژه به این خوبی رو روی جیتاب نمی‌ذارین تا روند توسعه بهتری داشته باشه :)))

    • آها! جوابش احتمالا برای خودتان هم روشن است. خیلی خوبه آدم برای رضای خدا کار کنه ولی زندگی هم خرج داره!

      • سلام استاد
        راستش این حرف رو از شما انتظار نداشتم.
        حالا این که انسان نخواد کارش رو مفت عرضه کنه یه بحثه اما این حرف شما یه بحث دیگست.
        خدا بیامرزه عارف بزرگوار کربلایی احمد تهرانی رو؛ کسی که شیخ رجبعلی خیاط تو جوونیش بهش گفته “داش احمد، به خودت ببال! که خدا، خودش را هم روزی تو کرد. بگو دیگر چه می خواهی؟”
        تو کتاب شرح احوالات ایشون، رند عالم سوز، که به نظرم جزو پربارترین کتب شرح حال عرفاست یه جمله داره که خیلی پر باره:
        نقل به مضمونش اینه که:
        آدم وقتی میره در دکان رو باز میکنه، اگه منظورش این باشه که روزیش از دکان تامین میشه، این کافره، اگه منظورش این باشه که روزیش رو خدا میرسونه ولی دکان هم این وسط نقش داره، مشرکه و برا خدا تو روزی رسوندن شریک قایل شده. بلکه باید نیتش این باشه که روزی رو خدا -مستقلا- میرسونه و اون در دکان رو باز میکنه فقط برای خدمت رسوندن به خلق خدا!

      • سلام
        شما از این یک جمله چقدر استنباط کرده اید!
        اول از همه باید بگویم که مقایسه کردن آدمهای عادی مثل من با آدمهای عارف قیاس مع الفارق است! آمّـا..
        حالا اگر منظور آدم این باشه که خدا روزی را می رساند، اما از طریق علل و اسبابی که مثلا می تواند دکان یا غیره باشد نمی شود؟
        روزی را مسلما خدا می رساند، اما عقل را هم خدا داده است. قرار نیست سرمایه خود را رایگان در اختیار دیگران بگذاریم برای رضای خدا و خدمت به خلق. خدمت به خلق را می توان بدون این کار هم انجام داد.
        در سایت GitHub، غالبا نرم افزارهای متن باز قرار می گیرند و من قصد ندارم این نرم افزار را متن باز کنم.

  6. سلام
    به وبلاگتون علاقمند شدم، به خصوص که خودمم برنامه نویسم، مثلا. نقطه‌ی ورودم اون پستی بود که درباره [غلطهای املایی] در اینترنت نوشته بودین.
    پس بد ندیدم یه اشکالی از این پستتون بگیرم باشد که پندپذیر باشید. البته شما [معلمین]، ظاهرا. هرچند من اصولا همیشه خیلی حال می‌کردم حال [معلما] رو سر کلاس بگیرم و به همین خاطر هم همیشه مشمول الطاف خاصه این عزیزان بودم 😉 بگذریم…
    «با وجودیکه» به نظرم غلطه و با کمی تامل، بی معنا. درستش -همون طور که می‌دونید- اینه: «با وجود این که»
    البته بس که بعضی غلط‌ها مصطلح می‌شن آدم نمی‌تونه از کسی ایراد بگیره. ولی با این حال، به قول یکی از دوستان غلط “بده”. اما وقتی غلط زیاد شد، میشه “غلط زیادی” (دور از محضر شریفتون) و “خیلی بده” و حتی تا حدودی غیرقابل تحمل! و باید شدیدا جلوش ایستاد 😉
    توی چند هزار خط برنامه، فقط یه ویرگول کم و زیاد لازمه تا همه چی رو به هم بریزه. شاید به همین خاطره که برنامه‌نویس‌ها تو همه کارشون، از قبیل گفتن و نوشتن، آدمای خیلی دقیق یا حتی گاهی دچار دقت وسواس‌گونه هستن!
    یا علی

  7. آقای دکتر و دوستان باور کنید اینجا ایران است! توقعات بیجا ازین مملکت و همین طور از خودمون نداشته باشیم. همون قدر که ما برای نرم افزار های اوریجینال خارجی ارزش قائلیم و حاضریم پول بپردازیم دیگران هم برای ما به همون میزان ارزش قائل خواهند بود. به قول معروف از هر دست که بدی از همون دست پس میگیری! دولت ایران رو هم که بهتره به حال خودش واگذار کنیم تا در مورد روابطش با آمریکا یک اقدام مثبتی انجام بده.
    در مورد این نرم افزار OCR فارسی از کجا می تونم اطلاعات بیشتری بگیرم؟

  8. با سلام
    دکتر بزرگوار واقعا احساست رو درک می کنم
    داستان ما داستان یخ فروشی است که اگر نفروشد(حتی مفت) سرمایه اش در حال ذوب شدن و تباهی است.
    تا وقتی فوتبالیست ها میلیاردی جایزه بگیرند و المپیادی های ما فلش ۲ گیگ جایزه بگیرند همین است
    به امید………

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *