پردازنده‏های چند هسته‏ای بخش ۳ – Multicore processors part 3

در بخش قبل یک روش نه چندان آسان معرفی شد که با استفاده از آن می‏توان از حداکثر توان پردازنده‏های چند هسته‏ای استفاده کرد. امروز قصد دارم کتابخانه‏ای را معرفی کنم که با استفاده از آن به سادگی می‏توان حلقه‏های for سنگین را با استفاده از چند هسته‏ی پردازنده سریعتر اجرا کرد. کتابخانه‏ی OpenMP یک کتابخانه‏ی C/C++ است که توسط میکروسافت و به منظور تسهیل برنامه‏نویسی برای پردازنده‏های چند هسته‏ای تهیه شده است. اگر ویژوال استودیوی ۲۰۰۸ را نصب کنید، نسخه‏ی ۲ این کتابخانه نیز به صورت خودکار نصب می‏شود. برای استفاده از این کتابخانه باید ابتدا در تنظیمات پروژه، گزینه‏ی OpenMP Support را به Yes تنظیم کنید (شکل زیر).
فعال سازی OpenMP
سپس فایل omp.h را به لیست فایلهای سرآیه اضافه کنید. برای شروع کار بهتر است مثال قبلی را این بار با این کتابخانه امتحان کنیم. با استفاده از دستور omp_set_num_threads می‏‏توان تعداد رویه‏های مستقل برای استفاده توسط این کتابخانه را تعیین کرد. مقدار پیش فرض به تعداد هسته‏های پردازنده است. یکی از پرکاربردترین عبارات(هر چی فکر کردم معادل directive یادم نیومد!) این کتابخانه عبارت parallel هست که می‏توانید قبل از حلقه‏ی for به صورت زیر از آن استفاده کنید.

به همین سادگی؛ حالا اگر برنامه را اجرا کنید، حلقه‏ی for به طور خودکار در ۴ رویه‏ی مستقل اجرا خواهد شد. با استفاده از این دو خط برنامه شما می‏توانید به راحتی تعداد رویه‏هایی که باید در اجرای حلقه کمک کنند را تعیین کنید. مثال جلسات قبل را با استفاده از این کتابخانه اجرا کردم، زمان اجرا برای حالتی که از دو ریسمان استفاده شد ۵.۵ ثانیه و برای ۴ ریسمان ۲.۸۵ ثانیه شد که تقریبا مشابه حالتی است که خودمان ۲ یا ۴ ریسمان را تولید کنیم. حتما استفاده از این کتابخانه راحت تر است! برای یادگیری بیشتر این کتابخانه و امکانات جالب آن به MSDN (راهنمای ویژوال استودیو) مراجعه فرمایید.

In the previous paper, I introduced an approach based on threads to use the maximum power of multicore processors in our programs. Here I introduce a handy library from Microsoft which makes programming for multicore CPUs an amazing work. OpenMP is an efficient library with several directives and functions which helps us to write or migrate codes for multi core CPUs simply by adding some line of codes. If you are using visual studio .net 2005 or 2008, this library is already installed and you can use it. To demonstrate this library we consider the example of the previous paper. To add support of OpenMp in our project, we must open “Project Settings” and change the value “OpenMP Support” to “Yes”. This makes visual studio to load required libraries for OpenMP.
Enable OpenMP support in MSVC
Then we should add header file omp.h at the beggining of our cpp file. Using “omp_set_num_threads” we are able to set the number of threads which should be used by OpenMp library. The default value is equal to the number of CPU cores. One of the most important directive in this library is the “parallel” directive which can be used before heavy “for” loops to tell that the following loop must be shared between several cores of the processor. You can use it as follows:

How to use Open MP

Thats all! you have not to create separated threads and manage them, all of the works will be done by OpenMP. Using this code with omp_set_num_threads(2) the program takes about 5.5 seconds on Q6600 processor and with omp_set_num_threads(4) about 2.85 seconds. These values are almost the same as in the previous paper which we created threads mannualy. But I think OpenMP is easier!. For more information on OpenMP see MSDN (Visual Studio Help)

Share

پردازنده‌های چند هسته‌ای بخش ۲ – Multi Core Processors Part 2

در این مقاله یک روش آسان برای استفاده‏ی بهینه از پردازنده‏های چندهسته‏ای در برنامه‏های پردازشی ارائه می‏کنیم. کد زیر را در نظر بگیرید:
یک حلقه‌ی ساده

این کد یک حلقه‏ی ساده است که در اکثر برنامه‏های پردازشی یافت می‏شود. با اجرای این کد ملاحظه می‏کنیم که تنها از توان یک هسته‏ی پردازنده استفاده شده و سه پردازنده‏ی دیگر بیکار می‏مانند. در این حالت اجرای برنامه ۱۰.۶۰ ثانیه زمان می‏برد. برای استفاده از چند هسته باید برنامه را به صورت زیر تغییر دهیم:
دو رویه‌ی مستقل برای سریعتر کردن اجرای حلقه

وضعیت پردازنده در حین اجرای برنامه با استفاده از دو رویه‌ی مستقل
با این تغییر نصف حلقه‏ی four در یک رویه و نیمه‏ی دیگر آن در رویه‏ی دیگر اجرا می‏شود. با توجه به اینکه عملیات این دو رویه کاملا از هم مستقل است، سیستم عامل، هر کدام از حلقه‏ها را به صورت خودکار به یکی از هسته‏های پردازنده می‏سپارد. به این ترتیب از توان دو هسته به خوبی استفاده می‏کنیم! و زمان اجرای برنامه به حدود نصف، ۵.۴۸ ثانیه، کاهش می‏یابد. به همین ترتیب اگر به جای دو رویه از چهار رویه استفاده کنیم، زمان اجرای برنامه به ۲.۸۳ ثانیه می‏رسد که ۴ بار کمتر از زمان اجرای اولیه است!

کد این برنامه را از اینجا دریافت کنید.
نکته‏ای که باید توجه داشته باشیم این است که انجام این کار همیشه ساده نیست ، چرا که خیلی اوقات عملیات داخل حلقه به نتایج قبلی پردازش شده در حلقه وابسته است. البته از این هم که بگذریم مدیریت منابع بین رویه‏ها هم ،همیشه کار آسانی نیست. در همین مثال هم برای سادگی متغیرها را سراسری تعریف کرده‏ام. در قسمت بعدی راه ساده‏تری برای استفاده از چند هسته را بیان خواهیم کرد.
—————————————————————————————————————————————————————————–

In this paper, a simple approach to efficient use of several cores of the processor is escribed. Consider the following code:


This is a simple “for” loop which is frequently used in processing applications.
After running this code, we will see that only one core of the CPU is involved and other three cores were not affected. In this case the execution time is 10.60 seconds. To use the power of two cores we should change the program as follows:



Here we used two threads where each of them is responsible for the half part of the loop. Since these two threads are completely independent, OS sends each of them to specific core of the processor. In this way we used the power of two processors and the execution time is reduced from 10.6 to 5.48 sec. This procedure can be repeated with 4 threads and as expected the execution time will be reduced to 2.83 sec.

Download VC Code
It is important to know that this process is not always so simple. we should share resources carefully within all threads, on the other hand some times the body of “for” loop is not independent from one index to another. In the next part I will introduce a simpler way to use several cores of the processor.

Share

پردازنده‌های چند هسته‌ای بخش ۱ – Multi Core Processors Part 1

همان طور که در پست “وقتی تکنولو‍ژی کم می‌آورد” گفتم در این سالهای اخیر پردازنده‌های چند هسته‌ای رشد چشم گیری داشته‌اند. امروز قصد داریم ببینیم این افزایش تعداد هسته‌ها چه فایده‌ای دارد؟ شاید خیلی از شما بعد از خرید یک پردازنده‌ی ۲ هسته‌ای مثل E8400 یا پردازنده‌ی ۴ هسته‌ای مثل Q6600 چندان احساس افزایش کارایی در سیستم خود نکرده باشید! برای مثال قبلا نرم‌افزاری مثل مدیا استودیو در عرض بیست دقیقه فیلم شما را تولید می‌کرد و الان هم همین اتفاق می‌افتد. تفاوت در چیست؟ از این پس فرض می‌کنیم شما یک پردازنده‌ی چهارهسته‌ای دارید.

اگر نگاهی به Task Manager بیندازید ملاحظه می‌کنید که به جای تک گراف سبز رنگی که قبلا می‌دیدید، الان ۴ گراف کوچک وجود دارد که هر کدام نماینده‌ی یک cpu است. حال اگر درحین اجرای یک برنامه‌ی سنگین این گرافها را ببینید ملاحظه می‌کنید که تنها یکی از این گرافها در حالت بیشینه‌(۱۰۰%) است و سه گراف دیگر روی ۰% قرار دارند. گراف کلی مصرف پردازنده هم تنها ۲۵% مصرف را نشان می‌دهد. این وضعیت بیانگر این است که آن برنامه‌ی سنگین، تنها می‌تواند از توان یک پردازنده استفاده کند. متاسفانه این وضعیت برای اکثر نرم‌افزارهای موجود وجود دارد و از این رو شما هیچ سودی از تعویض پردازنده‌تان نکرده‌اید! از ویندوز هم که انتظار نمی‌رود قدرت توزیع پردازشهای یک برنامه روی چند پردازنده را داشته باشد.
نگران نباشید برای اینکه به پردازنده‌ی خود افتخار کنید!، اینبار چند برنامه‌ی سنگین را اجرا کنید؛ ملاحظه می‌کنید که هر کدام از این برنامه‌ها از یک پردازنده استفاده کرده و کارایی کاملی از خود به نمایش می‌گذارند، مثلا اگر چهار برنامه، در حال کار سنگین باشند؛ هر چهار پردازنده‌ مشغول شده و مصرف کلی به ۱۰۰% می‌رسد. در چنین زمانی پردازنده‌ی شما مثل چهار پردازنده‌ی تک هسته‌ای عمل می‌کند. خوش به حالتون!
خوب شاید شما به عنوان یک برنامه نویس بخواهید برنامه‌ای بنویسید که از هر چهار هسته استفاده کند؛ چنین کاری البته شود و لیک به خون جگر شود!
در پست بعدی یک روش تقریبا آسان برای استفاده از حداکثر کارایی پردازنده‌های چندهسته‌ای بیان خواهیم کرد.

——————————————————————————————————————–

Nowadays multi core processors are well developed and distributed through the world. Here we are going to find whether these CPUs are beneficial or not. You may don’t experience a better performance when installing new Quad Core CPU like Q6600 or Dual Core one like E8400. Here I will describe the reasons. From now on I assume that you have a Quad Core CPU.

Take a look on the performance graph of the Task Manager; you will see 4 small graphs instead of traditional single graph. Each graph represents one core of your CPU. Now run a heavy program and trace the graphs, you will see that only one graph is in maximum load and the others are not affected at all; the global CPU usage is about 25%. This is because your program can not use the power of 4 processing cores and also windows can not distribute the work load on all CPUs. So in this case no improvements happened and this multi core CPU is not different from single core CPUs!
Now run 4 heavy applications and again trace the graphs, oh all graphs were reached to the maximum value and the overall CPU usage was reached to 100%. This is a really improvement, you are using the power of four CPUs!
Is it possible that an application uses the power of all processors? Of course, and I will describe it in next posts.

Share

وقتی تکنولوژی کم می‏آورد

توی دنیای الکترونیک یک قانونی هست به نام قانون مور، طبق این قانون که جناب گوردون مور در سال ۱۹۶۵ کشف کرده، هر دو سال تعداد ترانزیستورهایی که روی یک چیپ (مثل cpu) قرار می‏گیرد دوبرابر می‏شود. این پیش بینی الان بیش از ۴۰ سال است که درست از آب درآمده و تعداد ترانزیستورها از ۲۳۰۰ عدد در intel 4004 در سال ۱۹۷۱ به ۸۲۰ میلیون عدد در cpuهای چهار هسته‏ای فعلی رسیده است.

گراف دستنوشته گوردون مور

اما بخش دوم این قانون الان چند سالی است که نقض شده: طبق پیش بینی جناب مور، فرکانس کلاک در هر ۱۸ ماه ۵۰% افزایش می‏یابد، این در حالیست که از حدود ۳ سال پیش به این طرف فرکانس بیش از ۳.۵ گیگا هرتز را تجربه نکرده‏ایم. در چنین شرایطی شرکتهای اینتل و AMD دست به دامان تکنیکهایی برای حفظ بازار شده‏اند. پردازنده‏های چندهسته‏ای ایده‏ی موفقی برای حفظ بازار طی حداقل یکی دو دهه است. در این پردازنده‏ها فرکانس کلاک بیشتر نشده که حتی کمتر هم شده، لیکن به جای یک هسته پردازشی، دو یا چهار هسته کار گذاشته شده تا در مواردی که چندین برنامه را در حال اجرا دارید هر کدام از یک هسته استفاده کرده و کارایی کلی سیستم بهبود یابد.
منتظر توضیحات بیشتر باشید…

Share