
یادگيری ژرف زیرمجموعه ای از یادگيری ماشين در هوش مصنوعي است كه به مدلهای محاسباتي تشکيل شده از چندین لایه پردازشي اجازه مي دهد تا بازنمایي از داده ها با سطوح انتزاع مختلفي را یاد بگيرند. بازنمایی هر لایه از طریق مقادیر بازنمایی در لایه قبلی و وزن های لایه ها به دست می آید. یادگیی ژرف با استفاده از الگوریتم پس انتشار ساختارهای پیچیده ای را در مجموعه داده های بزرگ کشف می کند تا نشان دهد چگونه یک ماشین باید پارامترهای داخلی خود را به روزرسانی نماید. از یادگیری ژرف، به جرئت می توان به عنوان یکی از هیجان انگیزترین فناوری های دهه اخیر یاد کرد. در سال های اخیر شاهد نتایج خیره کننده آن در بسیاری از مسائل مانند ترجمه ماشینی، دسته بندی تصاویر، تولید تصاویر، تشخیص گفتار و تولید گفتار بوده ایم. این نتایج توجه بسیاری را به خود جلب کرده است، به گونه ای که امروزه شاهد استفاده از یادگیری ژرف در اغلب زمینه ها هستیم.
یادگیری ژرف شاخه ای از یادگیری ماشین و مبتنی بر شبکه های عصبی مصنوعی است. شبکه های عصبی مصنوعی، همان طور که از نام آن بر می آید قصد دارد تا از شبکه های عصبی مغز انسان تقلید نماید. بنیادی ترین واحد یک شبکه عصبی ژرف، نورون مصنوعی نامیده می شود که ورودی را گرفته، آن را پردازش می کند، سپس آن را از طریق یک تابع فعالیت غیرخطی مانند سیگموئید عبور داده و مقدار حاصل را در خروجی باز می گرداند. این شبکه های مصنوعی از چندین لایه تشکیل شده است که تعداد این لایه ها عمق شبکه را نشان می دهد. هر لایه شامل چندین نورون است و نورون های هر لایه می تواند به همه و یا تعدادی از نورن های لایه بعدی متصل باشد. یک شبکه عصبی با تنها یک لایه نهان برای بازنمایی هر تابعی کافی است، اما این لایه می تواند بسیار بزرگ بوده و غیرقابل آموزش باشد. از این جهت به شبکه های عصبی مصنوعی تقریب گر فراگیر گفته می شود.
یکي از تفاوتهای عمده یادگيری ژرف با روشهای سنتي یادگيری ماشين، مانند دسته بند ماشين بردار پشتيبان، در مهندسي ویژگها است. برای مثال مسئله دسته بندی را در نظر بگيرید. دقت دسته بندی به شدت تحت تأثير ویژگيهای استخراج شده از داده ها مي باشد و درصورتي كه ویژگي های در نظر گرفته شده مناسب نباشند، دسته بندی عملکرد خوبي نخواهد داشت. در یادگيری ژرف، برخلاف روش های سنتي، ویژگيها به صورت خودكار استخراج مي گردد. در لایه های ابتدایي ویژگي های ساده ای از روی داده ورودی به دست آمده و در لایه های بعدی از روی ویژگي های به دست آمده در لایه قبلي ویژگيهای پيچيده تری استخراج مي گردد. در پایان، یک یا چند لایه نهایي همانند یک دسته بند بر روی آن ویژگي های نهایي به دست آمده عمل مي كند.