دنیای اطلاعات دنیای وسیعی می باشد که به صورت داده هایی در پایگاه داده ها، در فایل ها و سند های وب سایت ها، آرشیو های خبری ذخیره شده اند. در واقع موتورهای جستجو ، مجموعه ای از نرم افزارها و سخت افزارها می باشند که به دستور شما و کلماتی که به آن ارائه می کنید در این دنیای اطلاعات با توجه به الگوریتم خاص و تعریف شده خود به دنبال اطلاعات می گردند. مایکل برگمن که یک دانشمند علوم کامپیوتر است اولین بار در سال ۲۰۰۱ یک عبارت جدید مربوط به فهرست بندی موتورهای جستجو به نام وب عمیق یا Deep Web که مقابل وب سطحی است را ابداع کرده که امکان دسترسی به آن برای هر کسی در فضای اینترنت وجود دارد، در این مقاله سعی بر آن است شناخت مناسبی از این اصطلاح کسب نماییم.
این اصطلاح بخشی از اینترنت است که از طریق موتورهای جستجو به طور کامل قابل دسترس نیست و حدود 90 درصد از کل وب سایت ها را تشکیل می دهد. اگر کل اینترنت را با کوه یخ مقایسه کنیم، عمق شبکه بزرگترین قسمت آن در زیر آب خواهد بود. اکثر وب سایت های عمیق به صورت پویا ایجاد می شوند یا حاوی پیوندهایی نیستند که بتوانند از سایت های دیگر به ناوبری بپردازند و بدون پیوند ،موتورهای جستجو نمی توانند آنها را فهرست بندی کنند. به عبارت ساده تر وب عمیق یا دیپ وب یا Deep Web بخش هایی از شبکه وب جهان گستر یا World Wide Web هستند که محتوایشان توسط موتورهای جستجوی معمولی فهرست بندی نمی شود.
وب عمیق یا Deep Web عمدتاً از پایگاه های داده خصوصی تشکیل شده است که می تواند به سادگی برخی از عکس های به اشتراک گذاشته شده در میان گروهی از دوستان در یک سایت ذخیره سازی ابری، یا پیچیده مانند سوابق تراکنش های مالی سایت های اصلی مانند PayPal باشد. از آنجا که این قوانین خصوصی هستند و برای تعداد محدودی از افراد در دسترس هستند و عمومی نیستند، این امر آنها را به بخشی از وب عمیق تبدیل می کند. سایتهای خدمات پولی نیز منبع اصلی محتوای وب عمیق هستند. اگرچه این سایت ها، مانند سایت پلت فرم Netflix، در اینترنت قابل مشاهده هستند، اما محتوای آنها قابل مشاهده نیست. زیرا دسترسی به آن مستلزم پرداخت اشتراک و ایجاد نام کاربری و رمز عبور است. وب عمیق یا دیپ وب همچنین شامل محتوای شبکه های خصوصی شرکت ها، دولت ها، امکانات آموزشی و موارد دیگر است.
محتوای وب عمیق پشت فرم های HTTP پنهان می شود و کاربردهای معمول مانند سرویس های ایمیل، بانکداری اینترنتی و سرویس هایی که کاربران باید برای استفاده از آن ها مبلغی را پرداخت کنند را در بر می گیرد. این سرویس ها توسط دیوار های پرداخت محافظت می شوند. نمونه ای از این سرویس ها، سایت های تماشای ویدیوی دلخواه یا برخی مجله ها یا روزنامه های اینترنتی است. محتوای وب عمیق را می توان با استفاده از URL مستقیم یا آدرس IP پیدا کرد. ممکن است برای دسترسی کامل به این نوع محتواها، بعد از عبور از صفحه عمومی وب سایت به رمزعبور یا انواع دیگری از اجازه دسترسی نیاز باشد.
اولین تلفیق دو عبارت وب عمیق یا همان دیپ وب و وب تاریک یا دارک وب در سال ۲۰۰۹ و در زمانی که واژه شناسی اصطلاحات مورد استفاده در جستجوهای وب عمیق در کنار فعالیت های غیرقانونی در وب آزاد و وب تاریک مورد بحث قرار می گرفتند، اتفاق افتاد. از آن زمان به بعد و پس از معرفی بازار اینترنتی راه ابریشم در رسانه ها، بسیاری از مردم و رسانه ها به استفاده از عبارت وب عمیق به صورت معادل عبارت های وب تاریک یا دارک نت روی آوردند. البته برخی از افراد ، استفاده معادل از کلمات را غیردقیق می دانند و همین موضوع به منبع اصلی سردرگمی تبدیل شده است. کیم زتر و اندی گرینبرگ، خبرنگاران مجله ی Wired توصیه کرده اند هر کدام از این عبارت ها به صورت مجزا نسبت به یکدیگر به کار روند. در حالی که منظور از وب عمیق، هر سایتی است که امکان دسترسی به آن از طریق موتور های جستجوی معمولی وجود ندارد، وب تاریک، بخشی از وب عمیق است که به صورت تعمدی مخفی شده و از طریق مرورگرها و روش های معمولی قابل دسترس نیست.
موتورهای جستجو برای پیدا کردن محتوا در وب، از خزنده های وب استفاده می کنند که لینک های موجود را از طریق پورت های مجازی مشخص دنبال می کنند. این روش برای پیدا کردن محتوا در وب سطحی ایده آل است، اما معمولاً برای وب عمیق جواب نمی دهد. برای مثال، این خزنده ها برای یافتن صفحات پویا که نتیجه درخواست های مختلف از بانک اطلاعاتی هستند، تلاش نمی کنند، زیرا تعداد دقیق درخواست های ممکن، مشخص نیست. البته به این نکته اشاره شده که می توان با در نظر گرفتن لینک برای نتایج درخواست ها، این مشکل را تا حدودی حل کرد، اما این کار می تواند به صورت غیرتعمدی، محبوبیت یکی از اعضای وب عمیق را افزایش دهد. چند موتور جستجو همچون DeepPeep ،Intute ،Deep Web Technologies ،Scirus و Ahmia.fr موتور جستجویی هستند که به وب عمیق دسترسی پیدا کرده اند.
محققان به دنبال راه هایی هستند که بتوان در وب عمیق به صورت خودکار خزید. این موضوع در مورد محتواهایی که تنها از طریق نرم افزارهای خاص مثل تور قابل دسترس هستند نیز صدق می کند. در سال ۲۰۰۱، سریرام رقوان و هکتور گارسیا مولینا مدل معماری را برای خزنده وب پنهان ارائه کردند که از واژه های کلیدی ارائه شده توسط کاربر یا جمع آوری شده از رابط ها درخواست استفاده می کرد تا برای یک فرم درخواست ارسال کند و در محتوای وب عمیق بخزد. الکساندروس انتولاس، پتروس زرفوس و جونگهو چو از دانشگاه UCLA خزنده وب پنهانی را ساختند که به صورت خودکار، درخواست های معناداری را برای پر کردن فرم های جستجو ایجاد می کرد. چندین زبان درخواست فرم مانند DEQUEL نیز ارائه شده اند که در کنار ایجاد یک درخواست، امکان استخراج داده های سازمان یافته را از صفحات نتایج فراهم می کنند. یکی دیگر از تلاش ها در این زمینه، DeepPeep است که پروژه ای در دانشگاه University of Utah بوده و حامی مالی بنیاد ملی علوم آمریکاست. این پروژه، منابع وب پنهان در دامنه های مختلف را با کمک روش های جدید خزیدن متمرکز جمع آوری می کند.
موتور های جستجوی تجاری نیز شروع به جستجو برای پیدا کردن روش های دیگر برای خزیدن در وب عمیق کرده اند. پروتکل Sitemap که اولین بار در سال ۲۰۰۵ توسط گوگل توسعه یافت و معرفی شد و OAI-PMH مکانیزم هایی هستند که به موتورهای جستجو و سایر علاقه مندان اجازه می دهند منابع وب عمیق در وب سرورهای خاص را پیدا کنند. هر دو مکانیزم به وب سرورها اجازه می دهند URL هایی که بر روی آنها قابل دسترسی هستند را تبلیغ کنند و به این ترتیب امکان پیدا کردن خودکار منابعی را که به صورت مستقیم به وب سطحی لینک نشده اند، فراهم میکند. سیستم آشکار سازی وب پنهان گوگل درخواست های ثبت شده برای هر فرم HTML را محاسبه کرده و صفحات HTML به دست آمده را به فهرست موتور جستجوی گوگل اضافه می کند. نتایج آشکار شده ناشی از پردازش هزاران درخواست در ثانیه برای محتوای وب عمیق هستند.