الگوریتم پیج رنک (PageRank)، یکی از مهمترین فناوریهای موتور جستجوی گوگل است که توسط Larry Page و Sergey Brin بنیانگذاران این غول دنیای جستجو ابداع شده است. این الگوریتم بر پایه مفهوم “انتقال اعتبار” از طریق لینکهای میان صفحات وب عمل می کند و به رتبهبندی صفحات بر اساس میزان اعتبار آنها میپردازد.
در واقع PageRank، زیربنای اصلی موتور جستجوی گوگل در گذشته بوده و نقش مهمی در موفقیت این شرکت داشته است. اگرچه امروزه الگوریتمهای پیچیدهتر و جامعتری در گوگل به کار گرفته میشوند، اما PageRank همچنان یکی از مفاهیم با اهمیت و تأثیرگذار در حوزه بهینهسازی موتورهای جستجو یا سئو محسوب میشود. لذا آشنایی با اصول و نحوه عملکرد آن برای هر ارائه دهنده خدمات سئو ضروری است تا بتواند با درک عمیقتر از این فناوری، استراتژیهای مناسبتری را در بهینهسازی سایتها اتخاذ نماید.
پیجرنک PageRank چیست؟
الگوریتم PageRank، یکی از مهمترین فناوریهای موتور جستجوی گوگل است که توسط لری پیج و سرگی برین ابداع گردید. این الگوریتم بر پایه مفهوم تلفیق “قدرت نسبی” تمامی لینکهای موجود در فضای اینترنت طراحی شده است. نام “PageRank” برگرفته از نام خانوادگی لری پیج بوده و در عین حال، کلمه “Page” یا صفحه در آن اشاره به صفحات وب نیز دارد. چنین همپوشانی و ایهام در انتخاب این نام به احتمال زیاد از سوی مبدعان آن عمدی و هوشمندانه بوده است.
لری پیج و سرگی برین، مبدعان الگوریتم PageRank، در دوران تحصیل خود در دانشگاه معتبر استنفورد و در راستای پژوهشهای نوآورانه خود، مقاله ارزشمندی را تحت عنوان “رتبهبندی استنادی PageRank: نظم بخشیدن به وب” در ژانویه ۱۹۹۹ منتشر نمودند. در این مقاله، آنها یک الگوریتم نسبتاً ساده اما کارآمد را برای ارزیابی و امتیازدهی قدرت و اعتبار صفحات وب بر پایه شاخصهای مشخص معرفی کردند. ایده بکارگیری چنین الگوریتمی گامی نوآورانه در راستای سامان بخشیدن به فضای آشفته و بینظم وب محسوب میشد.
این مقاله در آمریکا مورد حمایت قانونی قرار گرفت و به عنوان یک اختراع به ثبت رسید، اما در اروپا چنین نشد، زیرا قوانین حقوق مالکیت فکری در اروپا اجازه ثبت فرمولهای ریاضی را به عنوان اختراع نمیدهد.
اگرچه مالکیت اولیه ثبت اختراع PageRank متعلق به دانشگاه استنفورد بود، اما این دانشگاه حق بهرهبرداری از آن را به گوگل واگذار نموده است. این اختراع تا سال 2027 معتبر خواهد بود و پس از آن منقضی خواهد شد و الگوریتم PageRank وارد حوزه عمومی میشود.
تاریخچه و نحوه تکامل PageRank
در اواخر دهه 1990 میلادی، زمانی که لری پیج و سرگی برین در دانشگاه استنفورد بودند، آنها در حال مطالعه و پژوهش بر روی روشهای نوین بازیابی اطلاعات از فضای گسترده اینترنت بودند. در آن برهه زمانی، بکارگیری هایپرلینکها برای تعیین “اهمیت” و رتبه هر صفحه نسبت به سایر صفحات، مفهومی انقلابی و شیوهای نوآورانه برای نظم بخشیدن به صفحات وب محسوب میگردید. اگرچه چنین رویکردی از لحاظ محاسباتی پیچیده و دشوار بود، اما به هیچ روی غیرممکن نبود.
برای مشاوره رایگان میتوانید با کارشناسان ما در تماس باشید
این ایده نوآورانه به سرعت تبدیل به یک موتور جستجوی انقلابی بنام گوگل گردید که در آن مقطع زمانی، نقش مهمی در عرصه پهناور موتورهای جستجو داشت. باور و اطمینان بعضی از طرفین به رویکرد گوگل تا حدی بود که این شرکت در ابتدای کار، موتور جستجوی خود را بدون هیچ گونه توانایی کسب درآمد راهاندازی نمود. در حالی که گوگل (که در آن زمان با نام ” BackRub” شناخته میشد) موتور جستجو بود، الگوریتم PageRank، مکانیزم اصلی مورد استفاده برای رتبهبندی صفحات در نتایج موتور جستجو بود.
الگوریتم رقص گوگل یا گوگل دنس (Google Dance)
یکی از چالشهای پیادهسازی الگوریتم PageRank که به “رقص گوگل” معروف شده بود، لزوم انجام محاسبات تکراری و زمانبر آن بود. علیرغم سادگی ریاضیات حاکم بر این الگوریتم، محاسبه PageRank هر صفحه نیازمند بررسی مجدد تمامی صفحات اینترنت و پیوندهای میان آنها بود.
در آغاز هزاره سوم میلادی، فرآیند محاسباتی PageRank چندین روز به طول میانجامید. در این بازه زمانی، رتبهبندی نتایج گوگل دستخوش تغییرات و نوسانات گسترده و عموماً نامنظم میشد، چرا که PageRank جدیدی برای تک تک صفحات محاسبه میگردید. این پدیده نابهنجار تحت عنوان “رقص گوگل” شهرت یافت و هر بار که گوگل چرخه به روزرسانی ماهانه خود را آغاز مینمود، موجب اختلال و رکود موقت در فعالیتهای متخصصان سئو سایت در آن دوران میگردید.
عنوان “رقص گوگل” بعدها نام یک مهمانی و گردهمایی سالانه شد که گوگل برای متخصصان سئو در مقر خود در منطقه کوهستانی ماونتین ویو (Mountain View) برگزار میکرد.
هسته اعتماد یا trusted seed
در نسخه اولیه PageRank، تمام صفحات اینترنت امتیاز اولیه یکسانی داشتند. اما در نسخه بعدی، به جای این رویکرد، مجموعهای از صفحات معتبر و سایتهای Seed یا پایه به عنوان “هسته اعتماد” یا trusted seed برای شروع محاسبات الگوریتم در نظر گرفته شدند. بنابراین به جای اینکه همه صفحات امتیاز اولیه یکسانی داشته باشند، PageRank از یک مجموعه صفحات وب بسیار معتبر به عنوان نقطه شروع استفاده کرد. این بهبود باعث افزایش دقت و کیفیت رتبهبندی صفحات شد.
مدل موجسوار منطقی (Reasonable Surfer)
تحول بعدی در الگوریتم PageRank “مدل موجسوار منطقی یا معقول” (Reasonable Surfer) است که بر اساس این مدل، PageRank یک صفحه لزوما به صورت یکنواخت میان صفحاتی که به آنها لینک داده شده، تقسیم نمیشود؛ بلکه احتمال اینکه یک کاربر روی هر لینک کلیک کند، در تخصیص امتیاز PageRank آن صفحه به لینکهای خروجی لحاظ میگردد.
در این مدل، وزن و ارزش نسبی هر لینک خروجی، بر اساس احتمال اینکه یک “کاربر” روی آن کلیک کند، تعیین میشود و سهم بیشتری از PageRank را صفحه اصلی دریافت میکند. این تغییر باعث شد PageRank صفحات با توجه به الگوی رفتاری کاربران و احتمال کلیک بر روی هر لینک، به صورت منطقیتر و دقیقتر محاسبه شود.
تضعیف تدریجی PageRank
در ابتدا تصور میشد که الگوریتم PageRank گوگل قابل “اسپم شدن” نیست، زیرا اهمیت یک صفحه نه تنها توسط محتوای آن، بلکه بواسطه نوعی “سیستم رایدهی” ایجاد شده توسط لینکهای ورودی به آن صفحه تعیین میشد و در برابر تکنیکهای نوشتن محتوای اسپم مصون است؛ اما اطمینان گوگل دوام چندانی نداشت.
با گسترش تدریجی صنعت بکلینک و لینکسازی و ایجاد لینکهای تقلبی، الگوریتم PageRank رفته رفته با مشکلات عدیدهای روبرو شد. از این رو، گوگل تصمیم گرفت تا نمره و امتیاز PageRank صفحات را از دید عموم پنهان سازد. با این حال، این شرکت همچنان در فرآیندهای داخلی رتبهبندی خود به این الگوریتم متکی بود و از آن بهره میبرد.
در راستای حرکت گوگل به سمت محدود نمودن دسترسی عموم به امتیازات مشهور PageRank، این شرکت در سال 2016 نوار ابزار نمایش این شاخص را از رده خارج کرد و سرانجام تمامی دسترسیهای عمومی به آن را مسدود نمود. البته در این برهه زمانی، ابزار معروف تحلیل سئو موسوم به “مجستیک (Majestic)”، توانسته بود تا حد قابل قبولی محاسبات خود را با امتیازات PageRank مطابقت دهد.
در همین حال، گوگل طی سالهای متمادی از طریق مستندات “دستورالعملهای گوگل” و همچنین توصیههای متخصصان تیم مبارزه با اسپم به ریاست مت کاتس، متخصصان SEO را از دستکاری لینکها بر حذر میداشت تا اینکه در ژانویه 2017 این تلاشها متوقف گردید.
در آن دوره، الگوریتمهای گوگل نیز دستخوش تغییرات مهمی میگردید. این شرکت کمتر به PageRank متکی میشد و پس از خرید شرکت MetaWeb و گراف دانش انحصاری آن موسوم به “Freebase”، مکانیزمهای نوینی جهت ایندکس نمودن و فهرستبندی اطلاعات سراسر جهان مورد استفاده قرار گرفت.
تفاوت بین PageRank و نوار ابزار PageRank
در ابتدا گوگل آنچنان به کارایی و دقت الگوریتم PageRank خود مطمئن بود که امتیازات محاسبه شده از سوی آن را آشکارا و بدون هیچ ابهامی در معرض دید عموم قرار میداد. شاخصترین نماد این رویکرد شفاف، افزونهای برای مرورگرهای وب همچون فایرفاکس بود که برای هر صفحه اینترنتی، یک امتیاز عددی در رنج 0 تا 10 را نمایش میداد.
اما حقیقت آن بود که دامنه امتیازدهی PageRank گستره بسیار وسیعتری از اعداد را در بر میگرفت. با این حال، این شکل سادهشده و محدود امتیازات، به متخصصان حوزه بهینهسازی موتورهای جستجو و نیز کاربران عادی این امکان را میداد تا به سادگی و در یک نگاه میزان اهمیت و جایگاه هر صفحه وب را در فضای گسترده اینترنت ارزیابی نمایند.
نمایش آشکار و عمومی امتیازات الگوریتم PageRank در نوار ابزار مرورگرها، هرچند در ابتدا با هدف شفافیت و افزایش اعتماد عمومی صورت گرفت، اما در عمل پیامدهای ناگواری را در پی داشت و این فناوری را در معرض آسیب و سواستفاده قرار داد.
واقعیت تلخ آن بود که از دیدگاه عوام، به نظر میرسید راحتترین شیوه برای دستکاری و تقلب در برابر گوگل، افزایش تعداد یا بهتر بگوییم، کیفیت لینکهای ورودی به یک صفحه وب است. بدین ترتیب هرچه یک صفحه لینکهای ورودی بیشتر یا با کیفیتتری داشت، رتبه مطلوبتری را در نتایج موتور جستجوی گوگل برای هر کلیدواژه دلخواه کسب مینمود.
این پدیده به تشکیل یک بازار فرعی برای خرید و فروش لینکها، بر مبنای امتیاز PageRank آدرس آنلاین محل لینک انجامید. ورود ابزار رایگان یاهو تحت عنوان Yahoo Search Explorer نیز بر تشدید این آسیب افزود؛ زیرا به هر شخصی این امکان را میداد تا به سادگی لینکهای ورودی به هر صفحهای را جستجو نماید.
سپس دو ابزار تحلیلی معروف Moz و Majestic با متکی شدن بر این گزینه رایگان، اقدام به ایجاد نمایههای مستقل در فضای اینترنت و ارزیابی لینکها بر همان مبنا نمودند.
ابزار PageRank چگونه دنیای جستجو را متحول کرد؟
پیش از ظهور الگوریتم PageRank، سایر موتورهای جستجو عمدتاً بر تجزیه و تحلیل محتوای متنی هر صفحه به صورت جداگانه متمی بودند. چنین رویکردی فاقد توانایی لازم برای تشخیص تفاوت میان یک صفحه با نفوذ و قدرت تأثیرگذاری بالا، و یک صفحه با محتوای کاملاً تصادفی یا دستکاری شده بود.
این نقیصه بزرگ، راه را برای سوءاستفاده متخصصان SEO از روشهای بازیابی چنین موتورهایی هموار میساخت. اما اتکای گوگل بر الگوریتم بدیع PageRank، انقلابی در این عرصه را رقم زد. گوگل با ترکیب PageRank و مفهوم نسبتاً ساده ان-گرام (nGrams) برای برقراری ارتباط میان محتوا و نیازهای کاربران، به فرمول برندهای برای جستجو دست یافت و به سرعت از رقبای پیشین خود همچون آلتاویستا و اینکتومی (که از MSN پشتیبانی میکرد) پیشی گرفت.
از آنجایی که گوگل در سطح صفحات وب فعالیت میکرد، راه حل قابل مقیاسپذیری بسیار بهتری نسبت به رویکرد دایرکتوریمحور یاهو و بعدها DMOZ یا پروژه دایرکتوری منبع بازارائه داده بود. هرچند در ابتدای کار، پروژه دایرکتوری منبع باز DMOZ نیز یک دایرکتوری متنباز را در اختیار گوگل قرار داده بود.
نحوه کارکرد PageRank
الگوریتم PageRank گوگل، بر پایه یک فرمول ریاضی قرار دارد که میتواند به چندین شکل بیان گردد اما در عین حال، توضیح ساده آن در چند جمله امکانپذیر است. در آغاز فرآیند، یک امتیاز تخمینی PageRank (که میتواند هر عددی باشد)، به هر صفحه موجود در فضای اینترنت اختصاص داده میشود. هرچند این امتیازات در گذشته در رنج 0 تا 10 به صورت عمومی برای کاربران نمایش داده میشدند، اما در عمل، محدوده امتیازات تخمینی میتواند از این بازه فراتر رود.
در مرحله بعد، امتیاز PageRank محاسبه شده برای هر صفحه بر تعداد لینکهای خروجی از آن صفحه تقسیم میگردد که نتیجه آن یک کسر کوچکتر خواهد بود. سپس این امتیاز PageRank میان تمامی صفحاتی که به آنها لینک داده شده است، توزیع میگردد؛ و این رویه برای کلیه صفحات اینترنت تکرار میشود.
در تکرار بعدی فرآیند محاسبه الگوریتم PageRank، امتیاز جدید برآوردی برای هر صفحه، برابر با مجموع کسرهایی است که از صفحاتی که به آن صفحه لینک دادهاند، به دست آمده است.
این فرمول همچنین شامل یک “ضریب میرایی” نیز میباشد که به احتمال توقف و خاتمه گشتوگذار یک کاربر در فضای وب اشاره دارد. پیش از آغاز هر تکرار بعدی الگوریتم، امتیاز جدید پیشنهادی PageRank هر صفحه، به میزان این ضریب میرایی کاهش مییابد.
این روال محاسباتی تا زمانی که امتیازات PageRank به یک تعادل و ثبات نسبی دست یابند، تکرار میگردد. در نهایت، اعداد حاصل از این محاسبات برای راحتی و سهولت درک، معمولاً به یک رنج قابل فهمتر از 0 تا 10 تبدیل میشوند.
یکی از روشهای نمایش ریاضی محاسبات امتیازات به شیوه زیر است:
که در آن:
PR = امتیازPageRank محاسبه شده برای آن صفحه در تکرار بعدی الگوریتم؛
D = ضریب میرایی (damping factor) که احتمال توقف جستجوی کاربر را مدل میکند؛
J = شماره صفحات اینترنت (فرض بر این است که هر صفحه شماره منحصربفردی دارد)؛
N = تعداد کل صفحات در اینترنت؛
I = تکرار جاری الگوریتم (در ابتدا برابر 0 درنظر گرفته میشود)
بنابراین این فرمول، امتیاز PageRank صفحه جاری را برای تکرار بعدی الگوریتم بر اساس مجموع کسری از PageRank صفحاتی که به آن صفحه لینک دادهاند و با در نظر گرفتن ضریب میرایی محاسبه میکند. این فرآیند تکرار میشود تا همگرایی و تعادل PageRank صفحات حاصل گردد. فرمول را میتوان به صورت ماتریسی نیز بیان کرد.
مشکلات و چالشهای فرمول PageRank
هرچند که الگوریتم PageRank گوگل با هدف پاسخگویی به نیازهای جستجوی کاربران در فضای وب طراحی شده بود، اما فرمول محاسباتی آن دارای برخی کاستیها و چالشهای عملی نیز میباشد. برای مثال، در صورتی که یک صفحه وب هیچگونه لینک خروجی به سایر صفحات را ندهد، فرآیند محاسبه PageRank برای آن صفحه، به تعادل و همگرایی نهایی نخواهد رسید.
در چنین شرایطی، امتیاز PageRank محاسبه شده بین تمامی صفحات فضای وب توزیع میگردد. بدین ترتیب، حتی صفحاتی که هیچ لینک ورودی ندارند نیز سهمی از این امتیاز را دریافت میکنند؛ هرچند که این سهم چندان قابل توجه و معنادار نخواهد بود.
از چالشهای کمتر مستند این فرمول میتوان به این نکته اشاره نمود که صفحات وب جدیدتر، علیرغم اهمیت و جذابیت بالقوه بیشتر نسبت به همتایان قدیمیتر خود، از امتیاز PageRank پایینتری برخوردار میگردند؛ امری که به مرور زمان، میتواند موجب دریافت امتیازات نامتناسب بالا برای محتواهای قدیمی گردد.
لازم به ذکر است که مدت زمان فعالیت یک صفحه وب، از متغیرهایی است که در فرمول محاسباتی الگوریتم PageRank لحاظ نگردیده است.
نحوه جریان و انتقال امتیاز PageRank بین صفحات
نحوه جریان و انتقال امتیاز PageRank بین صفحات وب در طول تکرارهای الگوریتم، به این شکل است که اگر یک صفحه در ابتدا دارای امتیاز 5 باشد و 10 لینک خروجی نیز داشته باشد، آنگاه امتیاز کسری 0.5 (منهای ضریب میرایی) به هر یک از صفحاتی که به آنها لینک داده شده است، تعلق میگیرد. به این ترتیب، امتیاز PageRank به شکل یک جریان پویا میان صفحات و در طی چرخههای محاسباتی الگوریتم در فضای اینترنت در گردش است. در همین راستا، صفحات جدید در فضای وب که به تازگی در این شبکه گسترده منتشر شدهاند، ابتدا تنها مقدار ناچیزی از امتیاز PageRank را دریافت مینمایند. اما با گذشت زمان و افزایش تعداد لینکهای ورودی سایر صفحات به آنها، امتیاز PageRank این صفحات نیز به تدریج افزایش خواهد یافت. چنین روندی، نمایانگر پویایی و انعطافپذیری الگوریتم PageRank در توزیع و بازتوزیع امتیازات میان صفحات وب بر اساس روابط پویای میان آنهاست.
آیا PageRank هنوز هم مورد استفاده قرار میگیرد؟
اگرچه در سال 2016 دسترسی عمومی به امتیاز PageRank حذف شد، اما گزارشها حاکی از آن است که این امتیاز همچنان در دسترس مهندسان جستجوی گوگل قرار دارد. شواهد موجود از جمله نشت اطلاعات مربوط به عوامل رتبهبندی موتور جستجوی یاندکس، نشان میدهد که PageRank هنوز به عنوان یکی از عوامل تأثیرگذار در رتبهبندی صفحات وب مورد استفاده قرار میگیرد.
با این حال، مهندسان گوگل اظهار داشتهاند که فرمول اصلی PageRank با تقریب جدید جایگزین شده است که برای محاسبه آن نیاز به توان پردازش کمتری دارد. هرچند اهمیت فرمول PageRank در رتبهبندی صفحات توسط گوگل کاهش یافته است، اما این الگوریتم همچنان به عنوان یک ابزار ثابت برای هر صفحه وب باقی مانده است. بنابراین، با وجود استفاده از الگوریتمهای جدیدتر، PageRank احتمالاً همچنان در بسیاری از سیستمهای جستجو و رتبهبندی صفحات وب نقش دارد.