بحث ویکی‌پدیا:ویکی‌پروژه آمار/شش ماه اول ۲۰۰۷

از ویکی‌پدیا، دانشنامهٔ آزاد.

یک نکته خیلی جالب که جای تقدیر دارد رشد رده‌بندی در ویکی‌پدیای فارسی ست البته رده‌ها به یک ساختار مناسب هم نیاز دارند که نمی‌خواهم با دیدن کمیت، آن را فراموش کنم ولی آمار کنونی کمی در این باره هم حرف می‌زند منظورم رشد در بحث رده‌ها ست. این را هم درنظر بگیرید که خیلی از بحث‌های مهم درباره رده‌ها در اینجا ثبت ندشده چون در قالب پروژه در جریان بوده است. --مهدی (غ) ۲۱:۰۸، ۱۶ ژوئیه ۲۰۰۷ (UTC)

[ویرایش] تعدادی پیشنهاد

  • به نظر من بهتراست فضاهای نام مختلف جدابررسی شوند. مثلاً به طور متوسط ماهی چند مقاله (فضای نام اصلی) در ویکی‌پدیا نوشته می‌شود و چند مقاله از فضای نام اصلی پاک می‌شوند که نشان دهد مقاله‌سازی مفید چقدر بوده‌است.
  • همچنین مثلاً این سؤال را می‌توان مطرح کرد که چنددرصد مقاله‌های «جدید» کاربران تازه‌کار حذف می‌شود.
  • چنددرصد از حساب‌های کاربری ایجاد شده در ماه ویرایشی خارج از فضای نام کاربری می‌دارند؟
    و حتی مهم‌تر از آن: چند درصد از حساب‌های کاربری ایجاد شده، ویرایش می‌کنند :)
  • نسبت رشد برچسب‌های مهم مثل بدون منبع و نقض حق تکثیر و غیره به رشد کل مقاله‌ها
    متاسفانه آمارهای رشدی مشکل دارد. در مورد برچسب هم فقط تعداد در این لحظه را از توی backlink‌ها می‌شود شمرد چون به خود متن صفحات دسترسی ندارم که بخواهم توی آن مثلاً با LIKE جستجو کنم :( اما این که گفتید را به شکل عینی‌تر بگویید تا ببینیم چه می‌شود. توجه کنید که تعداد موارد استفادهٔ یک الگو در گذشته را نمی‌شود فهمید، اما می‌شود آینده‌نگر عمل کرد (مثلاً سه ماه بعد، آزمایش را تکرار کرد).
    با همان backlink یا رده‌های مربوط به برچسب شمارش ساده انجام دهید. به صورت snapshotی. با بسامد مثلاً یک‌هفته یا چنین چیزی. بعداً خودمان کنار هم می‌گذاریم. یعنی در واقع مدل تکرار آزمایش می‌شود. به‌آفرید ۱۰:۰۵، ۱۷ ژوئیه ۲۰۰۷ (UTC)
  • و نیز نسبت رشد مقاله‌های خام (بدون ویکی‌سازی و بدون رده‌بندی) به کل مقاله‌ها چقدر است
    این یکی مشکوک است. به متن مقاله دسترسی ندارم که NOT LIKE کنم برای دستور رده. جستجوی در جدول رده‌ها را باید امتحان کنم.
    مقاله‌های ویکی‌سازی‌نشده و مقاله‌های رده‌بندی نشده با قابل دریافت‌اند. در مورد رشد هم همین که آمارگیری را هر هفته تکرار کنیم کافی‌است. به‌آفرید ۰۹:۵۵، ۱۷ ژوئیه ۲۰۰۷ (UTC)
    با قابل دریافتند؟ یک کلمه جا نیفتاده؟ ▬ حجت/بحث ۱۱:۳۳، ۱۷ ژوئیه ۲۰۰۷ (UTC)
    احتمالاً «احتمالاً به راحتی قابل دریافت‌اند چرا که با همین رابط وبی توان یافتشان» بوده‌است. نوشتنم هم مثل حرف زدنم شده‌است. (یعنی اگر حواسم نباشد کلی از کلمه‌ها گم می‌شوند. نیمی از حرف‌هایم را فکر می‌کنم زده‌ام ولی نزده‌ام فقط توی کله‌ام زده‌ام) به‌آفرید ۱۳:۱۸، ۱۷ ژوئیه ۲۰۰۷ (UTC)
  • یا مثلاً حد پایین سن متوسط مقاله‌های بدون منبع چقدر است. یعنی به طور متوسط از آخرین ویرایش مقاله‌هایی که برچسب بدون منبع خورده‌اند چقدر می‌گذرد.
    نفهمیدم. توضیح بدهید.
    از آنجا به راحتی نمی‌توان فهمید که یک مقاله کی برچسب خورده‌است می‌توان این‌طوری تخمین زد که آخرین ویرایش انسانی برچسب‌زنی بوده‌است. منتها با تخمین اینطوری حد پایین سن به دست می‌آید یعنی دوران برچسب خوردگی «بیشتر زا یا مساوی این مقدار» است. حدس من این است که سن مقاله‌های بدون منبع نسبتاً زیاد است چون مقاله‌های بدون منبع معمولاً بعد از خوردن این برچسب رها می‌شوند و یا کسی از اول آنها را بازنویسی می‌کند یا همینطوری خاک می‌خورند.‌
  • تعداد مقاله‌هایی که رشد ناگهانی داشته‌اند (بیشتر +۲۰۰۰۰) و در آنها نسبت اندازه به طول تاریخچه بسیار بالاست می‌تواند جالب باشد. یعنی مقاله‌هایی با تاریخچه‌های (انسانی) کوتاه و حجم زیاد مطلب که به احتمال خیلی زیاد کپی‌کاری را می‌رساند.
    تغییر در طول صفحه در پایگاه داده ذخیره نمی‌شود. جستجوی مقایسه‌ای (محاسبه تفاضل طول برای هر ویرایش) در حجم وسیع (کل مقالات) بسیار به سرور فشار می‌آورد و مجاز به انجامش نیستم. اما شاید یک کار دیگر بشود کرد: dump پایگاه داده را دانلود کنم و روی دستگاه منزل آزمایش را انجام بدهم. ایرادش دو چیز است: سایز فایل خیلی بزرگ است، و تازه وقتی از حالت فشرده خارجش کنم، احتمالاً به چندین گیگابایت می‌کشد، که فعلاً جایش را ندارم. به علاوه، برای یک پایگاه نقلی مثل Test Wikipedi دو ساعت وقت برد تا روی سیستمم نصبش کردم. مال ویکی‌پدیای فارسی احتمالاً بیش از ۲۴ ساعت زمان می‌برد، و من این کاره نیستم.
    باشد. یک کار همچنان مفید ولی نه به‌اندازه مفید این تواند بود مقاله‌هایی که نسبت حجم به ویرایش‌های انسا‌نی‌شان ( و غیرجزئی‌شان) بیشتر از۱۰۰۰۰ یا چنین چیزی‌است فهرست کرد. البته یک‌جورهایی می‌شود مورد بعدی!
    یک کار دیگر هم می‌شد کرد. اگر هدف ما تغییر اندازه بالای (مثلاً) ۲۰۰۰۰ باشد، اول کافی است که فقط ویرایش‌هایی را پیدا کنیم که سایزشان بیش از این عدد است. قطعاً تعدادی از این‌ها در اثر تکمیل تدریجی حاصل شده‌اند، اما باز هم، همین فیلتر کردن اول کار، کمک بزرگی است. بعد می‌شود یک کار دوم بکنم: من به غیر از سرورهای ویکی، یک دیتابیس اختصاصی هم برای خودم دارم، می‌شود که تمام diff های لازم را برای این مقالات حساب کنم و توی این بریزم (اگر خیلی دهان سرور را صاف نکند البته). بعد توی این جستجو کنیم. منتها کماکان خوب می‌شود که محدودهٔ زمانی هم بگذاریم (مثلاً دو ماه اخیر).
  • تعداد متوسط مشارکت‌کنندگان در هر مقاله با لحاظ احتمالی حجم مقاله. مثلاً به طور متوسط چند نفر انسان در هر مقالهٔ ویکی‌پدیا مشارکت می‌کنند. یا در مقاله‌هایی با حجم متوسط بین ۱۵ تا ۳۵ کیلوبایت چند نفر مشارکت‌کننده وچود می‌دارند. یا در حالتی کلی‌تر چنددرصد از مقاله‌های ویکی‌پدیا بین فلان‌تعداد تا بهمان تعداد مشارکت‌کننده می‌دارند. این شاخص می‌تواند میزان همکاری جمعی را برساند.
  • همچنین می‌توان ضریب نفوذ و دایرهٔ فعالیت کاربران فعال و دائمی را در ویکی‌پدیا تخمین زد. مثلاً چنددرصد از کاربران در چند درصد از صفحه‌هایی که در طول ماه ویرایش می‌شود مشارکت داشته‌اند. مثلاً اگر ده کاربر فعال ویکی‌پدیا تنها در ۵٪ کل صفحه‌هایی که در ماه ویرایش می‌شود فعالیت داشته‌اند ضریب نفوذشان پایین و دایرهٔ مشارکتشان محدود است.
    این را کمی فرموله‌تر شده به من بفهمانید.
    مثلاً N کاربر فعال‌تر ویکی‌پدیا را در نظر بگیرید و ببنید که مجموعهٔ ویرایش‌های ایشان چند صفحهٔ متمایز را شامل می‌شود. این تعداد را A بنامید. تعداد کل صفحه‌های متمایزی که در ماه قبل ویرایش شده‌اند را در نظر بگیرید. این تعداد را B بنامید. A \over B ضریب نفوذ این N کاربر است. همچنین می‌توان سؤالاتی این چنینی مطرح کرد که چند کاربر فعال‌تر ویکی‌پدیا لازم است یا (چه درصدی از کاربران فعال لازم است) تا مثلاً ۹۰٪ صفحه‌های ویرایش شده پوشش داده شود. یک سناریو این است که چند کاربر فعال ویکی‌پدیا فقط مشغول جنگ ویرایشی در چند صفحهٔ انگشت‌شمارند بنابراین ضریب نفوذ بسیار پایینی می‌دارند. به‌آفرید ۰۹:۵۵، ۱۷ ژوئیه ۲۰۰۷ (UTC)
    افتاد! این هم به چشم.
  • همچنین می‌توان متوسط زمان بی‌التفاتی به مقالهٔ جدید را تعیین کرد. یعنی به طور متوسط بین اولین ویرایش آفرینندهٔ مقاله و اولین ویرایش شخص (نه ربات) دیگر چقدر فاصله‌است.
    باید تمام ربات‌های فعال را اول exclude کنم. فعلاً مشغولیتم همین است.

توجه:امضای به‌آفرید در این زیر برداشته شد، تا این شائبه ایجاد نشود که تمام نوشته‌های بالا کار او بوده!

عالی بود! کلی کیف کردم از ایده‌ها. طول می‌کشد که اجرایی شوند. برای برخی هم مشکل داریم، مثلاً پایگاه داده خودش «تازه‌کار» بودن کاربر را علامت نمی‌زند، و باید برای هر مقاله که ایجاد می‌شود، در مورد ایجاد کننده خودم برود در Log ها جستجو کنم و این‌ها. کم کم پاسخ می‌دهم ▬ حجت/بحث ۰۸:۴۲، ۱۷ ژوئیه ۲۰۰۷ (UTC)
تازه‌کار بودن کاربران را می‌توانید با شمارهٔ کاربری ویژه‌شان هم پیدا کنید. مثلاً شمارهٔ کاربری حساب Behaafarid چهارهزار و خرده‌ای‌است که در واقع می‌شود کاربر چهارهزار خرده‌امی که حساب باز کرده‌است. خلاصه این هم یک روش است. گفتم با این امید که شاید به کار آید. به‌آفرید ۰۹:۵۵، ۱۷ ژوئیه ۲۰۰۷ (UTC)
در مورد آن‌ها که گفتید برخی را همان بالا توضیح می‌دهم. راستی شما دانش SQL دارید؟ ▬ حجت/بحث ۰۹:۰۴، ۱۷ ژوئیه ۲۰۰۷ (UTC)
در دوران لیسانس یک درس سه واحدی relational database برداشته‌ام. ولی تا حالا استفادهٔ خفن از SQL نکرده‌ام در حد فهرست‌بندی کتاب‌ها و فیلم‌ها و انجام پروژه‌های کدزنی شخصی. تا حالا datamining اساسی نکرده‌ام. به‌آفرید ۰۹:۳۱، ۱۷ ژوئیه ۲۰۰۷ (UTC)
حال می‌دهد این datamining. والا! علی‌الخصوص وقتی که یک دستور می‌دهی مخ سرور سوت می‌کشد مجبور می‌شوی که kill process بکنی که داد ملت در نیاید! (خوبی MySQL هم به این است که از توی محیط متنی خودش می‌شود kill process کنی) ▬ حجت/بحث ۱۱:۳۳، ۱۷ ژوئیه ۲۰۰۷ (UTC)
  • حجت عزیز! دست‌مریزاد خیلی عالی و مفید است. در مورد آن عرضی که چند وقت پیش کردم در مورد آمار مراجعه به مقالات کاری نمی‌شود صورت داد؟ عزیزی ۰۹:۵۵، ۱۷ ژوئیه ۲۰۰۷ (UTC)
    فرمایش شما یادم رفته، دوباره می‌فرمایید (یا لینک تفاوت می‌دهید)؟ ▬ حجت/بحث ۱۱:۳۳، ۱۷ ژوئیه ۲۰۰۷ (UTC)