بحث ویکیپدیا:ویکیپروژه آمار/شش ماه اول ۲۰۰۷
از ویکیپدیا، دانشنامهٔ آزاد.
یک نکته خیلی جالب که جای تقدیر دارد رشد ردهبندی در ویکیپدیای فارسی ست البته ردهها به یک ساختار مناسب هم نیاز دارند که نمیخواهم با دیدن کمیت، آن را فراموش کنم ولی آمار کنونی کمی در این باره هم حرف میزند منظورم رشد در بحث ردهها ست. این را هم درنظر بگیرید که خیلی از بحثهای مهم درباره ردهها در اینجا ثبت ندشده چون در قالب پروژه در جریان بوده است. --مهدی (غ) ۲۱:۰۸، ۱۶ ژوئیه ۲۰۰۷ (UTC)
[ویرایش] تعدادی پیشنهاد
- به نظر من بهتراست فضاهای نام مختلف جدابررسی شوند. مثلاً به طور متوسط ماهی چند مقاله (فضای نام اصلی) در ویکیپدیا نوشته میشود و چند مقاله از فضای نام اصلی پاک میشوند که نشان دهد مقالهسازی مفید چقدر بودهاست.
- همچنین مثلاً این سؤال را میتوان مطرح کرد که چنددرصد مقالههای «جدید» کاربران تازهکار حذف میشود.
- چنددرصد از حسابهای کاربری ایجاد شده در ماه ویرایشی خارج از فضای نام کاربری میدارند؟
- و حتی مهمتر از آن: چند درصد از حسابهای کاربری ایجاد شده، ویرایش میکنند :)
- نسبت رشد برچسبهای مهم مثل بدون منبع و نقض حق تکثیر و غیره به رشد کل مقالهها
- متاسفانه آمارهای رشدی مشکل دارد. در مورد برچسب هم فقط تعداد در این لحظه را از توی backlinkها میشود شمرد چون به خود متن صفحات دسترسی ندارم که بخواهم توی آن مثلاً با LIKE جستجو کنم :( اما این که گفتید را به شکل عینیتر بگویید تا ببینیم چه میشود. توجه کنید که تعداد موارد استفادهٔ یک الگو در گذشته را نمیشود فهمید، اما میشود آیندهنگر عمل کرد (مثلاً سه ماه بعد، آزمایش را تکرار کرد).
- با همان backlink یا ردههای مربوط به برچسب شمارش ساده انجام دهید. به صورت snapshotی. با بسامد مثلاً یکهفته یا چنین چیزی. بعداً خودمان کنار هم میگذاریم. یعنی در واقع مدل تکرار آزمایش میشود. بهآفرید ۱۰:۰۵، ۱۷ ژوئیه ۲۰۰۷ (UTC)
- متاسفانه آمارهای رشدی مشکل دارد. در مورد برچسب هم فقط تعداد در این لحظه را از توی backlinkها میشود شمرد چون به خود متن صفحات دسترسی ندارم که بخواهم توی آن مثلاً با LIKE جستجو کنم :( اما این که گفتید را به شکل عینیتر بگویید تا ببینیم چه میشود. توجه کنید که تعداد موارد استفادهٔ یک الگو در گذشته را نمیشود فهمید، اما میشود آیندهنگر عمل کرد (مثلاً سه ماه بعد، آزمایش را تکرار کرد).
- و نیز نسبت رشد مقالههای خام (بدون ویکیسازی و بدون ردهبندی) به کل مقالهها چقدر است
- این یکی مشکوک است. به متن مقاله دسترسی ندارم که NOT LIKE کنم برای دستور رده. جستجوی در جدول ردهها را باید امتحان کنم.
- مقالههای ویکیسازینشده و مقالههای ردهبندی نشده با قابل دریافتاند. در مورد رشد هم همین که آمارگیری را هر هفته تکرار کنیم کافیاست. بهآفرید ۰۹:۵۵، ۱۷ ژوئیه ۲۰۰۷ (UTC)
- با قابل دریافتند؟ یک کلمه جا نیفتاده؟ ▬ حجت/بحث ۱۱:۳۳، ۱۷ ژوئیه ۲۰۰۷ (UTC)
- احتمالاً «احتمالاً به راحتی قابل دریافتاند چرا که با همین رابط وبی توان یافتشان» بودهاست. نوشتنم هم مثل حرف زدنم شدهاست. (یعنی اگر حواسم نباشد کلی از کلمهها گم میشوند. نیمی از حرفهایم را فکر میکنم زدهام ولی نزدهام فقط توی کلهام زدهام) بهآفرید ۱۳:۱۸، ۱۷ ژوئیه ۲۰۰۷ (UTC)
- با قابل دریافتند؟ یک کلمه جا نیفتاده؟ ▬ حجت/بحث ۱۱:۳۳، ۱۷ ژوئیه ۲۰۰۷ (UTC)
- مقالههای ویکیسازینشده و مقالههای ردهبندی نشده با قابل دریافتاند. در مورد رشد هم همین که آمارگیری را هر هفته تکرار کنیم کافیاست. بهآفرید ۰۹:۵۵، ۱۷ ژوئیه ۲۰۰۷ (UTC)
- این یکی مشکوک است. به متن مقاله دسترسی ندارم که NOT LIKE کنم برای دستور رده. جستجوی در جدول ردهها را باید امتحان کنم.
- یا مثلاً حد پایین سن متوسط مقالههای بدون منبع چقدر است. یعنی به طور متوسط از آخرین ویرایش مقالههایی که برچسب بدون منبع خوردهاند چقدر میگذرد.
- نفهمیدم. توضیح بدهید.
- از آنجا به راحتی نمیتوان فهمید که یک مقاله کی برچسب خوردهاست میتوان اینطوری تخمین زد که آخرین ویرایش انسانی برچسبزنی بودهاست. منتها با تخمین اینطوری حد پایین سن به دست میآید یعنی دوران برچسب خوردگی «بیشتر زا یا مساوی این مقدار» است. حدس من این است که سن مقالههای بدون منبع نسبتاً زیاد است چون مقالههای بدون منبع معمولاً بعد از خوردن این برچسب رها میشوند و یا کسی از اول آنها را بازنویسی میکند یا همینطوری خاک میخورند.
- نفهمیدم. توضیح بدهید.
- تعداد مقالههایی که رشد ناگهانی داشتهاند (بیشتر +۲۰۰۰۰) و در آنها نسبت اندازه به طول تاریخچه بسیار بالاست میتواند جالب باشد. یعنی مقالههایی با تاریخچههای (انسانی) کوتاه و حجم زیاد مطلب که به احتمال خیلی زیاد کپیکاری را میرساند.
- تغییر در طول صفحه در پایگاه داده ذخیره نمیشود. جستجوی مقایسهای (محاسبه تفاضل طول برای هر ویرایش) در حجم وسیع (کل مقالات) بسیار به سرور فشار میآورد و مجاز به انجامش نیستم. اما شاید یک کار دیگر بشود کرد: dump پایگاه داده را دانلود کنم و روی دستگاه منزل آزمایش را انجام بدهم. ایرادش دو چیز است: سایز فایل خیلی بزرگ است، و تازه وقتی از حالت فشرده خارجش کنم، احتمالاً به چندین گیگابایت میکشد، که فعلاً جایش را ندارم. به علاوه، برای یک پایگاه نقلی مثل Test Wikipedi دو ساعت وقت برد تا روی سیستمم نصبش کردم. مال ویکیپدیای فارسی احتمالاً بیش از ۲۴ ساعت زمان میبرد، و من این کاره نیستم.
- باشد. یک کار همچنان مفید ولی نه بهاندازه مفید این تواند بود مقالههایی که نسبت حجم به ویرایشهای انسانیشان ( و غیرجزئیشان) بیشتر از۱۰۰۰۰ یا چنین چیزیاست فهرست کرد. البته یکجورهایی میشود مورد بعدی!
- یک کار دیگر هم میشد کرد. اگر هدف ما تغییر اندازه بالای (مثلاً) ۲۰۰۰۰ باشد، اول کافی است که فقط ویرایشهایی را پیدا کنیم که سایزشان بیش از این عدد است. قطعاً تعدادی از اینها در اثر تکمیل تدریجی حاصل شدهاند، اما باز هم، همین فیلتر کردن اول کار، کمک بزرگی است. بعد میشود یک کار دوم بکنم: من به غیر از سرورهای ویکی، یک دیتابیس اختصاصی هم برای خودم دارم، میشود که تمام diff های لازم را برای این مقالات حساب کنم و توی این بریزم (اگر خیلی دهان سرور را صاف نکند البته). بعد توی این جستجو کنیم. منتها کماکان خوب میشود که محدودهٔ زمانی هم بگذاریم (مثلاً دو ماه اخیر).
- باشد. یک کار همچنان مفید ولی نه بهاندازه مفید این تواند بود مقالههایی که نسبت حجم به ویرایشهای انسانیشان ( و غیرجزئیشان) بیشتر از۱۰۰۰۰ یا چنین چیزیاست فهرست کرد. البته یکجورهایی میشود مورد بعدی!
- تغییر در طول صفحه در پایگاه داده ذخیره نمیشود. جستجوی مقایسهای (محاسبه تفاضل طول برای هر ویرایش) در حجم وسیع (کل مقالات) بسیار به سرور فشار میآورد و مجاز به انجامش نیستم. اما شاید یک کار دیگر بشود کرد: dump پایگاه داده را دانلود کنم و روی دستگاه منزل آزمایش را انجام بدهم. ایرادش دو چیز است: سایز فایل خیلی بزرگ است، و تازه وقتی از حالت فشرده خارجش کنم، احتمالاً به چندین گیگابایت میکشد، که فعلاً جایش را ندارم. به علاوه، برای یک پایگاه نقلی مثل Test Wikipedi دو ساعت وقت برد تا روی سیستمم نصبش کردم. مال ویکیپدیای فارسی احتمالاً بیش از ۲۴ ساعت زمان میبرد، و من این کاره نیستم.
- تعداد متوسط مشارکتکنندگان در هر مقاله با لحاظ احتمالی حجم مقاله. مثلاً به طور متوسط چند نفر انسان در هر مقالهٔ ویکیپدیا مشارکت میکنند. یا در مقالههایی با حجم متوسط بین ۱۵ تا ۳۵ کیلوبایت چند نفر مشارکتکننده وچود میدارند. یا در حالتی کلیتر چنددرصد از مقالههای ویکیپدیا بین فلانتعداد تا بهمان تعداد مشارکتکننده میدارند. این شاخص میتواند میزان همکاری جمعی را برساند.
- همچنین میتوان ضریب نفوذ و دایرهٔ فعالیت کاربران فعال و دائمی را در ویکیپدیا تخمین زد. مثلاً چنددرصد از کاربران در چند درصد از صفحههایی که در طول ماه ویرایش میشود مشارکت داشتهاند. مثلاً اگر ده کاربر فعال ویکیپدیا تنها در ۵٪ کل صفحههایی که در ماه ویرایش میشود فعالیت داشتهاند ضریب نفوذشان پایین و دایرهٔ مشارکتشان محدود است.
- این را کمی فرمولهتر شده به من بفهمانید.
- مثلاً N کاربر فعالتر ویکیپدیا را در نظر بگیرید و ببنید که مجموعهٔ ویرایشهای ایشان چند صفحهٔ متمایز را شامل میشود. این تعداد را A بنامید. تعداد کل صفحههای متمایزی که در ماه قبل ویرایش شدهاند را در نظر بگیرید. این تعداد را B بنامید.
ضریب نفوذ این N کاربر است. همچنین میتوان سؤالاتی این چنینی مطرح کرد که چند کاربر فعالتر ویکیپدیا لازم است یا (چه درصدی از کاربران فعال لازم است) تا مثلاً ۹۰٪ صفحههای ویرایش شده پوشش داده شود. یک سناریو این است که چند کاربر فعال ویکیپدیا فقط مشغول جنگ ویرایشی در چند صفحهٔ انگشتشمارند بنابراین ضریب نفوذ بسیار پایینی میدارند. بهآفرید ۰۹:۵۵، ۱۷ ژوئیه ۲۰۰۷ (UTC)
- افتاد! این هم به چشم.
- مثلاً N کاربر فعالتر ویکیپدیا را در نظر بگیرید و ببنید که مجموعهٔ ویرایشهای ایشان چند صفحهٔ متمایز را شامل میشود. این تعداد را A بنامید. تعداد کل صفحههای متمایزی که در ماه قبل ویرایش شدهاند را در نظر بگیرید. این تعداد را B بنامید.
- این را کمی فرمولهتر شده به من بفهمانید.
- همچنین میتوان متوسط زمان بیالتفاتی به مقالهٔ جدید را تعیین کرد. یعنی به طور متوسط بین اولین ویرایش آفرینندهٔ مقاله و اولین ویرایش شخص (نه ربات) دیگر چقدر فاصلهاست.
- باید تمام رباتهای فعال را اول exclude کنم. فعلاً مشغولیتم همین است.
توجه:امضای بهآفرید در این زیر برداشته شد، تا این شائبه ایجاد نشود که تمام نوشتههای بالا کار او بوده!
- عالی بود! کلی کیف کردم از ایدهها. طول میکشد که اجرایی شوند. برای برخی هم مشکل داریم، مثلاً پایگاه داده خودش «تازهکار» بودن کاربر را علامت نمیزند، و باید برای هر مقاله که ایجاد میشود، در مورد ایجاد کننده خودم برود در Log ها جستجو کنم و اینها. کم کم پاسخ میدهم ▬ حجت/بحث ۰۸:۴۲، ۱۷ ژوئیه ۲۰۰۷ (UTC)
- تازهکار بودن کاربران را میتوانید با شمارهٔ کاربری ویژهشان هم پیدا کنید. مثلاً شمارهٔ کاربری حساب Behaafarid چهارهزار و خردهایاست که در واقع میشود کاربر چهارهزار خردهامی که حساب باز کردهاست. خلاصه این هم یک روش است. گفتم با این امید که شاید به کار آید. بهآفرید ۰۹:۵۵، ۱۷ ژوئیه ۲۰۰۷ (UTC)
- در مورد آنها که گفتید برخی را همان بالا توضیح میدهم. راستی شما دانش SQL دارید؟ ▬ حجت/بحث ۰۹:۰۴، ۱۷ ژوئیه ۲۰۰۷ (UTC)
- در دوران لیسانس یک درس سه واحدی relational database برداشتهام. ولی تا حالا استفادهٔ خفن از SQL نکردهام در حد فهرستبندی کتابها و فیلمها و انجام پروژههای کدزنی شخصی. تا حالا datamining اساسی نکردهام. بهآفرید ۰۹:۳۱، ۱۷ ژوئیه ۲۰۰۷ (UTC)
- در مورد آنها که گفتید برخی را همان بالا توضیح میدهم. راستی شما دانش SQL دارید؟ ▬ حجت/بحث ۰۹:۰۴، ۱۷ ژوئیه ۲۰۰۷ (UTC)
- تازهکار بودن کاربران را میتوانید با شمارهٔ کاربری ویژهشان هم پیدا کنید. مثلاً شمارهٔ کاربری حساب Behaafarid چهارهزار و خردهایاست که در واقع میشود کاربر چهارهزار خردهامی که حساب باز کردهاست. خلاصه این هم یک روش است. گفتم با این امید که شاید به کار آید. بهآفرید ۰۹:۵۵، ۱۷ ژوئیه ۲۰۰۷ (UTC)

