ויקיפדיה:מזנון/תיקון מקפים ממוכן

מתוך ויקיפדיה, האנציקלופדיה החופשית

בדף זה מרוכזת העבודה לתיקון ממוכן של מקרים בהם יש צורך במקף, אך הוא חסר, השימוש בו לא נכון, או מופיע במקומו קו מפריד.

תוכן עניינים

[עריכה] הקדמה

ויקיפדיה מלאה בטעויות שנוגעות לשימוש שגוי במקף ובקו מפריד.

הנה מספר דוגמאות:

  • יצחק שמיר - נולד ב-15 באוקטובר 1915 במקום נולד ב־15 באוקטובר 1915
  • POP3 - לPOP3 וגם ו- POP2 במקום ל־POP3 וגם ו־POP2
  • פונקציה - ו"מיפוי" במקום ו־"מיפוי"

אפשרי שחלק מהויקיפדים כלל לא רואה את ההבדל, שכן שני תווים אלו נראים זהים בגופנים מסויימים (לפעמים נדמה שטיפוגרפיה היא הדבר היחיד בשפה העברית שלא קם לתחייה).

אין כמובן אפשרות לתקן טעויות אלו ידנית, אלא אם יוקם האסם הגדול בהיסטוריה (קרוב ל־100,000 תיקונים). אך מדוע להקים אסם, כשמחשב יכול לבצע את התיקונים הנדרשים ברמת דיוק טובה, אולי אפילו טובה מאד.

[עריכה] שלבי עבודה

כדי לבצע תיקון כזה בצורה ממוכנת, יש להשלים מספר שלבים:

  1. אפיון סוגי הטעויות והתיקונים הנדרשים עבור כל סוג טעות.
  2. פיתוח ובדיקה נרחבת של כלי או כלים לגילוי הטעויות ותיקונן, תוך הבאה בחשבון של קוד־ויקי.
  3. אישור שימוש בכלי כזה בויקיפדיה:בוטים/בוט החלפות/אולם דיונים.
  4. שילוב הכלי הנ״ל בבוט עריכה, והרצתו.

[עריכה] דיונים והתיחסויות

דיונים, התיחסויות, שאלות, וכל טוב בדף השיחה.

[עריכה] אפיון הטעויות והתיקונים להן

להלן מספר כללים:

  • בין ביטוי בעייתי לבין מספר יופיע מקף.
  • בין ביטוי בעייתי לבין מילה בשפה שנכתבת ב־"כתב אחר" יופיע מקף.
  • בין ביטוי בעייתי לבין ביטוי במרכאות יופיע מקף.
  • מקף יופיע תמיד ללא רווחים לפניו ולאחריו.

"ביטוי בעייתי" לצורך זה הוא ארבעת אותיות בכל״מ בתוספת ה״א הידיעה ו־ו״ו החיבור, וכל צרוף תקין שלהן, לדוגמא 'וה־', 'כש־' וכו׳. ראו גם הערך אודות אותיות השימוש.

בנושא זה פעלתי על פי כללים שאני מכיר. בקיאים ממני בכללי הפיסוק מוזמנים כמובן להעיר. הא? 19:42, 9 ינואר 2006 (UTC)

[עריכה] פיתוח ובדיקה

הוויקיפד אסף השקיע מספר שעות ביצירת ובדיקת ביטוי רגולרי, שימצא מקרים בהם חסר מקף (בין אם מופיע קו מפריד במקומו, ובין אם לאו). הביטוי הרגולי הנ״ל (להלן ברע״מ־1 או ביטוי רגולי עבור מקף 1) גם מספק את הדרוש לתיקון ממוכן על־ידי בוט עריכה.

אחד הקווים המנחים בעת העבודה על ברע״מ־1 היה לסמן כמה שפחות מקרים תקינים כמקרי טעות (כלומר "התרעות שווא"). השאיפה למינימום התרעות שווא לעיתים חייבה צמצום במספר "מקרי האמת" שימצאו על־ידי ברע״מ־1.

[עריכה] מימוש

הפיתוח בוצע בסביבת Perl בגרסה 8.6, שמאפשרת שימוש נוח ביוניקוד. הנה הביטוי הרגולרי בגרסתו הנוכחית, עם הסבר מסויים.

(?<!"|״) ‎# לא מרכאות או גרשיים
\b ‎# נקודת שבירה בין מילים
(ב|כ|ל|מ|ו|ה|וה|וב|ומ|ול|וכ|לכ|לו|למ|מה|מל|מכ|מב|שב|שו|שכ|שה|שמ) ‎# ‏"ביטוי בעייתי" שאין לגביו אמביוולנטיות
(|-|- | -| | - ) ‎# הפרדה סבירה כלשהי, כולל ההפרדה הריקה
( ‎# פתיחת קבוצה
\[(?:http\:\/\/|https\:\/\/|ftp\:\/\/)\S+\s+[0-9A-Za-z]+? ‎# קישור חיצוני, כאשר טקסט הקישור מתחיל בספרה או באות לטינית
| ‎# או
\[\[[0-9A-Za-z]+? ‎# קישורי פנימי, כאשר שם הערך הוא ביטוי שמתחיל בספרה או באות לטינית
| ‎# או
"(?!\S\b) ‎# מרכאות, שאינן התו שלפני האחרון במילה
| ‎# או
'''[0-9A-Za-z]+? ‎# ביטוי בכתב מודגש, כאשר הביטוי מתחיל בספרה או באות לטינית
| ‎# או
[0-9A-Za-z]+? ‎# ביטוי המתחיל בספרה או באות לטינית
) ‎# סגירת קבוצה

הערות:

[עריכה] בדיקות, כולל ביקורת עמיתים

על מנת לאפשר ביקורת עמיתים זמין דוח זה, שנוצר על־ידי תסריט Perl בעזרת ברע״מ־1 בגרסה זו. הדוח לא כולל רבים ממרחבי השמות, ובכלל זה אינו כולל את מרחבי השיחה למיניהם.

[עריכה] בעיות צפויות או ידועות ופתרונן

רשימת בעיות צפויות וידועות, יחד עם אפשרויות שונות לפתרונן, וציון הפיתרון שנבחר. מיותר לציין שהכל פתוח לדיון. הציבור מתבקש לעזור בבחירת הפיתרון המתאים לחלק מהבעיות.

[עריכה] שינויים בקישורים

שינוי קו מפריד למקף בקישור ישבור את הקישור. חמור מכך, שינוי קו מפריד למקף בהכללה של תבנית, ישבור את הכללת התבנית.

פתרונות אפשריים הם:

  1. שינוי הביטוי הרגולרי כך שלא ישנה כלל ביטויים המופעים כקישורים או הכללה של תבניות.
    אפשרי, אך מצמצם את מידת התיקון.
  2. הפעלה קצובה של הבוט, ותיקון קישורים נשברים באופן ידני (אולי בעזרת אסם מיוחד?).
    בנוסף, הימנעות מהכללה של קו מפריד בשמות תבניות.
  3. הפעלה של הבוט על מרחב השמות תחילה, תוך יצירת כל ההפניות הנדרשות.
  4. המתנה לשינוי מתוכנן, שלא ברור כלל מתי יבוצע, ב־MediaWiki, שיעלים את ההבחנה בין תווים שונים המתפקדים או דומים למקף בשפות שונות.
    זה יהיה גם זמן טוב למחוק באופן ממוכן מאות הפניות שיהפכו למיותרות (דוגמת גדודי חללי אל-אקצה לגדודי חללי אל אקצה).

[עריכה] הגדרת "כתב אחר" כוללת רק אותיות לטיניות

כנראה שאין בויקיפדיה העברית שימוש מספיק בשפות שנכתבות בכתב שאינו אלפבית לטיני.

[עריכה] אין תיקון של מקפים לאחר "כתב אחר" וספרות

מקפים המופיעים ברצף בין "ביטוי בעייתי" לבין אותיות בעברית, כפי שמופיעים בדף 'קבוצת קנטור' בהקשר נסמן את הקבוצה שהתקבלה בשלב ה n-י, לא מתגלים.

[עריכה] אישור

פרה פרה.

[עריכה] שילוב בבוט עריכה

בבירור. ראו שימוש בכל ביטוי רגולרי?.

[עריכה] מחשבות לעתיד