מיקרוסופט חושפת מודל AI שונה באופן קיצוני ... ויעיל באופן מפתיע

חוקרים ממיקרוסופט טוענים שיש להם את המודל הגדול של השפה (LLM) במהירות אחת, או "Bitnetהחזק ביותר עד היום. נקרא Bitnet B1.58 2B4T, הוא כל כך יעיל עד שככל הנראה יכול להדליק מעבד.

כל דגמי ה- AI בנויים סביב קבוצה של משקל והטיה, ערכים דיגיטליים המגדירים את חשיבות הקשר בין הנוירונים הווירטואליים השונים המרכיבים את הרשת. ערכים אלה מאוחסנים במספרי פסיקים צפים (אוצףבז'רגון תכנות) שמספר העשרונים, ולכן הדיוק, תלוי במספר הקטעים המיוחסים לה. משקל מקודד בלָצוּףב -16 פיסות, למשל, יהיה מדויק בהרבה ממשקל 8 -bit.

זה יכול לעשות הבדל ניכר בתהליך ההסקה - פעולות דרכם מודל AA שכבר מאומן משיג תחזיות מנתונים חדשים. ככל שערכי המשקל המדויקים יותר, כך המודל יכול להגיע באופן תיאורטי למסקנות קוהרנטיות ואיכותיות. אבל יש גב של המדליה:ככל שפרמטרים אלה מדויקים יותר, ככל שכוח המחשוב וכמות הזיכרון הנדרשת לטיפול בהם גדלים.

זה דוחף את המפתחים לבחור בחירה מוחלטת: האם עלינו להעדיף ביצועים או יעילות גולמית? ה- LLM המתקדם, כמו GPT, בוחר באופן מסורתי בפרמטרים במהירות של 16 או 32 ביטים, ולכן נותן עדיפות לביצועים על חשבון המשאבים הדרושים. אבל יש גם קטגוריה נוספת של דגמים, המכונהBitnets, כאשר מספר הביטים המוקצה לכל פרמטר הואמופחת למינימום החשוףלהעדיף יעילות. במהות, זהו ה- LLM הדחוס בו היכןכל משקל מקודד בקטע יחיד -ואפילו קצת יותר במציאות (ראה להלן). במקום לעבוד עם ערכים ניואנסים, כמו 1,0494098344, דגמים אלה מסתפקים רק בשלושה ערכי משקל אפשריים: -1, 0, et 1.

באופן מסורתי, Cadors AI התעלמו לעתים קרובות על סיביות אלה, שנחשבו לא מתקרבות מדי בהשוואה לתקני התעשייה. אולם כעת מיקרוסופט טוענת ששינתה את המצב עם שלוBitnet B1.58 2B4T, עם כ -2 מיליארד פרמטרים ב" 1.58 סיביות ", כפי ששמו מרמז.

אם המשפט הזה גרם לך לתקתק, זה נורמלי לחלוטין: שברים הקטעים אינם קיימים. בפועל, ביט יחיד יכול לאחסן רק שני ערכים (0 ו- 1), ולרשום ערך שלישי (-1), להשתמש בשלון יד אלגוריתמי קטן הנקרא כימות טרנרי (ראהמאמר מחקר זה). זוהי טכניקת קידוד המאפשרת לדחוס את כל המשקולות. בהיקף הדגם כולו, כל ערך משקל תופס אפוא קצת יותר ממסגרת אחת בממוצע - 1.58, במקרה זה.

סוף סוף BITNET חזק

נראה שהוא מציע ביצועים מכובדים לחלוטין ואפילו מרשימים מאוד כשאתה מחשיב את הגבולות הגלומים בסוג זה של מודל. יש להודות, זה רחוק מלהתמודד עם ה- GPT של Openai, שהגרסה האחרונה שלה משתמשת בסביבות 1750 מיליארד פרמטרים של 16 -סיביות. אולם החוקרים של מיקרוסופט טוענים כי הוא עולה על LLAMA 3.2 1B של מטא, ג'מה 3 1B מגוגל, ו- QWEN 2.5 1.5B של עליבאבא על כמה מדדים נפוצים.

והיתרונות שלה אינם מוגבלים לביצועים גולמיים. זה גם מהיר יותר מכל הדגמים האחרים באותו גודל, ודורש כמות זיכרון נמוכה ברובה. למעשה, זה כל כך יעיל שהוא יכול אפילו להפעיל מעבד יחיד. זה אולי נראה טריוויאלי, אבל זה הבדל עצום בהשוואה ל- GPT ואחרים, המנצלים GPUs רבים כדי לבצע מחרוזת פעולות במקביל.

מוצר שעדיין לא בוגר, אלא מבטיח

עם זאת יש חסרון: התְאִימוּתו בדףחיבוק משטח כאשר הדגם זמין, מיקרוסופט מתעקשת על העובדה שיש צורך להיותציוד מיוחד ומותאם מאודכדי להשתמש בביצועים של Bitnet זה. במילים אחרות, ישנם מכשולים רבים לדמוקרטיזציה של LLMs דחוסים אלה.

אבל זו עדיין התקדמות משמעותית, ומעניין יהיה לראות עד כמה חברות יוכלו לדחוף את הביצועים של הדגמים הקטנים הללו בעתיד.

🟣 לא להחמיץ שום חדשות בעיתון החנון, הירשםחדשות גוגלואילךWhatsApp שלנוו ואם אתה אוהב אותנו, יש לנועלון כל בוקרו