מה זה DALL·E 2?

DALL·E 2 היא תוכנית בינה מלאכותית שיוצרת תמונות מתיאורים טקסטואליים, שנחשפה ביום חמישי על ידי OpenAI, חברת מחקר.

הוא משתמש בגרסת אימון של 12 מיליארד פרמטרים של מודל השנאי GPT-3 כדי לפרש את כניסות השפה הטבעית וליצור תמונות מתאימות. לדוגמה, כאשר הוא מסופק עם המשפט 'תמונה בשחור-לבן של כלב קטן', הוא הפיק תמונה בשחור-לבן של צ'יוואווה.

המערכת אינה מושלמת - היא מייצרת לפעמים תמונות שקשה לפרש אותן, או שהן מנותקות לחלוטין. לדוגמה, כאשר התבקש להפיק תמונה של 'אדם רוכב על חד אופן על חבל דק מעל הר געש', זה יצר תמונה (יפה, לדעתי) אבל לגמרי לא קשורה של שקיעה מעל מים עם דמות קטנה בחזית. .

ובכל זאת, התוצאות מרשימות, ו-OpenAI אומר ש-DALL·E 2 'הוא מודל הבינה המלאכותית הראשון שיוצר תמונות מתיאורים טקסטואליים שיכולים להתחרות באיכות של אמנים אנושיים מקצועיים.'

המערכת הוכשרה על מערך נתונים של צמדי טקסט-תמונה, המורכב מכ-1.3 מיליון תמונות וכיתובים מהאינטרנט שנגרדו ואוצרו על ידי OpenAI. לאחר מכן נעשה שימוש בנתוני האימון כדי לכוונן את מודל ה-GPT-3 כך שיוכל ליצור תמונות מתיאורים טקסטואליים.

OpenAI אומר שהמערכת יכולה ליצור תמונות 'איכותיות' ממגוון רחב של תיאורים טקסטואליים, כולל כאלה שהם מופשטים, קונקרטיים או אפילו פיוטיים.

בנוסף לדוגמא של צ'יוואווה, דוגמאות אחרות של תמונות שהופקו על ידי DALL·E 2 כוללות דיוקן מעובד כהלכה של אדולף היטלר, תמונה של דרקון עשוי מירקות ותמונה של המונה ליזה עשויה טוסט.

המערכת מסוגלת גם ליצור תמונות של דברים שאינם קיימים, כמו 'פלוף' (חיה מאופרת) או 'טולפה' (צורת מחשבה).

בסך הכל, התוצאות מרשימות, ו-OpenAI אומר שהמערכת 'פותחת אפשרויות חדשות ליצירת תמונות מתיאורים טקסטואליים'.

מ-E 2 זֶה מערכת CLIP ממירה מידע טקסט למידע חזותי. זוהי פרדיגמת מקודד-מפענח, שמשמעותה שכאשר מסופק טקסט קלט, הוא מומר תחילה לקלט מכונה, לאחר מכן מעובד על ידי המערכת, ולבסוף מועבר למפענח, אשר ממיר את הנתונים המקודדים לתמונה.

מה זה DALL E 2

מה זה DALL·E 2?

זהו הדור האחרון של DALL·E, מודל שפה גנרטיבי המשתמש בביטויים כדי ליצור אפקטים חזותיים חדשים לחלוטין. ה-DALL E 2 הוא דגם ענק של 3.5V, אם כי לא מסיבי כמו ה-GPT-3. מעניין לציין שהוא גם קל יותר מקודמו (12B). במונחים של יישור תיאור ופוטוריאליזם, DALL·E 2 טוב ב-70% מ-DALL·E 2 למרות גודלו הגדול יותר.

DALL.E 2- הסבר למתחילים עם דוגמאות

באופן ספציפי, DALL·E 2 הוא מודל סינתזת תמונת טקסט מותנית היררכית המשלב למידה עמוקה לעיבוד שפה טבעית עם ראייה ממוחשבת ליצירת תמונה. המטרה שלו היא להכשיר שני דגמים, וערכת האימונים מורכבת מתמונות ותיאורים זוגיים. הראשון הוא אפריורי שניתן לאמן, בהינתן כותרת כתובה, ליצור הטבעת תמונת CLIP. אז יש לנו מפענח שכאשר מטביעים תמונת CLIP (וכיתוב, אם קיים), יכול ליצור תמונה מאומנת.

DALLE 2 מאומן באמצעות מאות מיליוני תמונות עם כיתובים מהאינטרנט, וחלק מהתמונות הללו מוסרות ומעורבבות מחדש כדי לשנות את מה שהדגם לומד. זה מאחזר אפשרויות תמונה מרובות קבצי CLIP מצורפים ולאחר מכן להשתמש בו מפענח לעבור על כל אחד מהם. לאחר מכן הוא יוצר שילוב מעניין של כל המידע הזה בהתחשב בקלט של המשתמש.

דוגמה DALL הוא 2

בואו נשחק משחק קטן כדי להבין את DALL·E. בואו נחלק את זה לשלושת השלבים הבאים.

תארו לעצמכם קשתות בענן, עננים וחדי קרן עפים בשמים הכחולים. תארו לעצמכם איך תמונה יכולה להיות בדמיון שלכם. אנשים הם הדבר הכי קרוב שיש לנו לאנלוג המושלם של הטבעת תמונה, והתמונה שרק צצה לראש שלך היא דוגמה מושלמת לכך. אתה יכול רק לנחש לגבי המוצר הסופי, אבל יש לך מושג טוב מה צריך לכלול. המודל האפריורי לוקח את הקורא מהמילים בביטוי לסצנה בדמיונו.
עכשיו אתה יכול להתחיל לצייר. מה ש-unCLIP עושה הוא להמיר את התמונה המנטאלית שלך לסקיצה אמיתית. עכשיו אתה יכול ליצור מחדש דמות אחרת במדויק מאותו תיאור, עם אותם נתונים סטטיסטיים בסיסיים, אבל עם סגנון ויזואלי חדש לחלוטין. DALL·E 2 יכול גם ליצור תמונות ייחודיות מתמונה קיימת המוטמעת בדרך זו.
שימו לב לסקיצה שעשיתם. זה מה שקורה כשאתה משרטט את התיאור של 'חד קרן באמצע העננים, וקשת בענן עולה על השמים'. כעת בחנו את התמונה והטקסט כדי לקבוע מה ממחיש בצורה הטובה ביותר את האחר (שמש, בית, עץ וכו') ומה ממחיש בצורה הטובה ביותר את הנושא, הסגנון, הצבעים וכו'. מה ש-CLIP עושה זה לקודד מאפיינים. טקסט ותמונות.

עכשיו כשאנחנו יודעים מה זה DALL-E, בואו נעבור לסעיף הבא ונבין את התכונות שלו.

עֵצָה: כיצד ליצור תמונות מציאותיות עם שירות AI DALL-E-2

כולל DALL E 2

להלן המפרטים של DALL·E 2.

וריאציות
גִוּוּן
הבדלי טקסט

בואו נדבר עליהם בפירוט.

הסר יישומי Windows 8

1] וריאציות

DALL·E 2 מעבר לתרגום פשוט של משפט לתמונה. OpenAI יכול להתנסות בתהליך היצירתי, ולהפיק תוצאות שונות עבור חתימה נתונה הודות להטמעות CLIP חזקות. מה ש-CLIP 'רואה' ב'מוח' שלו הוא מה שהוא מחשיב כחשוב מהקלט (נשאר זהה עבור כל התמונות) ומה שניתן להחליף (שמשתנה עבור תמונות שונות). במידת האפשר, DALL·E 2 ישמור גם 'מידע משמעותי...והיבטים אסתטיים'.

2] צביעה

DALL·E 2 יכול לשנות תמונות קיימות עם מילוי אוטומטי. בדוגמה הבאה, התמונה השמאלית היא התמונה המקורית, ובתצלומים המרכזיים והימניים מצוירים האלמנט במקומות שונים. DALL·E 2 מתאים אלמנט נוסף לסגנון התמונות. זה גם מעדכן מרקמים והשתקפויות כדי לשקף את האלמנט החדש.

לקרוא : מה אתה יכול לעשות עם ChatGPT

3] הבדלי טקסט

DALL·E 2 ממיר תמונות באמצעות הבדלי טקסט. ל-DALL·E 2 יש גם יכולות אינטרפולציה מתקדמות המאפשרות לך לשנות אובייקטים. משתמש אחד בטוויטר הצליח 'להתיר' את האייפון שלו. twitter.com לבדוק את זה.

אם אתה אוהב את התכונות האלה, כל מה שאתה צריך לעשות הוא ללכת אל openai.com ולאחר מכן להירשם. אתה יכול ליצור חשבון חדש או להשתמש בחשבונות Microsoft או Google הקיימים שלך כדי להירשם. ברגע שתעשה את זה, תקבל כמה זיכויים בחינם, אם אתה רוצה יותר, אתה צריך לשלם עבור זה.

אלו חלק מהתכונות של DALL·E 2, יש לו הרבה מקרי שימוש נהדרים, אולם תמיד מומלץ לא להסתמך יותר מדי על כלי בינה מלאכותית. אחרי הכל, הם אינם אלא כלים המשמשים לביצוע העבודה, הם לעולם אינם יכולים להחליף את האינטליגנציה הרגשית של אדם.

קרא גם: האפליקציות, התוכנות והאתרים הטובים ביותר של Deepfake.