מה חדש ב-WebGPU (Chrome {8/}120)

François Beaufort
François Beaufort

תמיכה בערכי נקודה צפה (floating-point) של 16 ביט ב-WGSL

ב-WGSL, ‏ הסוג f16 הוא קבוצת הערכים של נקודה צפה בגודל 16 ביט בפורמט binary16 (חצי דיוק) של IEEE-754. המשמעות היא שהיא משתמשת ב-16 ביטים כדי לייצג מספר נקודה צפה, בניגוד ל-32 ביטים עבור נקודה צפה רגילה עם דיוק יחיד (f32). הגודל הקטן יותר הזה יכול להוביל לשיפורים משמעותיים בביצועים, במיוחד כשמעבדים כמויות גדולות של נתונים.

לשם השוואה, במכשיר Apple M1 Pro, ההטמעה של f16 מודלים של Llama2 7B שנעשה בה שימוש בהדגמה של צ'אט WebLLM מהירה משמעותית מההטמעה של f32, עם שיפור של 28% במהירות המילוי המקדים ושיפור של 41% במהירות הפענוח, כפי שמוצג בצילומי המסך הבאים.

צילום מסך של הדגמות של צ'אט ב-WebLLM עם מודלים של f32 ו-f16 Llama2 7B.
הדגמות של צ'אט ב-WebLLM עם מודלים של Llama2 7B‏ f32 (מימין) ו-f16 (משמאל).

לא כל המעבדים הגרפיים תומכים בערכים של נקודה צפה (floating-point) של 16 ביט. אם התכונה "shader-f16" זמינה ב-GPUAdapter, עכשיו אפשר לבקש GPUDevice עם התכונה הזו וליצור מודול הצללה של WGSL שמנצל את סוג הנקודה הצפה בחצי דיוק f16. אפשר להשתמש בסוג הזה במודול של WGSL shader רק אם מפעילים את התוסף f16 WGSL באמצעות enable f16;. אחרת, הפונקציה createShaderModule() תיצור שגיאת אימות. אפשר לעיין בדוגמה המינימלית הבאה ובבעיה dawn:1510.

const adapter = await navigator.gpu.requestAdapter();
if (!adapter.features.has("shader-f16")) {
  throw new Error("16-bit floating-point value support is not available");
}
// Explicitly request 16-bit floating-point value support.
const device = await adapter.requestDevice({
  requiredFeatures: ["shader-f16"],
});

const code = `
  enable f16;

  @compute @workgroup_size(1)
  fn main() {
    const c : vec3h = vec3<f16>(1.0h, 2.0h, 3.0h);
  }
`;

const shaderModule = device.createShaderModule({ code });
// Create a compute pipeline with this shader module
// and run the shader on the GPU...

אפשר לתמוך גם בסוגים f16 וגם בסוגים f32 בקוד של מודול ההצללה של WGSL באמצעות alias, בהתאם לתמיכה בתכונה "shader-f16", כמו שמוצג בקטע הקוד הבא.

const adapter = await navigator.gpu.requestAdapter();
const hasShaderF16 = adapter.features.has("shader-f16");

const device = await adapter.requestDevice({
  requiredFeatures: hasShaderF16 ? ["shader-f16"] : [],
});

const header = hasShaderF16
  ? `enable f16;
     alias min16float = f16;`
  : `alias min16float = f32;`;

const code = `
  ${header}

  @compute @workgroup_size(1)
  fn main() {
    const c = vec3<min16float>(1.0, 2.0, 3.0);
  }
`;

ללכת עד הקצה

מספר הבייטים המקסימלי שנדרש כדי להכיל דגימה אחת (פיקסל או תת-פיקסל) של נתוני פלט של צינור העיבוד, בכל מצורפי הצבעים, הוא 32 בייטים כברירת מחדל. עכשיו אפשר לבקש עד 64 באמצעות המגבלה maxColorAttachmentBytesPerSample. אפשר לעיין בדוגמה הבאה ובבעיה dawn:2036.

const adapter = await navigator.gpu.requestAdapter();

if (adapter.limits.maxColorAttachmentBytesPerSample < 64) {
  // When the desired limit isn't supported, take action to either fall back to
  // a code path that does not require the higher limit or notify the user that
  // their device does not meet minimum requirements.
}

// Request highest limit of max color attachments bytes per sample.
const device = await adapter.requestDevice({
  requiredLimits: { maxColorAttachmentBytesPerSample: 64 },
});

המגבלות maxInterStageShaderVariables ו-maxInterStageShaderComponents שמשמשות לתקשורת בין שלבים הוגדלו בכל הפלטפורמות. פרטים נוספים מופיעים בבעיה dawn:1448.

בכל שלב של הצללה, מספר הרשומות המקסימלי בפריסת קבוצת האיגוד בפריסת צינור, שהן מאגרי אחסון, הוא 8 כברירת מחדל. מעכשיו אפשר לבקש עד 10 משתמשים באמצעות המגבלה maxStorageBuffersPerShaderStage. מידע נוסף

נוספה מגבלה חדשה של maxBindGroupsPlusVertexBuffers. הוא מורכב מהמספר המקסימלי של משבצות של קבוצות קשירה ומאגרי קודקודים שנעשה בהם שימוש בו-זמנית, כולל משבצות ריקות מתחת לאינדקס הגבוה ביותר. ערך ברירת המחדל הוא 24. מידע נוסף

שינויים במצב סטנסיל עומק

כדי לשפר את חוויית המפתחים, כבר לא תמיד נדרשים המאפיינים depthWriteEnabled ו-depthCompare של מצב השבלונה של העומק: המאפיין depthWriteEnabled נדרש רק לפורמטים עם עומק, והמאפיין depthCompare לא נדרש לפורמטים עם עומק אם לא נעשה בו שימוש בכלל. מידע נוסף

עדכונים במידע של מתאמים

עכשיו אפשר לקבל מאפייני מידע של מתאמים לא סטנדרטיים type ו-backend באמצעות קריאה ל-requestAdapterInfo() אם המשתמש הפעיל את הדגל 'תכונות למפתחים של WebGPU' בכתובת chrome://flags/#enable-webgpu-developer-features. הערך של type יכול להיות 'discrete GPU',‏ 'integrated GPU',‏ 'CPU' או 'unknown'. הערך של backend הוא WebGPU,‏ D3D11,‏ D3D12,‏ metal,‏ vulkan,‏ openGL,‏ openGLES או null. מידע נוסף

צילום מסך של https://webgpureport.org שבו מוצגים פרטים על המתאם, כולל backend וסוג.
פרטי המתאם (Adapter) והסוג שלו מוצגים בכתובת https://webgpureport.org.

הפרמטר האופציונלי unmaskHints list ב-requestAdapterInfo() הוסר. מידע נוסף

קוונטיזציה של שאילתות שכוללות חותמות זמן

שאילתות של חותמות זמן מאפשרות לאפליקציות למדוד את זמן הביצוע של פקודות GPU ברמת דיוק של ננו-שנייה. עם זאת, מפרט WebGPU קובע ששאילתות של חותמות זמן הן אופציונליות בגלל חששות לגבי מתקפות תזמון. צוות Chrome מאמין שכימות של שאילתות חותמות זמן מספק פשרה טובה בין דיוק לאבטחה, כי הוא מקטין את הרזולוציה ל-100 מיקרו-שניות. מידע נוסף

ב-Chrome, המשתמשים יכולים להשבית את הכמות של חותמות הזמן על ידי הפעלת הדגל 'תכונות למפתחים של WebGPU' ב-chrome://flags/#enable-webgpu-developer-features. שימו לב שהדגל הזה לבדו לא מפעיל את התכונה "timestamp-query". ההטמעה שלו עדיין ניסיונית, ולכן נדרש הדגל Unsafe WebGPU Support (תמיכה לא בטוחה ב-WebGPU) בכתובת chrome://flags/#enable-unsafe-webgpu.

ב-Dawn, נוסף מתג מכשיר חדש בשם timestamp_quantization, שמופעל כברירת מחדל. בקטע הקוד הבא אפשר לראות איך מאפשרים את התכונה הניסיונית timestamp-query בלי כימות של חותמת הזמן כשמבקשים מכשיר.

wgpu::DawnTogglesDescriptor deviceTogglesDesc = {};

const char* allowUnsafeApisToggle = "allow_unsafe_apis";
deviceTogglesDesc.enabledToggles = &allowUnsafeApisToggle;
deviceTogglesDesc.enabledToggleCount = 1;

const char* timestampQuantizationToggle = "timestamp_quantization";
deviceTogglesDesc.disabledToggles = &timestampQuantizationToggle;
deviceTogglesDesc.disabledToggleCount = 1;

wgpu::DeviceDescriptor desc = {.nextInChain = &deviceTogglesDesc};

// Request a device with no timestamp quantization.
myAdapter.RequestDevice(&desc, myCallback, myUserData);

תכונות של ניקיון כללי

התכונה הניסיונית timestamp-query-inside-passes קיבלה את השם החדש chromium-experimental-timestamp-query-inside-passes כדי להבהיר למפתחים שהתכונה הזו ניסיונית וזמינה כרגע רק בדפדפנים שמבוססים על Chromium. מידע נוסף

התכונה הניסיונית pipeline-statistics-query, שההטמעה שלה הייתה חלקית בלבד, הוסרה כי הפיתוח שלה הופסק. מידע נוסף

המידע הזה כולל רק נקודות עיקריות. רשימה מלאה של קומיטים

מה חדש ב-WebGPU

רשימה של כל הנושאים שמופיעים בסדרת המאמרים מה חדש ב-WebGPU.

Chrome 143

Chrome 142

Chrome 141

Chrome 140

Chrome 139

Chrome 138

Chrome 137

Chrome 136

Chrome 135

Chrome 134

Chrome 133

Chrome 132

Chrome 131

Chrome 130

Chrome 129

Chrome 128

Chrome 127

Chrome 126

Chrome 125

Chrome 124

Chrome 123

Chrome 122

Chrome 121

Chrome 120

Chrome 119

Chrome 118

Chrome 117

Chrome 116

Chrome 115

Chrome 114

Chrome 113