由於工作上長期都接觸緊 GenAI,第一下睇完條片嘅反應係:「個 Prompt 都未 Optimize 😂」

0:00
/1:17

影片出處:https://x.com/blizaine/status/1868850653759783033

💡
以下並不是指原帖作者有問題,而是分享我怎樣去看 GenAI 以及常見的問題

非學術 GenAI 一次性「公平」測試

見過好多非學術 GenAI 一次性「公平」測試,操作通常係用一個首選模型,前前後後改咗 N 次 prompt ,調整到出靚效果之後,再將個 prompt 放去其它模型「公平」測試,然後得出最後結論決定用哪一個模型,如下圖:

但現時 GenAI video generation 非常依賴 best effort prompt engineering,測試時冇 best effort 就只是 by chance,所以用 1 個 prompt 測試 N 個模型並不是理想測試方法,有極大機會改少少 prompt 之後,生成效果有顯著改善。

言而大部份模型設計或訓練時已經預設有說明書,介紹如何 prompt engineering best practice、解釋不同設定如何影響 generation,但始終人類時間有限,今天 generate 一條 6 秒 video 最少要幾分鐘,如果以下 8 個 GenAI tool 都試 30 次(改 prompt 改 config)嘅話,連同學習及應用 best practices,時間成本太高,不符合出 social post 成本效益。

相對公平方法?

每個 tools 都由「對應專家」花使用相同時間做 N 個 prompt

「對應專家」- LLM

「對應專家」現時最理想是一個 GenAI 再給它 prompting guideline + samples 學習,同時 parallel generate N 個 prompt 再 generate N videos,如下圖:

GenAI 沮喪的地方 - 找 Open Question 的答案

GenAI 時代最尷尬又令人沮喪嘅地方:「模型未必真係做唔到,只係個 Prompt/設定未調較得到。」換句話說,如要用 GenAI 解決一個複雜問題:

由揀模型到 prompt engineering,喺未做到之前都係一條冇正確答案嘅 Open Question。

用一啲 text-to-any 嘅 GenAI 工具,盡可能都會用 LLM generate 一啲 idea 或方向去解決一啲問題,再整合一啲 GenAI 工具說明書列出黎嘅 best practice 及 samples 去 generate 新 prompt。