生成式 AI：瞭解基礎概念

Gen AI: Unlock Foundational Concepts｜Google Cloud Skills Boost｜時長 1.5 小時｜入門級

一、AI、ML、生成式 AI 怎麼區分
二、為什麼資料是 AI 的核心
三、機器學習的三種學習類型
四、Google Cloud 如何把資料變成模型
五、基礎模型是什麼？Google 四大模型怎麼選
六、基礎模型的限制與克服技巧
七、安全的 AI vs 負責任的 AI
八、術語速查表

一、AI、ML、生成式 AI 怎麼區分

三個詞常被混用，但範圍其實是包含關係。

範圍	名稱	一句話	範例
最大	AI（人工智慧）	讓機器執行通常需要人類智慧才能做的事	學習、解決問題、做決定
中	ML（機器學習，Machine Learning）	達成 AI 的方法之一，用資料訓練機器完成特定工作	垃圾郵件分類、房價預測
小	生成式 AI（GenAI）	ML 的一個分支，專門用來創造新內容	ChatGPT、Imagen 圖像生成

核心判斷邏輯

傳統 AI 分析資料做預測（這封信是不是垃圾郵件），生成式 AI 用資料創造新內容（畫一張新的貓圖）。差別在「分類 vs 創造」。

「模型」是什麼？

模型 = 以資料建構而成的數學方程式。同一個演算法 + 不同資料 → 不同模型。

比喻

教小朋友畫畫的兩種方式：

傳統 AI：給孩子看一幅畫，告訴他「這就是好作品的特徵」，他根據規則判斷

生成式 AI：讓孩子看大量畫作 + 給畫筆顏料，請他自己創作新的

為什麼 2022 年突然爆紅？

技術不新，但兩件事同時發生：

大型語言模型（LLM）變得異常聰明 —— 能理解複雜概念、生成像人寫的文字
運算能力普及 —— 訓練與部署的算力門檻大幅降低

二、為什麼資料是 AI 的核心

ML 模型 = 根據過去資料預測未來，跟人類「靠經驗猜」一樣，差別在於模型用的是機率而不是直覺。

資料品質越差 → 模型學到錯誤模式 → 預測越不準。即使演算法再精密也救不回來。

1. 資料品質：五個必看要素

要素	意思	出問題會怎樣
準確率（Accuracy）	資料正確無誤	用標錯動物的圖鑑教 AI → 學到錯的模式
完整度（Completeness）	資料量夠、樣本夠多	只用昨天的資料預測天氣 → 不準
代表性（Representativeness）	涵蓋多元客層、不漏掉群體	缺特定族群資料 → 結果有偏誤
一致性（Consistency）	格式、標籤統一	拼圖一半標數字一半標字母 → 模型混亂
關聯性（Relevance）	跟任務相關	用倫敦交通預測堪薩斯作物產量 → 沒用

2. 資料可存取性：三個門檻

要素	痛點
可用性（Availability）	資料可能存在但被隱私法規鎖住，或要付錢買
費用（Cost）	收集 + 清理成本可能很高，小機構吃不消
形式（Format）	原始資料未必能直接餵 AI，轉檔可能耗時

3. 結構化 vs 非結構化資料

類型	特徵	範例	儲存方式
結構化	有預定義欄位、能整齊放進列與欄	銷售紀錄、聯絡人清單、銀行對帳單、CSV、醫療紀錄	關聯式資料庫
非結構化	沒預定義結構、形式自由	PDF、電子郵件、社群貼文、圖片、音訊、影片、自由文字評論	物件儲存（如 Cloud Storage）

判斷訣竅

「能不能直接放進 Excel 表格？」——能 → 結構化；不能 → 非結構化。

三、機器學習的三種學習類型

差別只看一件事：模型用什麼樣的資料學？

類型	資料	學什麼	經典範例
監督式學習（Supervised）	標籤資料（每筆輸入都有對應正確答案）	學「輸入 → 輸出」的對應關係	房價預測、垃圾郵件分類
非監督式學習（Unsupervised）	無標籤資料（只有原始資訊）	自己找出隱藏的分組或模式	顧客分群、新聞主題探索
強化學習（Reinforcement）	透過互動 + 回饋（獎勵 / 懲罰）	試錯中學會「怎麼做才能拿最多獎勵」	遊戲 AI、產品推薦

標籤資料 vs 無標籤資料

概念	解釋	例子
標籤資料	每筆資料有名稱、類型或分類標記	圖片標「貓」或「狗」、評論標「正面/負面/中性」
無標籤資料	原始資訊，沒任何標記	未整理的相片集、未分類的網站流量紀錄

易錯點

標籤資料 ≠ 監督式學習。標籤資料是「素材」，監督式學習是「方法」。沒有標籤就只能走非監督式或強化學習。

Google Cloud 上的對應應用

學習類型	GCP 工具	應用範例
監督式	Vertex AI	預測性維護：根據感應器資料預測機器故障時間
非監督式	BigQuery ML	異常偵測：找出與常態差異大的詐欺交易
強化學習	Vertex AI	產品推薦：根據使用者行為動態調整推薦內容

四、Google Cloud 如何把資料變成模型

ML 生命週期五個階段，每個階段都有對應的 GCP 工具。

階段	做什麼	GCP 工具
1. 資料收集（Ingestion）	從各種來源收集原始資料	Pub/Sub（即時串流）、Cloud Storage（非結構化）、Cloud SQL / Cloud Spanner（結構化）
2. 資料準備	清理 + 轉換成可用格式、設定標籤	BigQuery（分析、篩選、補遺漏）、Data Catalog（資料尋找與目錄）
3. 模型訓練	用資料訓練模型	Vertex AI（代管環境、預建容器、模型評估）
4. 模型部署	把訓練好的模型開放給使用者用	Vertex AI（擴充部署、調整資源）
5. 模型管理	長期維護模型、追蹤效能	Vertex AI Feature Store（特徵管理）、Model Garden（模型儲存）、Pipelines（自動化）

模型管理的五個子任務

版本管理：追蹤不同版本的模型

追蹤成效：查看模型指標

監控偏移（drift）：注意模型準確率隨時間變化

資料管理：用 Feature Store 管理特徵

儲存與自動化：Model Garden 集中儲存、Pipelines 自動執行工作

為什麼這些工具能搭在一起

Google Cloud 的工具設計成可互相串接，加上 IAM（Identity and Access Management）控管存取權，整條流水線從收集到部署都在同一個安全環境。

五、基礎模型是什麼？Google 四大模型怎麼選

1. 基礎模型（Foundation Model）的定義

採用深度學習技術、以龐大資料集訓練、能在多種領域執行各種工作的機器學習模型。

比喻：基礎模型就像讀遍整座圖書館的學生——從無數書籍、文章、網站吸收知識，所以能應付各種工作。

關鍵特徵：

用大量未標註資料訓練（不是監督式那種一筆一答案）
一個模型可以調整來做翻譯、摘要、生成、問答、寫程式…

2. 選模型要看的 7 大因素

因素	看什麼	取捨
模態（Modality）	模型能處理哪幾種資料：文字、圖像、影片、音訊	單一資料類型 → 選專用模型；多種類型 → 選多模態模型
脈絡窗口（Context Window）	一次能塞進多少資訊讓它「記住」	越大越連貫，但運算成本也越高
安全性	資料加密、存取控管、是否符合產業法規	處理機密資料時尤其重要
可用性與穩定性	正常運作時間保證、備援、災難復原	上線正式應用前必看
費用	計費模式（用量 / 運算時間 / 其他）	模型不是越大越好——根據工作選合適大小
效能	準確率、速度、效率	跟成本之間取平衡
微調與整合	能否客製化、API/SDK 文件是否完善	用途特殊 → 選可微調的；要接現有系統 → 看 API 完整度

3. Google 的四大基礎模型

全部可透過 Vertex AI 平台存取。

模型	類型	強項	適用場景
Gemini	多模態（multimodal）	同時處理文字、圖片、音訊、影片	複雜多模態理解、進階對話、內容創作
Gemma	輕量級開放模型	採用 Gemini 同源技術，但輕量、可本地部署	開發者自訂、本地端 AI 應用
Imagen	文字轉圖像（diffusion）	根據文字描述生成高品質圖片	創意設計、電商視覺、內容創作
Veo	影片生成	根據文字或靜態圖生成影片內容	電影製作、廣告、線上影音

易混淆點

Gemini = 多模態 / Gemma = 輕量本地 —— 名字像但定位完全不同

Imagen = 圖像 / Veo = 影片 —— 別把 Imagen 想成「能生影片的圖像模型」

六、基礎模型的限制與克服技巧

1. 基礎模型的 6 大限制

限制	說明
資料依附性	模型成效完全取決於訓練資料。資料有偏誤或不完整 → 輸出就有問題（像要學生寫一本沒讀過的書的論文）
知識截點（Knowledge Cutoff）	AI 的訓練資料有截止日期，不會自動更新。截點 2022 → 不知道 2023 之後的事
偏誤（Bias）	訓練資料的微小偏誤會被模型統計性地放大
公平性	即使資料平衡，「公平」本身就難定義。常見評估只蓋部分類別，難涵蓋所有偏誤形式
幻覺（Hallucination）	模型「自信地胡說八道」——生成聽起來合理但與事實不符的內容
極端案例（Edge Cases）	罕見、非典型情境會讓模型出錯或誤判

2. 四種克服技巧

技巧	是什麼	何時用
建立基準（Grounding）	把 AI 輸出串到可驗證的資訊來源，提供引文與信心分數	想降低幻覺、需要可信度
RAG（Retrieval-Augmented Generation，檢索增強生成）	建立基準的具體做法之一：搜尋知識庫 → 把相關資訊塞進提示 → AI 生成回覆	需要根據最新或私有資料回答
提示工程（Prompt Engineering）	精心設計提示來引導模型	最快最直接，但只能在模型已知範圍內運作，不能憑空生新知識
微調（Fine-tuning）	用自己的資料集繼續訓練預訓練模型，調整參數	提示工程不夠時、需要特定風格或格式時

三種技術的核心差別

維度 RAG 微調建立基準
本質從外部知識庫抓資料塞進提示用新資料重新訓練模型 總體目標：把輸出串到可驗證來源
改變模型本身？ ❌ 不改 ✅ 改參數取決於用什麼技術
資料來源 外部知識庫（資料庫、文件、網路）特定領域資料集任何可驗證來源
關係是「建立基準」的一種具體做法提升模型在特定領域的基準能力用 RAG 或微調來達成

維度	RAG	微調	建立基準
本質	從外部知識庫抓資料塞進提示	用新資料重新訓練模型	總體目標：把輸出串到可驗證來源
改變模型本身？	❌ 不改	✅ 改參數	取決於用什麼技術
資料來源	外部知識庫（資料庫、文件、網路）	特定領域資料集	任何可驗證來源
關係	是「建立基準」的一種具體做法	提升模型在特定領域的基準能力	用 RAG 或微調來達成

3. 人機迴圈（HITL，Human-in-the-Loop）

當風險太高、AI 不能單獨決策時，加入人類審查這一環。

應用情境	為什麼要 HITL
內容審核	篩除演算法可能漏掉的有害內容
敏感領域（醫療、金融）	重要決策需要人類監督
高風險決策（醫療診斷、刑事司法）	加一層問責機制
生成前審查	部署前抓出潛在錯誤或偏誤
生成後審查	持續找出改進空間，讓模型適應變化

七、安全的 AI vs 負責任的 AI

兩個常被混用的詞，但目標不同：

概念	目標	防範對象
安全的 AI（Secure AI）	防止 AI 應用程式遭受攻擊	惡意攻擊者、駭客、資料中毒
負責任的 AI（Responsible AI）	防止 AI 應用程式造成傷害	偏誤、隱私侵害、不公平結果

一句話記

安全 = 別讓壞人攻擊你的 AI；負責任 = 別讓你的 AI 傷害別人。

1. 安全的 AI：ML 生命週期五階段防禦

階段	主要威脅	防禦做法
收集資料	資料中毒（Data Poisoning）：壞人塞錯資料汙染訓練集	嚴格存取控管、限制誰能輸入資料
準備資料	機密資料外洩、進一步資料中毒	去識別化、完整性檢查、靜態與使用中加密、即時監控
訓練模型	模型竊取（Model Theft）：偷走專有模型	保護訓練資料與模型參數、控管存取
管理模型	既有漏洞、配置漂移	持續監控、定期更新、追蹤異常
部署 / 預測	對抗性攻擊（Adversarial Attack）：用誤導性資料騙模型	篩選輸入、清理資料、控管模型存取（限制誰能呼叫、互動方式）

2. 負責任的 AI：四大原則

原則	核心要求	工具 / 做法
公開透明	使用者要知道資料怎麼用、AI 怎麼決策	資料處理流程、決策過程、潛在偏誤都要揭露
隱私權	保護個資不被洩漏	去識別化、假名化、防止訓練資料外漏
資料品質與偏誤	高品質資料 + 主動減輕偏誤	收集前確認使用者同意、檢查資料是否延續歷史偏誤
問責與可解釋性	知道誰為 AI 行為負責 + 模型決策過程可解釋	Vertex Explainable AI（解釋模型輸出、找出潛在偏誤）

3. 法律問題

AI 開發越來越受四個法律領域規範：

資料隱私權
不歧視
智慧財產
產品責任

組織該做的事

負責任處理資料 + 減輕偏誤 + 公開演算法決策

遵守 AI 模型本身的授權協議與法律標準

法律環境瞬息萬變，要主動追蹤新規 + 必要時尋求法律諮詢

八、術語速查表

前文已詳細解釋的概念（CIA 三元組、PII、SPII 等）這裡不再重複，請回對應章節查閱。

AI 與 ML 基礎

英文	中文	白話解釋
AI（Artificial Intelligence）	人工智慧	讓機器執行需要人類智慧才能做的事
ML（Machine Learning）	機器學習	用資料訓練機器完成特定工作的方法
Generative AI	生成式 AI	ML 的分支，專門用來創造新內容
Deep Learning	深度學習	ML 的一種技術，是基礎模型的核心
Model	模型	用資料建構出來的數學方程式

資料與學習

英文	中文	白話解釋
Structured Data	結構化資料	能放進列與欄的資料（CSV、資料庫表）
Unstructured Data	非結構化資料	沒預定義結構（PDF、圖片、自由文字）
Labeled Data	標籤資料	每筆資料附帶正確答案
Unlabeled Data	無標籤資料	純原始資訊，沒任何標記
Supervised Learning	監督式學習	用標籤資料學「輸入 → 輸出」對應
Unsupervised Learning	非監督式學習	從無標籤資料找隱藏模式
Reinforcement Learning	強化學習	透過獎勵 / 懲罰回饋學習行動策略

基礎模型與生成式 AI

英文	中文	白話解釋
Foundation Model	基礎模型	用大量資料訓練、能跨領域工作的大模型
LLM（Large Language Model）	大型語言模型	處理自然語言的基礎模型
Multimodal Model	多模態模型	同時處理多種資料類型（文字+圖+音）的模型
Modality	模態	模型能處理的資料類型
Context Window	脈絡窗口	模型一次能納入考量的資訊量
Diffusion Model	擴散模型	文字轉圖像的常見技術，Imagen 採用
Knowledge Cutoff	知識截點	AI 訓練資料的截止日期
Hallucination	幻覺	AI 自信地生成與事實不符的內容

提升模型的技術

英文	中文	白話解釋
Grounding	建立基準	把 AI 輸出串到可驗證來源，降幻覺
RAG（Retrieval-Augmented Generation）	檢索增強生成	搜尋知識庫 + 塞進提示 + AI 生成
Prompt Engineering	提示工程	精心設計提示來引導模型
Fine-tuning	微調	用新資料集繼續訓練、調整參數
HITL（Human-in-the-Loop）	人機迴圈	把人類審查加入 AI 流程

安全與負責任 AI

英文	中文	白話解釋
Data Poisoning	資料中毒	攻擊者塞錯資料汙染訓練集
Model Theft	模型竊取	偷走專有 AI 模型
Adversarial Attack	對抗性攻擊	用誤導性輸入欺騙模型
Explainable AI（XAI）	可解釋 AI	讓模型決策過程透明、可理解
Responsible AI	負責任的 AI	防止 AI 造成傷害
Secure AI	安全的 AI	保護 AI 不被攻擊

Google Cloud 工具

名稱	用途
Vertex AI	ML 平台總入口：訓練、部署、模型管理
Vertex Model Garden	模型儲存庫，集中整理可用模型
Vertex Feature Store	特徵管理
Vertex Pipelines	ML 工作流自動化
Vertex Explainable AI	解釋模型輸出、找出偏誤
BigQuery / BigQuery ML	資料分析 + 直接在 SQL 內訓練 ML 模型
Data Catalog	資料目錄與探索
Pub/Sub	即時串流資料
Cloud Storage	非結構化資料儲存
Cloud SQL / Cloud Spanner	結構化資料儲存
IAM	存取權控管
Gemini / Gemma / Imagen / Veo	Google 四大基礎模型

筆記建立日期：2026-04-27 ｜最後更新：2026-04-27

煎餃的線上課程筆記

探索

生成式 AI 瞭解基礎概念

生成式 AI：瞭解基礎概念

目錄

一、AI、ML、生成式 AI 怎麼區分

「模型」是什麼？

為什麼 2022 年突然爆紅？

二、為什麼資料是 AI 的核心

1. 資料品質：五個必看要素

2. 資料可存取性：三個門檻

3. 結構化 vs 非結構化資料

三、機器學習的三種學習類型

標籤資料 vs 無標籤資料

Google Cloud 上的對應應用

四、Google Cloud 如何把資料變成模型

五、基礎模型是什麼？Google 四大模型怎麼選

1. 基礎模型（Foundation Model）的定義

2. 選模型要看的 7 大因素

3. Google 的四大基礎模型

六、基礎模型的限制與克服技巧

1. 基礎模型的 6 大限制

2. 四種克服技巧

3. 人機迴圈（HITL，Human-in-the-Loop）

七、安全的 AI vs 負責任的 AI

1. 安全的 AI：ML 生命週期五階段防禦

2. 負責任的 AI：四大原則

3. 法律問題

八、術語速查表

AI 與 ML 基礎

資料與學習

基礎模型與生成式 AI

提升模型的技術

安全與負責任 AI

Google Cloud 工具

關係圖譜

目錄

反向連結