關聯筆記:Google Cloud 學程
生成式 AI:瞭解基礎概念
Gen AI: Unlock Foundational Concepts|Google Cloud Skills Boost|時長 1.5 小時|入門級
目錄
- 一、AI、ML、生成式 AI 怎麼區分
- 二、為什麼資料是 AI 的核心
- 三、機器學習的三種學習類型
- 四、Google Cloud 如何把資料變成模型
- 五、基礎模型是什麼?Google 四大模型怎麼選
- 六、基礎模型的限制與克服技巧
- 七、安全的 AI vs 負責任的 AI
- 八、術語速查表
一、AI、ML、生成式 AI 怎麼區分
三個詞常被混用,但範圍其實是包含關係。
| 範圍 | 名稱 | 一句話 | 範例 |
|---|---|---|---|
| 最大 | AI(人工智慧) | 讓機器執行通常需要人類智慧才能做的事 | 學習、解決問題、做決定 |
| 中 | ML(機器學習,Machine Learning) | 達成 AI 的方法之一,用資料訓練機器完成特定工作 | 垃圾郵件分類、房價預測 |
| 小 | 生成式 AI(GenAI) | ML 的一個分支,專門用來創造新內容 | ChatGPT、Imagen 圖像生成 |
核心判斷邏輯
傳統 AI 分析資料做預測(這封信是不是垃圾郵件),生成式 AI 用資料創造新內容(畫一張新的貓圖)。差別在「分類 vs 創造」。
「模型」是什麼?
模型 = 以資料建構而成的數學方程式。同一個演算法 + 不同資料 → 不同模型。
比喻
教小朋友畫畫的兩種方式:
- 傳統 AI:給孩子看一幅畫,告訴他「這就是好作品的特徵」,他根據規則判斷
- 生成式 AI:讓孩子看大量畫作 + 給畫筆顏料,請他自己創作新的
為什麼 2022 年突然爆紅?
技術不新,但兩件事同時發生:
- 大型語言模型(LLM)變得異常聰明 —— 能理解複雜概念、生成像人寫的文字
- 運算能力普及 —— 訓練與部署的算力門檻大幅降低
二、為什麼資料是 AI 的核心
ML 模型 = 根據過去資料預測未來,跟人類「靠經驗猜」一樣,差別在於模型用的是機率而不是直覺。
資料品質越差 → 模型學到錯誤模式 → 預測越不準。即使演算法再精密也救不回來。
1. 資料品質:五個必看要素
| 要素 | 意思 | 出問題會怎樣 |
|---|---|---|
| 準確率(Accuracy) | 資料正確無誤 | 用標錯動物的圖鑑教 AI → 學到錯的模式 |
| 完整度(Completeness) | 資料量夠、樣本夠多 | 只用昨天的資料預測天氣 → 不準 |
| 代表性(Representativeness) | 涵蓋多元客層、不漏掉群體 | 缺特定族群資料 → 結果有偏誤 |
| 一致性(Consistency) | 格式、標籤統一 | 拼圖一半標數字一半標字母 → 模型混亂 |
| 關聯性(Relevance) | 跟任務相關 | 用倫敦交通預測堪薩斯作物產量 → 沒用 |
2. 資料可存取性:三個門檻
| 要素 | 痛點 |
|---|---|
| 可用性(Availability) | 資料可能存在但被隱私法規鎖住,或要付錢買 |
| 費用(Cost) | 收集 + 清理成本可能很高,小機構吃不消 |
| 形式(Format) | 原始資料未必能直接餵 AI,轉檔可能耗時 |
3. 結構化 vs 非結構化資料
| 類型 | 特徵 | 範例 | 儲存方式 |
|---|---|---|---|
| 結構化 | 有預定義欄位、能整齊放進列與欄 | 銷售紀錄、聯絡人清單、銀行對帳單、CSV、醫療紀錄 | 關聯式資料庫 |
| 非結構化 | 沒預定義結構、形式自由 | PDF、電子郵件、社群貼文、圖片、音訊、影片、自由文字評論 | 物件儲存(如 Cloud Storage) |
判斷訣竅
「能不能直接放進 Excel 表格?」——能 → 結構化;不能 → 非結構化。
三、機器學習的三種學習類型
差別只看一件事:模型用什麼樣的資料學?
| 類型 | 資料 | 學什麼 | 經典範例 |
|---|---|---|---|
| 監督式學習(Supervised) | 標籤資料(每筆輸入都有對應正確答案) | 學「輸入 → 輸出」的對應關係 | 房價預測、垃圾郵件分類 |
| 非監督式學習(Unsupervised) | 無標籤資料(只有原始資訊) | 自己找出隱藏的分組或模式 | 顧客分群、新聞主題探索 |
| 強化學習(Reinforcement) | 透過互動 + 回饋(獎勵 / 懲罰) | 試錯中學會「怎麼做才能拿最多獎勵」 | 遊戲 AI、產品推薦 |
標籤資料 vs 無標籤資料
| 概念 | 解釋 | 例子 |
|---|---|---|
| 標籤資料 | 每筆資料有名稱、類型或分類標記 | 圖片標「貓」或「狗」、評論標「正面/負面/中性」 |
| 無標籤資料 | 原始資訊,沒任何標記 | 未整理的相片集、未分類的網站流量紀錄 |
易錯點
標籤資料 ≠ 監督式學習。標籤資料是「素材」,監督式學習是「方法」。沒有標籤就只能走非監督式或強化學習。
Google Cloud 上的對應應用
| 學習類型 | GCP 工具 | 應用範例 |
|---|---|---|
| 監督式 | Vertex AI | 預測性維護:根據感應器資料預測機器故障時間 |
| 非監督式 | BigQuery ML | 異常偵測:找出與常態差異大的詐欺交易 |
| 強化學習 | Vertex AI | 產品推薦:根據使用者行為動態調整推薦內容 |
四、Google Cloud 如何把資料變成模型
ML 生命週期五個階段,每個階段都有對應的 GCP 工具。
| 階段 | 做什麼 | GCP 工具 |
|---|---|---|
| 1. 資料收集(Ingestion) | 從各種來源收集原始資料 | Pub/Sub(即時串流)、Cloud Storage(非結構化)、Cloud SQL / Cloud Spanner(結構化) |
| 2. 資料準備 | 清理 + 轉換成可用格式、設定標籤 | BigQuery(分析、篩選、補遺漏)、Data Catalog(資料尋找與目錄) |
| 3. 模型訓練 | 用資料訓練模型 | Vertex AI(代管環境、預建容器、模型評估) |
| 4. 模型部署 | 把訓練好的模型開放給使用者用 | Vertex AI(擴充部署、調整資源) |
| 5. 模型管理 | 長期維護模型、追蹤效能 | Vertex AI Feature Store(特徵管理)、Model Garden(模型儲存)、Pipelines(自動化) |
模型管理的五個子任務
- 版本管理:追蹤不同版本的模型
- 追蹤成效:查看模型指標
- 監控偏移(drift):注意模型準確率隨時間變化
- 資料管理:用 Feature Store 管理特徵
- 儲存與自動化:Model Garden 集中儲存、Pipelines 自動執行工作
為什麼這些工具能搭在一起
Google Cloud 的工具設計成可互相串接,加上 IAM(Identity and Access Management)控管存取權,整條流水線從收集到部署都在同一個安全環境。
五、基礎模型是什麼?Google 四大模型怎麼選
1. 基礎模型(Foundation Model)的定義
採用深度學習技術、以龐大資料集訓練、能在多種領域執行各種工作的機器學習模型。
比喻:基礎模型就像讀遍整座圖書館的學生——從無數書籍、文章、網站吸收知識,所以能應付各種工作。
關鍵特徵:
- 用大量未標註資料訓練(不是監督式那種一筆一答案)
- 一個模型可以調整來做翻譯、摘要、生成、問答、寫程式…
2. 選模型要看的 7 大因素
| 因素 | 看什麼 | 取捨 |
|---|---|---|
| 模態(Modality) | 模型能處理哪幾種資料:文字、圖像、影片、音訊 | 單一資料類型 → 選專用模型;多種類型 → 選多模態模型 |
| 脈絡窗口(Context Window) | 一次能塞進多少資訊讓它「記住」 | 越大越連貫,但運算成本也越高 |
| 安全性 | 資料加密、存取控管、是否符合產業法規 | 處理機密資料時尤其重要 |
| 可用性與穩定性 | 正常運作時間保證、備援、災難復原 | 上線正式應用前必看 |
| 費用 | 計費模式(用量 / 運算時間 / 其他) | 模型不是越大越好——根據工作選合適大小 |
| 效能 | 準確率、速度、效率 | 跟成本之間取平衡 |
| 微調與整合 | 能否客製化、API/SDK 文件是否完善 | 用途特殊 → 選可微調的;要接現有系統 → 看 API 完整度 |
3. Google 的四大基礎模型
全部可透過 Vertex AI 平台存取。
| 模型 | 類型 | 強項 | 適用場景 |
|---|---|---|---|
| Gemini | 多模態(multimodal) | 同時處理文字、圖片、音訊、影片 | 複雜多模態理解、進階對話、內容創作 |
| Gemma | 輕量級開放模型 | 採用 Gemini 同源技術,但輕量、可本地部署 | 開發者自訂、本地端 AI 應用 |
| Imagen | 文字轉圖像(diffusion) | 根據文字描述生成高品質圖片 | 創意設計、電商視覺、內容創作 |
| Veo | 影片生成 | 根據文字或靜態圖生成影片內容 | 電影製作、廣告、線上影音 |
易混淆點
- Gemini = 多模態 / Gemma = 輕量本地 —— 名字像但定位完全不同
- Imagen = 圖像 / Veo = 影片 —— 別把 Imagen 想成「能生影片的圖像模型」
六、基礎模型的限制與克服技巧
1. 基礎模型的 6 大限制
| 限制 | 說明 |
|---|---|
| 資料依附性 | 模型成效完全取決於訓練資料。資料有偏誤或不完整 → 輸出就有問題(像要學生寫一本沒讀過的書的論文) |
| 知識截點(Knowledge Cutoff) | AI 的訓練資料有截止日期,不會自動更新。截點 2022 → 不知道 2023 之後的事 |
| 偏誤(Bias) | 訓練資料的微小偏誤會被模型統計性地放大 |
| 公平性 | 即使資料平衡,「公平」本身就難定義。常見評估只蓋部分類別,難涵蓋所有偏誤形式 |
| 幻覺(Hallucination) | 模型「自信地胡說八道」——生成聽起來合理但與事實不符的內容 |
| 極端案例(Edge Cases) | 罕見、非典型情境會讓模型出錯或誤判 |
2. 四種克服技巧
| 技巧 | 是什麼 | 何時用 |
|---|---|---|
| 建立基準(Grounding) | 把 AI 輸出串到可驗證的資訊來源,提供引文與信心分數 | 想降低幻覺、需要可信度 |
| RAG(Retrieval-Augmented Generation,檢索增強生成) | 建立基準的具體做法之一:搜尋知識庫 → 把相關資訊塞進提示 → AI 生成回覆 | 需要根據最新或私有資料回答 |
| 提示工程(Prompt Engineering) | 精心設計提示來引導模型 | 最快最直接,但只能在模型已知範圍內運作,不能憑空生新知識 |
| 微調(Fine-tuning) | 用自己的資料集繼續訓練預訓練模型,調整參數 | 提示工程不夠時、需要特定風格或格式時 |
三種技術的核心差別
維度 RAG 微調 建立基準 本質 從外部知識庫抓資料塞進提示 用新資料重新訓練模型 總體目標:把輸出串到可驗證來源 改變模型本身? ❌ 不改 ✅ 改參數 取決於用什麼技術 資料來源 外部知識庫(資料庫、文件、網路) 特定領域資料集 任何可驗證來源 關係 是「建立基準」的一種具體做法 提升模型在特定領域的基準能力 用 RAG 或微調來達成
3. 人機迴圈(HITL,Human-in-the-Loop)
當風險太高、AI 不能單獨決策時,加入人類審查這一環。
| 應用情境 | 為什麼要 HITL |
|---|---|
| 內容審核 | 篩除演算法可能漏掉的有害內容 |
| 敏感領域(醫療、金融) | 重要決策需要人類監督 |
| 高風險決策(醫療診斷、刑事司法) | 加一層問責機制 |
| 生成前審查 | 部署前抓出潛在錯誤或偏誤 |
| 生成後審查 | 持續找出改進空間,讓模型適應變化 |
七、安全的 AI vs 負責任的 AI
兩個常被混用的詞,但目標不同:
| 概念 | 目標 | 防範對象 |
|---|---|---|
| 安全的 AI(Secure AI) | 防止 AI 應用程式遭受攻擊 | 惡意攻擊者、駭客、資料中毒 |
| 負責任的 AI(Responsible AI) | 防止 AI 應用程式造成傷害 | 偏誤、隱私侵害、不公平結果 |
一句話記
安全 = 別讓壞人攻擊你的 AI;負責任 = 別讓你的 AI 傷害別人。
1. 安全的 AI:ML 生命週期五階段防禦
| 階段 | 主要威脅 | 防禦做法 |
|---|---|---|
| 收集資料 | 資料中毒(Data Poisoning):壞人塞錯資料汙染訓練集 | 嚴格存取控管、限制誰能輸入資料 |
| 準備資料 | 機密資料外洩、進一步資料中毒 | 去識別化、完整性檢查、靜態與使用中加密、即時監控 |
| 訓練模型 | 模型竊取(Model Theft):偷走專有模型 | 保護訓練資料與模型參數、控管存取 |
| 管理模型 | 既有漏洞、配置漂移 | 持續監控、定期更新、追蹤異常 |
| 部署 / 預測 | 對抗性攻擊(Adversarial Attack):用誤導性資料騙模型 | 篩選輸入、清理資料、控管模型存取(限制誰能呼叫、互動方式) |
2. 負責任的 AI:四大原則
| 原則 | 核心要求 | 工具 / 做法 |
|---|---|---|
| 公開透明 | 使用者要知道資料怎麼用、AI 怎麼決策 | 資料處理流程、決策過程、潛在偏誤都要揭露 |
| 隱私權 | 保護個資不被洩漏 | 去識別化、假名化、防止訓練資料外漏 |
| 資料品質與偏誤 | 高品質資料 + 主動減輕偏誤 | 收集前確認使用者同意、檢查資料是否延續歷史偏誤 |
| 問責與可解釋性 | 知道誰為 AI 行為負責 + 模型決策過程可解釋 | Vertex Explainable AI(解釋模型輸出、找出潛在偏誤) |
3. 法律問題
AI 開發越來越受四個法律領域規範:
- 資料隱私權
- 不歧視
- 智慧財產
- 產品責任
組織該做的事
- 負責任處理資料 + 減輕偏誤 + 公開演算法決策
- 遵守 AI 模型本身的授權協議與法律標準
- 法律環境瞬息萬變,要主動追蹤新規 + 必要時尋求法律諮詢
八、術語速查表
前文已詳細解釋的概念(CIA 三元組、PII、SPII 等)這裡不再重複,請回對應章節查閱。
AI 與 ML 基礎
| 英文 | 中文 | 白話解釋 |
|---|---|---|
| AI(Artificial Intelligence) | 人工智慧 | 讓機器執行需要人類智慧才能做的事 |
| ML(Machine Learning) | 機器學習 | 用資料訓練機器完成特定工作的方法 |
| Generative AI | 生成式 AI | ML 的分支,專門用來創造新內容 |
| Deep Learning | 深度學習 | ML 的一種技術,是基礎模型的核心 |
| Model | 模型 | 用資料建構出來的數學方程式 |
資料與學習
| 英文 | 中文 | 白話解釋 |
|---|---|---|
| Structured Data | 結構化資料 | 能放進列與欄的資料(CSV、資料庫表) |
| Unstructured Data | 非結構化資料 | 沒預定義結構(PDF、圖片、自由文字) |
| Labeled Data | 標籤資料 | 每筆資料附帶正確答案 |
| Unlabeled Data | 無標籤資料 | 純原始資訊,沒任何標記 |
| Supervised Learning | 監督式學習 | 用標籤資料學「輸入 → 輸出」對應 |
| Unsupervised Learning | 非監督式學習 | 從無標籤資料找隱藏模式 |
| Reinforcement Learning | 強化學習 | 透過獎勵 / 懲罰回饋學習行動策略 |
基礎模型與生成式 AI
| 英文 | 中文 | 白話解釋 |
|---|---|---|
| Foundation Model | 基礎模型 | 用大量資料訓練、能跨領域工作的大模型 |
| LLM(Large Language Model) | 大型語言模型 | 處理自然語言的基礎模型 |
| Multimodal Model | 多模態模型 | 同時處理多種資料類型(文字+圖+音)的模型 |
| Modality | 模態 | 模型能處理的資料類型 |
| Context Window | 脈絡窗口 | 模型一次能納入考量的資訊量 |
| Diffusion Model | 擴散模型 | 文字轉圖像的常見技術,Imagen 採用 |
| Knowledge Cutoff | 知識截點 | AI 訓練資料的截止日期 |
| Hallucination | 幻覺 | AI 自信地生成與事實不符的內容 |
提升模型的技術
| 英文 | 中文 | 白話解釋 |
|---|---|---|
| Grounding | 建立基準 | 把 AI 輸出串到可驗證來源,降幻覺 |
| RAG(Retrieval-Augmented Generation) | 檢索增強生成 | 搜尋知識庫 + 塞進提示 + AI 生成 |
| Prompt Engineering | 提示工程 | 精心設計提示來引導模型 |
| Fine-tuning | 微調 | 用新資料集繼續訓練、調整參數 |
| HITL(Human-in-the-Loop) | 人機迴圈 | 把人類審查加入 AI 流程 |
安全與負責任 AI
| 英文 | 中文 | 白話解釋 |
|---|---|---|
| Data Poisoning | 資料中毒 | 攻擊者塞錯資料汙染訓練集 |
| Model Theft | 模型竊取 | 偷走專有 AI 模型 |
| Adversarial Attack | 對抗性攻擊 | 用誤導性輸入欺騙模型 |
| Explainable AI(XAI) | 可解釋 AI | 讓模型決策過程透明、可理解 |
| Responsible AI | 負責任的 AI | 防止 AI 造成傷害 |
| Secure AI | 安全的 AI | 保護 AI 不被攻擊 |
Google Cloud 工具
| 名稱 | 用途 |
|---|---|
| Vertex AI | ML 平台總入口:訓練、部署、模型管理 |
| Vertex Model Garden | 模型儲存庫,集中整理可用模型 |
| Vertex Feature Store | 特徵管理 |
| Vertex Pipelines | ML 工作流自動化 |
| Vertex Explainable AI | 解釋模型輸出、找出偏誤 |
| BigQuery / BigQuery ML | 資料分析 + 直接在 SQL 內訓練 ML 模型 |
| Data Catalog | 資料目錄與探索 |
| Pub/Sub | 即時串流資料 |
| Cloud Storage | 非結構化資料儲存 |
| Cloud SQL / Cloud Spanner | 結構化資料儲存 |
| IAM | 存取權控管 |
| Gemini / Gemma / Imagen / Veo | Google 四大基礎模型 |
筆記建立日期:2026-04-27 | 最後更新:2026-04-27