關聯筆記Google Cloud 學程


生成式 AI:瞭解基礎概念

Gen AI: Unlock Foundational Concepts|Google Cloud Skills Boost|時長 1.5 小時|入門級

目錄


一、AI、ML、生成式 AI 怎麼區分

三個詞常被混用,但範圍其實是包含關係

範圍名稱一句話範例
最大AI(人工智慧)讓機器執行通常需要人類智慧才能做的事學習、解決問題、做決定
ML(機器學習,Machine Learning)達成 AI 的方法之一,用資料訓練機器完成特定工作垃圾郵件分類、房價預測
生成式 AI(GenAI)ML 的一個分支,專門用來創造新內容ChatGPT、Imagen 圖像生成

核心判斷邏輯

傳統 AI 分析資料做預測(這封信是不是垃圾郵件),生成式 AI 用資料創造新內容(畫一張新的貓圖)。差別在「分類 vs 創造」。

「模型」是什麼?

模型 = 以資料建構而成的數學方程式。同一個演算法 + 不同資料 → 不同模型。

比喻

教小朋友畫畫的兩種方式:

  • 傳統 AI:給孩子看一幅畫,告訴他「這就是好作品的特徵」,他根據規則判斷
  • 生成式 AI:讓孩子看大量畫作 + 給畫筆顏料,請他自己創作新的

為什麼 2022 年突然爆紅?

技術不新,但兩件事同時發生:

  1. 大型語言模型(LLM)變得異常聰明 —— 能理解複雜概念、生成像人寫的文字
  2. 運算能力普及 —— 訓練與部署的算力門檻大幅降低

二、為什麼資料是 AI 的核心

ML 模型 = 根據過去資料預測未來,跟人類「靠經驗猜」一樣,差別在於模型用的是機率而不是直覺。

資料品質越差 → 模型學到錯誤模式 → 預測越不準。即使演算法再精密也救不回來。

1. 資料品質:五個必看要素

要素意思出問題會怎樣
準確率(Accuracy)資料正確無誤用標錯動物的圖鑑教 AI → 學到錯的模式
完整度(Completeness)資料量夠、樣本夠多只用昨天的資料預測天氣 → 不準
代表性(Representativeness)涵蓋多元客層、不漏掉群體缺特定族群資料 → 結果有偏誤
一致性(Consistency)格式、標籤統一拼圖一半標數字一半標字母 → 模型混亂
關聯性(Relevance)跟任務相關用倫敦交通預測堪薩斯作物產量 → 沒用

2. 資料可存取性:三個門檻

要素痛點
可用性(Availability)資料可能存在但被隱私法規鎖住,或要付錢買
費用(Cost)收集 + 清理成本可能很高,小機構吃不消
形式(Format)原始資料未必能直接餵 AI,轉檔可能耗時

3. 結構化 vs 非結構化資料

類型特徵範例儲存方式
結構化有預定義欄位、能整齊放進列與欄銷售紀錄、聯絡人清單、銀行對帳單、CSV、醫療紀錄關聯式資料庫
非結構化沒預定義結構、形式自由PDF、電子郵件、社群貼文、圖片、音訊、影片、自由文字評論物件儲存(如 Cloud Storage)

判斷訣竅

「能不能直接放進 Excel 表格?」——能 → 結構化;不能 → 非結構化。


三、機器學習的三種學習類型

差別只看一件事:模型用什麼樣的資料學?

類型資料學什麼經典範例
監督式學習(Supervised)標籤資料(每筆輸入都有對應正確答案)學「輸入 → 輸出」的對應關係房價預測、垃圾郵件分類
非監督式學習(Unsupervised)無標籤資料(只有原始資訊)自己找出隱藏的分組或模式顧客分群、新聞主題探索
強化學習(Reinforcement)透過互動 + 回饋(獎勵 / 懲罰)試錯中學會「怎麼做才能拿最多獎勵」遊戲 AI、產品推薦

標籤資料 vs 無標籤資料

概念解釋例子
標籤資料每筆資料有名稱、類型或分類標記圖片標「貓」或「狗」、評論標「正面/負面/中性」
無標籤資料原始資訊,沒任何標記未整理的相片集、未分類的網站流量紀錄

易錯點

標籤資料 ≠ 監督式學習。標籤資料是「素材」,監督式學習是「方法」。沒有標籤就只能走非監督式或強化學習。

Google Cloud 上的對應應用

學習類型GCP 工具應用範例
監督式Vertex AI預測性維護:根據感應器資料預測機器故障時間
非監督式BigQuery ML異常偵測:找出與常態差異大的詐欺交易
強化學習Vertex AI產品推薦:根據使用者行為動態調整推薦內容

四、Google Cloud 如何把資料變成模型

ML 生命週期五個階段,每個階段都有對應的 GCP 工具。

階段做什麼GCP 工具
1. 資料收集(Ingestion)從各種來源收集原始資料Pub/Sub(即時串流)、Cloud Storage(非結構化)、Cloud SQL / Cloud Spanner(結構化)
2. 資料準備清理 + 轉換成可用格式、設定標籤BigQuery(分析、篩選、補遺漏)、Data Catalog(資料尋找與目錄)
3. 模型訓練用資料訓練模型Vertex AI(代管環境、預建容器、模型評估)
4. 模型部署把訓練好的模型開放給使用者用Vertex AI(擴充部署、調整資源)
5. 模型管理長期維護模型、追蹤效能Vertex AI Feature Store(特徵管理)、Model Garden(模型儲存)、Pipelines(自動化)

為什麼這些工具能搭在一起

Google Cloud 的工具設計成可互相串接,加上 IAM(Identity and Access Management)控管存取權,整條流水線從收集到部署都在同一個安全環境。


五、基礎模型是什麼?Google 四大模型怎麼選

1. 基礎模型(Foundation Model)的定義

採用深度學習技術、以龐大資料集訓練、能在多種領域執行各種工作的機器學習模型。

比喻:基礎模型就像讀遍整座圖書館的學生——從無數書籍、文章、網站吸收知識,所以能應付各種工作。

關鍵特徵:

  • 用大量未標註資料訓練(不是監督式那種一筆一答案)
  • 一個模型可以調整來做翻譯、摘要、生成、問答、寫程式…

2. 選模型要看的 7 大因素

因素看什麼取捨
模態(Modality)模型能處理哪幾種資料:文字、圖像、影片、音訊單一資料類型 → 選專用模型;多種類型 → 選多模態模型
脈絡窗口(Context Window)一次能塞進多少資訊讓它「記住」越大越連貫,但運算成本也越高
安全性資料加密、存取控管、是否符合產業法規處理機密資料時尤其重要
可用性與穩定性正常運作時間保證、備援、災難復原上線正式應用前必看
費用計費模式(用量 / 運算時間 / 其他)模型不是越大越好——根據工作選合適大小
效能準確率、速度、效率跟成本之間取平衡
微調與整合能否客製化、API/SDK 文件是否完善用途特殊 → 選可微調的;要接現有系統 → 看 API 完整度

3. Google 的四大基礎模型

全部可透過 Vertex AI 平台存取。

模型類型強項適用場景
Gemini多模態(multimodal)同時處理文字、圖片、音訊、影片複雜多模態理解、進階對話、內容創作
Gemma輕量級開放模型採用 Gemini 同源技術,但輕量、可本地部署開發者自訂、本地端 AI 應用
Imagen文字轉圖像(diffusion)根據文字描述生成高品質圖片創意設計、電商視覺、內容創作
Veo影片生成根據文字或靜態圖生成影片內容電影製作、廣告、線上影音

易混淆點

  • Gemini = 多模態 / Gemma = 輕量本地 —— 名字像但定位完全不同
  • Imagen = 圖像 / Veo = 影片 —— 別把 Imagen 想成「能生影片的圖像模型」

六、基礎模型的限制與克服技巧

1. 基礎模型的 6 大限制

限制說明
資料依附性模型成效完全取決於訓練資料。資料有偏誤或不完整 → 輸出就有問題(像要學生寫一本沒讀過的書的論文)
知識截點(Knowledge Cutoff)AI 的訓練資料有截止日期,不會自動更新。截點 2022 → 不知道 2023 之後的事
偏誤(Bias)訓練資料的微小偏誤會被模型統計性地放大
公平性即使資料平衡,「公平」本身就難定義。常見評估只蓋部分類別,難涵蓋所有偏誤形式
幻覺(Hallucination)模型「自信地胡說八道」——生成聽起來合理但與事實不符的內容
極端案例(Edge Cases)罕見、非典型情境會讓模型出錯或誤判

2. 四種克服技巧

技巧是什麼何時用
建立基準(Grounding)把 AI 輸出串到可驗證的資訊來源,提供引文與信心分數想降低幻覺、需要可信度
RAG(Retrieval-Augmented Generation,檢索增強生成)建立基準的具體做法之一:搜尋知識庫 → 把相關資訊塞進提示 → AI 生成回覆需要根據最新或私有資料回答
提示工程(Prompt Engineering)精心設計提示來引導模型最快最直接,但只能在模型已知範圍內運作,不能憑空生新知識
微調(Fine-tuning)用自己的資料集繼續訓練預訓練模型,調整參數提示工程不夠時、需要特定風格或格式時

三種技術的核心差別

維度RAG微調建立基準
本質從外部知識庫抓資料塞進提示用新資料重新訓練模型總體目標:把輸出串到可驗證來源
改變模型本身?❌ 不改✅ 改參數取決於用什麼技術
資料來源外部知識庫(資料庫、文件、網路)特定領域資料集任何可驗證來源
關係是「建立基準」的一種具體做法提升模型在特定領域的基準能力用 RAG 或微調來達成

3. 人機迴圈(HITL,Human-in-the-Loop)

當風險太高、AI 不能單獨決策時,加入人類審查這一環。

應用情境為什麼要 HITL
內容審核篩除演算法可能漏掉的有害內容
敏感領域(醫療、金融)重要決策需要人類監督
高風險決策(醫療診斷、刑事司法)加一層問責機制
生成前審查部署前抓出潛在錯誤或偏誤
生成後審查持續找出改進空間,讓模型適應變化

七、安全的 AI vs 負責任的 AI

兩個常被混用的詞,但目標不同:

概念目標防範對象
安全的 AI(Secure AI)防止 AI 應用程式遭受攻擊惡意攻擊者、駭客、資料中毒
負責任的 AI(Responsible AI)防止 AI 應用程式造成傷害偏誤、隱私侵害、不公平結果

一句話記

安全 = 別讓壞人攻擊你的 AI;負責任 = 別讓你的 AI 傷害別人。

1. 安全的 AI:ML 生命週期五階段防禦

階段主要威脅防禦做法
收集資料資料中毒(Data Poisoning):壞人塞錯資料汙染訓練集嚴格存取控管、限制誰能輸入資料
準備資料機密資料外洩、進一步資料中毒去識別化、完整性檢查、靜態與使用中加密、即時監控
訓練模型模型竊取(Model Theft):偷走專有模型保護訓練資料與模型參數、控管存取
管理模型既有漏洞、配置漂移持續監控、定期更新、追蹤異常
部署 / 預測對抗性攻擊(Adversarial Attack):用誤導性資料騙模型篩選輸入、清理資料、控管模型存取(限制誰能呼叫、互動方式)

2. 負責任的 AI:四大原則

原則核心要求工具 / 做法
公開透明使用者要知道資料怎麼用、AI 怎麼決策資料處理流程、決策過程、潛在偏誤都要揭露
隱私權保護個資不被洩漏去識別化、假名化、防止訓練資料外漏
資料品質與偏誤高品質資料 + 主動減輕偏誤收集前確認使用者同意、檢查資料是否延續歷史偏誤
問責與可解釋性知道誰為 AI 行為負責 + 模型決策過程可解釋Vertex Explainable AI(解釋模型輸出、找出潛在偏誤)

3. 法律問題

AI 開發越來越受四個法律領域規範:

  • 資料隱私權
  • 不歧視
  • 智慧財產
  • 產品責任

組織該做的事

  1. 負責任處理資料 + 減輕偏誤 + 公開演算法決策
  2. 遵守 AI 模型本身的授權協議與法律標準
  3. 法律環境瞬息萬變,要主動追蹤新規 + 必要時尋求法律諮詢

八、術語速查表

前文已詳細解釋的概念(CIA 三元組、PII、SPII 等)這裡不再重複,請回對應章節查閱。

AI 與 ML 基礎

英文中文白話解釋
AI(Artificial Intelligence)人工智慧讓機器執行需要人類智慧才能做的事
ML(Machine Learning)機器學習用資料訓練機器完成特定工作的方法
Generative AI生成式 AIML 的分支,專門用來創造新內容
Deep Learning深度學習ML 的一種技術,是基礎模型的核心
Model模型用資料建構出來的數學方程式

資料與學習

英文中文白話解釋
Structured Data結構化資料能放進列與欄的資料(CSV、資料庫表)
Unstructured Data非結構化資料沒預定義結構(PDF、圖片、自由文字)
Labeled Data標籤資料每筆資料附帶正確答案
Unlabeled Data無標籤資料純原始資訊,沒任何標記
Supervised Learning監督式學習用標籤資料學「輸入 → 輸出」對應
Unsupervised Learning非監督式學習從無標籤資料找隱藏模式
Reinforcement Learning強化學習透過獎勵 / 懲罰回饋學習行動策略

基礎模型與生成式 AI

英文中文白話解釋
Foundation Model基礎模型用大量資料訓練、能跨領域工作的大模型
LLM(Large Language Model)大型語言模型處理自然語言的基礎模型
Multimodal Model多模態模型同時處理多種資料類型(文字+圖+音)的模型
Modality模態模型能處理的資料類型
Context Window脈絡窗口模型一次能納入考量的資訊量
Diffusion Model擴散模型文字轉圖像的常見技術,Imagen 採用
Knowledge Cutoff知識截點AI 訓練資料的截止日期
Hallucination幻覺AI 自信地生成與事實不符的內容

提升模型的技術

英文中文白話解釋
Grounding建立基準把 AI 輸出串到可驗證來源,降幻覺
RAG(Retrieval-Augmented Generation)檢索增強生成搜尋知識庫 + 塞進提示 + AI 生成
Prompt Engineering提示工程精心設計提示來引導模型
Fine-tuning微調用新資料集繼續訓練、調整參數
HITL(Human-in-the-Loop)人機迴圈把人類審查加入 AI 流程

安全與負責任 AI

英文中文白話解釋
Data Poisoning資料中毒攻擊者塞錯資料汙染訓練集
Model Theft模型竊取偷走專有 AI 模型
Adversarial Attack對抗性攻擊用誤導性輸入欺騙模型
Explainable AI(XAI)可解釋 AI讓模型決策過程透明、可理解
Responsible AI負責任的 AI防止 AI 造成傷害
Secure AI安全的 AI保護 AI 不被攻擊

Google Cloud 工具

名稱用途
Vertex AIML 平台總入口:訓練、部署、模型管理
Vertex Model Garden模型儲存庫,集中整理可用模型
Vertex Feature Store特徵管理
Vertex PipelinesML 工作流自動化
Vertex Explainable AI解釋模型輸出、找出偏誤
BigQuery / BigQuery ML資料分析 + 直接在 SQL 內訓練 ML 模型
Data Catalog資料目錄與探索
Pub/Sub即時串流資料
Cloud Storage非結構化資料儲存
Cloud SQL / Cloud Spanner結構化資料儲存
IAM存取權控管
Gemini / Gemma / Imagen / VeoGoogle 四大基礎模型

筆記建立日期:2026-04-27 | 最後更新:2026-04-27