如何建構人工智能模型

第A06版：澳聞

上一版下一版

放大+ 缩小- 默认o

要建構人工智能模型(AI Model)，必須執行以下最基本步驟：

1. 數據收集(Data Collection)

先收集目標數據，如欲想訓練一個圖像識別模型，先收集好多好多圖像，如狗、貓等。數據來源可來自網上公開數據、感應器收集數據、自己收集數據等。

2. 數據清洗(Data Cleaning)

——去除垃圾數據或沒有用的資訊

——無錯誤數據（如錯字、標籤錯誤、壞圖像等）

——無重複數據

3. 數據標注(Data Annotation)

——對圖像加“貓”、“狗”標籤

——對文字加情感分類標籤

——對說話加標示說話人(speaker)

4. 數據轉換與格式化(Data Preprocessing & Formatting)

——圖像轉成像素矩陣(Tensor)

——文字轉換做Token（字或詞的編碼）

——利用數據做normalization（歸一化）

注意：通常會用Python+NumPy、Pandas、OpenCV、Tokenizer等工具處理。

5. 數據分割(Data Splitting)

將數據分成三部分

——Training Set（訓練集）：用來學習（例如70%）

——Validation Set（驗證集）：用來調參(tuning hyperparameter)、避免overfitting(15%)

——Test Set（測試集）：用來最後評估模型效能(15%)

6. 建立Dataset與DataLoader

——要將數據封裝成Tensor Dataset，方便送入GPU

——用DataLoader做batch處理，同時支援shuffle及multiprocessing

7. 模型訓練(Model Training)

——數據經DataLoader一批批(mini-batch)送入GPU

——GPU負責前向傳播(Forward pass)與反向傳播(Backpropagation)

——通過損失函數(Loss Function)計算誤差，然後優化(Optimizer)更新模型參數

8. 模型評估與微調(Evaluation & Tuning)

——計算Validation Set上的準確度、損失值

——若有過度擬合(Overfitting)或欠擬合(Underfitting)，就要調整模型架構、參數、學習率等

9. 模型部署(Deployment)

——將訓練好模型儲存

——放上伺服器

——加入 API 接口

備注：以上步驟過程，極度專業，必須經由數據專家或數據科學家(Data Scientist)及相關IT專家負責與處理。

學勤教育中心電腦專科導師

周柏堅

放大+ 缩小- 默认o