劉瑞源 資料科學工程師
Jui-Yuan, Liu
- 工作經歷 -
Work Experience
AI Governance & MLOps
於玉山銀行自 0 至 1 建立企業級 Responsible AI(RAI)治理框架,設計涵蓋組織治理流程、模型生命週期管理、風險分級機制與生產環境監控之完整架構。 框架橫跨模型開發、驗證、部署與監控階段,並與現有 DevOps 與資料平台流程整合。
設計並實作多項可程式化之 AI 治理技術控制項(Technical Controls),包括:
模型風險分級與強制檢核流程
訓練資料完整性與資料漂移(Data Drift)檢測機制
模型輸出穩定性與異常行為偵測 特徵偏移(Feature Drift)與分佈監控
模型可追溯性(Model Lineage)與版本控管
建置與 Vertex AI 生態系整合之 24/7 全自動監控機制
即時監控模型效能指標(Precision / Recall / Drift)
Data Platform Optimization & ETL Engineering
重構富邦數據中台標籤資料庫架構,透過索引優化與查詢計畫調整、聚合邏輯重寫與資料分區策略、效能瓶頸排除使系統效能提升 70%,標籤模組資料準確度提升 90%。核心實作邏輯抱括:
優化標籤推薦模型之 ETL Pipeline,針對大量 SQL 聚合與資料 Join 操作進行重構,將高成本聚合轉為分段計算,透過中間層資料緩存降低重複計算,重設資料流向以減少跨資料庫傳輸,使整體資料處理效率提升 70%。
優化 MongoDB 與 Oracle ETL 日期區間處理邏輯,重新設計時區與時間格式標準化,邊界條件處理(inclusive / exclusive)資料重複與缺漏檢測機制,使整體資料準確度提升 90%。
設計並實作參數化資料轉換機制,將資料轉換邏輯抽象為可配置化模組,引入參數驅動轉換規則(schema mapping / data type conversion) 降低硬編碼邏輯,提升 ETL Pipeline 的可擴展性與維護性,使標籤模型與 MongoDB ETL 流程具備更高彈性與模組化能力。
主導開發高效分散式 ETL 平台 Mole,解決跨資料庫(RDBMS / NoSQL)大量資料傳輸之效能瓶頸、網路限制與 Schema 差異問題。採用抽象架構與統一 Schema Mapping 機制,並透過 Spark 分區優化與 Join 策略調整,使整體 ETL 效能提升 60% 以上及資料準確率提升 80% 。核心設計包括:
抽象化資料來源與資料目的端接口(Connector-based Architecture)
統一 Schema Mapping 與型別轉換機制
分散式讀寫與資料分區策略優化
透過 Apache Spark 重構資料處理流程,優化Partition 規劃與 Shuffle 控制、Persist / Cache 記憶體層級管理
設計並實作資料驗證(Data Validation)模組,建立:Schema 檢核與欄位型別驗證、資料缺失、重複與異常值監控
設計 RESTful API ETL 架構,用於擷取非結構化與外部系統資料
建置 Kubernetes 環境下之自動化測試與 GitLab CI/CD Pipeline
參與 CaFe 聯邦學習框架開發,實作分散式模型訓練與安全參數聚合機制,透過 Federated Learning 架構解決資料孤島問題,降低 20% 詐騙金流。主要參與內容包括:
於 Kubernetes 上部署 Hadoop 生態(Spark / YARN / HDFS),設計資源隔離與端到端測試流程(Smoke / Stress / Stability),提升平台穩定性與可維運性。
於 AWS(EMR / EC2 / RDS)與 GCP 建置多雲大數據與測試環境,支援跨環境部署與驗證。
參與敗血症預測專案之資料與模型工程設計,建立完整資料前處理 Pipeline(缺失值處理、異常值檢測、類別編碼、Stratified Split),透過模型優化提升臨床輔助判斷能力。主要參與內容包括:
設計完整資料前處理 Pipeline,包括,空值處理(Missing Value Imputation) 極值與異常值檢測(Outlier Handling) 類別型與連續型資料區分與編碼 Stratified Shuffle Split 以維持類別比例並強化訓練穩定性。
開發 XGBoost 模型並進行特徵工程與超參數調校,提升 Recall 與 Precision 表現,降低 33% 檢驗誤判率。
將整體模型與資料處理流程容器化並部署於 Kubernetes: 建立可重現訓練與推論環境、提升部署一致性與遷移效率、降低環境建置成本。
開發無人戰鬥機AI,提供飛行員進行假想敵訓練。
開發資料前處理功能,處理空值、極值及區分離散或連續型資料。
透過LSTM、NN、RL等技術,訓練無人戰鬥機模型。
建立數據視覺化網站,提升數據研究效率,加速特徵蒐集。
透過javascript、PHP等語言開發數據視覺化網站。
開發朝陽電子報網頁,負責登入、留言板、管理員網站等。
開發朝陽USR計畫網站,使用Django製作,運用Javascript、Ajax、Postgresql等技術。
- 專利展示 -
Patent
專利權期間:
2025-07-11 ~ 2035-02-18
專利權期間:
2024-11-21 ~ 2034-08-25
- 個人作品集展示 -
Side Project
使用Flink探索串流與AI Guardrail技術
使用Flink與Kafka搭建於K8S,模擬資料串流對話過程,使用Kafka蒐集對話資訊,並Flink執行串流資訊遮罩或加密後傳送給LLM進行思考,後續將LLM回傳結果再透過Flink執行資訊加密或轉譯後傳送回Kafka發送內容至前端API。
串接台灣交易所自動化交易匯率
使用網格交易方式,自動化低買高賣,串接MAX交易所API並提供等比或等差的交易方式。搭配使用tkinter提供使用者介面方便觀察獲利及掛單情況。影片說明
(此功能MAX以於2023/08/08自行開發提供)
串接Defi與Cefi的自動化期現套利系統
透過web3.py與鏈上智能合約交互,並定時監控鏈上資產狀況及利潤;透過交易所Restful API即時監控市場波動及買賣,並記錄實時利潤及預期利潤。
串接binance自動化趨勢線策略交易
使用技術形態學策略,依照策略進出場自動化買賣,串接Binance api批量篩選所有可交易幣種,全天候24小時自動交易,並在每次進出場時通知使用者開單點位及收益狀況。
串接台灣交易所自動化再平衡匯率
使用再平衡的方式,自動化平衡資產價值並同時獲取活期存款獎勵,串接MAX交易所API。搭配使用tkinter提供使用者介面方便觀察獲利及屯幣情況。
視覺化查看全台流浪動物數據 / LINE Bot即時通報
Web網站方面:使用Javascript, PHP進行開發,定期爬取opendata至FireBase資料庫進行資料清洗與處理後,最終將視覺化網站搭建於herokuapp平台供使用者瀏覽。
(因herokuapp免費期限已到,網站已無法使用,可觀看youtube介紹影片)
Line bot方面:使用google script進行開發串接LINE Message建立聊天機器人,並提供流浪動物通報、寵物遺失通報、附近動物醫院通報、流浪動物收容等功能。並在遺失通報中加上精準推播提升找回效果,並將所有上傳資料串接imagurAPI作為圖像資料庫。(目前還可以用唷~)
- 學歷 -
Education
畢業論文:基於對沖的低風險高獲利加密貨幣套利系統
獨力完成AI決策篩選系統
獨力完成自動量化交易系統:趨勢量化網格、型態網格
Oh!DogCat流浪動物收容平台開發 負責後端程式、數據分析、資料庫開發等。
Oh!DogCat流浪動物 LINE官方聊天機器人 負責數據處裡、後端程式、資料庫開發等。
獨立製作網頁遊戲設計,從規劃、故事、場景等,到雛形、實作、測試於1個月內完成。
使用Swift製作流浪動物收容APP
參與第23屆競舞啦啦隊籌辦組,從規劃、資金、主題等,到人員分配、陣型於4個月內完成並獲得優勝。
獨立製作線上股票看盤系統,使用Jupyter Notebook製作。
於104年全國商業技藝競賽程式設計組第10名。
高雄數位程式設計競賽第1名。
領導精英社社員,帶領國高中生參與活動及講解活動內容。
畢聯會活動執行長,規劃畢業活動、畢業典禮、畢冊設計製作等。
擁有軟體應用乙級、會計資訊丙級、網頁設計丙級。
感謝您閱讀此篇內容,祝您有個美好的一天。
我是 劉瑞源,一個專注於 #數據 #金融 #商業 的探險家
Thank you for reading this and have a nice day.
I am jui-yuan Liu , an explorer focusing on #data #finance #business