資料結構的黃金原則:讓你的資料天生好用
學習 Tidy Data 三大原則,建立正確的資料結構思維,讓公式、AI 和資料分析工具都能順利運作。
文章目錄
你有過這種經驗嗎?
明明請 AI 寫好了 Google 試算表公式,語法檢查完全正確,貼進去後卻得到冷冰冰的錯誤訊息。你反覆檢查了十次,資料明明就在那裡,但試算表就像跟你隔了一道牆,怎麼也抓不到。
其實,問題通常不在你的技術,而在資料的「長相」。
AI 產出的公式通常有個前提:它假設你的資料是「整潔」的(每一列是一筆記錄、每一欄是一個特徵)。如果資料結構不符合這個默契,再強大的公式或 AI,也難以發揮實力。
這就像請大廚來家裡外燴,結果發現食材全混在一起:砂糖跟鹽巴裝在同一個袋子、生肉直接壓在水果上。這不是廚師手藝不好,而是食材的「存放方式」讓他沒辦法開工。
在進入複雜函式之前,我們得先建立一個核心觀念,也就是數據界通用的:「Tidy Data」(整潔資料原則)。
什麼是 Tidy Data?
原則一:一列(Row)就是一個完整故事
想像每一列都是一個獨立的事件。
為什麼?
試算表在運算時,習慣「逐列」掃描。如果一筆資料跨了兩列,它會以為這是兩個不相關的故事,導致統計結果跟著「失真」。
-
常見陷阱:資訊拆兩層
這在人眼看來很省空間,但對試算表來說卻像是在玩解謎。你沒辦法輕鬆篩選出「金額 > 30,000 的訂單」,因為金額那一列根本沒有訂單編號。
| 訂單編號 | 內容細節 |
|---|---|
| A001 | 客戶:王小明 |
| 產品:筆記型電腦 | |
| 金額:35,000 |
-
更適合的做法
一列到底:與其把上衣、褲子、領帶分開放在不同的抽屜(跨列),不如把它們配成一整套放在同一個格位裡。這樣無論你想按「客戶」還是「金額」來排序,資料都不會走鐘。
| 訂單編號 | 客戶 | 產品 | 金額 |
|---|---|---|---|
| A001 | 王小明 | 筆記型電腦 | 35000 |
| A002 | 李大華 | 平板電腦 | 18000 |
原則二:一欄(Column) 只講一個特徵
每一欄應該只代表一個維度。如果你發現一欄裡面塞了兩種以上的資訊,分析時你就得先玩辛苦的「文字拆拆樂」。我們通常稱這個拆分的單位叫做「粒度(或顆粒度,Granularity)」。
- 舉例:地址
如果地址全都塞在一起,當老闆問你「信義區有多少客戶?」時,你得寫一串複雜的公式去切開文字。
| 姓名 | 地址 |
|---|---|
| 王小明 | 台北市信義區松仁路 100 號 |
-
建議做法:把特徵抽出來
試著把地址內的資訊拆開,分成城市、區域、街道地址。
| 姓名 | 城市 | 區域 | 街道地址 |
|---|---|---|---|
| 王小明 | 台北市 | 信義區 | 松仁路 100 號 |
怎麼判斷要拆多細?問自己一個簡單的問題:
「我之後會需要單獨針對這個資訊進行過濾或統計嗎?」
如果答案是肯定的,就請大方地給它獨立的一欄。
原則三:標題列是整份表的導航
第一列(標題列,Header)是試算表的靈魂,也是 AI 判斷資料意義最重要的依據。
讓導航保持清晰的三個小秘訣:
-
命名要直覺:「當月銷售總額」絕對比「欄位 A」更容易讓 AI 理解。
-
避免重複:不要出現兩個「金額」欄位,以免試算表搞不清楚誰是誰。
-
堅持「單層標題」:盡量避免合併第一列寫「第一季」,第二列才寫「1月/2月」。這種多層結構雖然美觀,但會讓樞紐分析功能非常吃力。
「看起來很漂亮」
在追求報表美學時,我們常不小心掉進這兩個陷阱:
1. 合併儲存格
合併儲存格是「給人看」的藝術,但在「存資料」的分頁裡,它是運算的阻礙。合併後,除了左上角那一格,其他格子其實都是「空的」。排序時,這些隱形的空位會讓你的資料瞬間移位。
原始資料層請保持「素顏」(不合併)。想要漂亮的排版,我們留到最終呈現的「報表層」再處理。
(原始資料層、報表層是什麼?延伸閱讀:三層架構設計思維(上):為什麼你的試算表需要分層)
2. 隨意的空白列
有些人習慣用空白列來分組,覺得視覺上比較清爽。但這就像在行駛中的軌道上抽掉幾根枕木,當你使用快捷鍵(如 Ctrl + A)或自動過濾時,試算表會以為資料到空白處就結束了。
為什麼在 AI 時代,結構比以前更重要?
因為你現在有了 AI 隊友。
你可能會想:「現在 AI 很聰明,我丟截圖過去,它不是也看懂我的合併儲存格嗎?」
確實,AI 的視覺辨識很強,但堅持 Tidy Data 有兩個無法取代的好處:
-
公式更強健、好維護:如果資料亂,AI 為了遷就排版,會被迫寫出一個極其複雜、像補丁一樣的公式。這種公式雖然當下能動,但未來你只要多插一列或改個位置,它就會報錯。結構越乾淨,AI 給你的解答就越簡潔、越不容易壞。
-
突破大量資料的限制:截圖只能拍到螢幕看到的幾十列。當你有上萬行資料時,AI 沒辦法透過視覺幫你處理「整份」檔案。但如果你告訴它:「我的資料標題在第一列,A 欄是編號、B 欄是日期」,它就能針對整份資料提供精確的邏輯建議。
重點整理
- 一列一筆記錄:不跨行、不留白,確保每一筆資料的完整性。
- 一欄一個維度:需要統計的關鍵特徵,請獨立設欄。
- 先結構,後美化:資料是用來運算的,美觀的排版建議放在最後一層。
- 對 AI 友善,就是對自己友善:標準的結構能大幅提升 AI 輔助開發的準確率。
相關文章
查看所有文章留言討論
共 0 則留言