数据工程师自学路线
如果你想往数据工程 / 数据科学方向走,用 Python 起步,我推荐大致可以按这条主线:书打基础 → 视频补「大局观」→ 针对性练库 → 在真实项目里串起来。
用两本书把基础打穿
-
《Python 数据科学手册》(强烈推荐先看)
- 覆盖 IPython / Jupyter、NumPy、Pandas、Matplotlib、Scikit-learn 等一整套工具,适合当「总览 + 手册」。
- 官方 GitHub 有完整 Jupyter Notebook,可以边看边跑代码,非常适合自学和做笔记复现。
-
《利用 Python 进行数据分析》(Wes McKinney)
- 本书的作者同时也是 Pandas 库的作者之一,这本基本等于「Pandas 权威指南」,重点练习:索引、分组、时间序列、数据清洗。
- 适合作为「把表格数据摸透」的专项训练。
建议顺序: 先用《数据科学手册》跑一遍流程,再用《利用 Python 进行数据分析》把 Pandas 打实。
核心库与思维方式
围绕「表 → 数组 → 可视化 → 算法」四个环节:
-
NumPy:数值计算地基
- 多维数组、广播、向量化运算,是后面所有库(Pandas、SciPy、Scikit-learn)的共同基石。
-
Pandas:一切「表格数据」的第一选择
- 索引、数据清洗、缺失值处理、分组聚合、时间序列,练到顺手为止。
- 做数据工程时,大量临时转换、对账、检查质量都会用到。
-
Matplotlib + 衍生可视化库
- Matplotlib 是「底座」,几乎所有 Python 可视化库都依赖它。
-
在此基础上了解:
- Seaborn:统计图更顺手;
- Plotly:交互式图表,方便做 demo / 仪表盘。
-
SciPy & Scikit-learn(点到为止)
- SciPy:数值优化、插值、信号处理等,遇到复杂算法可以来这里找。
- Scikit-learn:掌握基础模型(线性回归、树模型、特征工程管线)就够用,大部分数据工程任务只要会「调一个简单模型」就能跑通实验。
-
xarray / Dask(进阶,可选)
- 面向多维时序、气象、遥感等大数组数据,可以把它们看作「带标签的多维表格」。
- Dask 用来做「超出单机内存」的数据处理,是从「分析脚本」往「工程化」迈步的重要工具。
用高质量视频补齐「工程直觉」
推荐这几场时长 1–2 小时的英文讲座:
- https://www.youtube.com/watch?v=5rNu16O3YNE&t=681s
- https://www.youtube.com/watch?v=ZB7BZMhfPgk&t=45s
- https://www.youtube.com/watch?v=rIofV14c0tc&t=308s
这些视频有一个共同的特点:讲的是「怎么在实际工作中做数据项目」而不是「语法教学」。
演讲者通常是有多年一线经验的工程师 / 科学家,内容更偏:
- 如何设计数据流水线
- 怎么权衡「先做出来」和「做得优雅」
- 常见坑和工程实践
建议: 先在书本 + 实操打完基础后再看这些视频,会有哦,原来他们是这样串起来的的感觉。
如何用这条路线自我迭代
- 先通读 + 跑书上的代码,别纠结 API 是否有小改动,重点是思路。
- 再挑一两个你自己的小项目(比如日志清洗、公开数据分析),刻意用 Pandas / NumPy / 可视化把流程走一遍。
- 遇到瓶颈再回来看视频和文档,把工程师的思路、抽象方法慢慢融进自己的习惯里。