数据工程师自学路线

如果你想往数据工程 / 数据科学方向走，用 Python 起步，我推荐大致可以按这条主线：书打基础 → 视频补「大局观」→ 针对性练库 → 在真实项目里串起来。

用两本书把基础打穿

《Python 数据科学手册》（强烈推荐先看）
- 覆盖 IPython / Jupyter、NumPy、Pandas、Matplotlib、Scikit-learn 等一整套工具，适合当「总览 + 手册」。
- 官方 GitHub 有完整 Jupyter Notebook，可以边看边跑代码，非常适合自学和做笔记复现。
《利用 Python 进行数据分析》（Wes McKinney）
- 本书的作者同时也是 Pandas 库的作者之一，这本基本等于「Pandas 权威指南」，重点练习：索引、分组、时间序列、数据清洗。
- 适合作为「把表格数据摸透」的专项训练。

建议顺序：先用《数据科学手册》跑一遍流程，再用《利用 Python 进行数据分析》把 Pandas 打实。

围绕「表 → 数组 → 可视化 → 算法」四个环节：

NumPy：数值计算地基
- 多维数组、广播、向量化运算，是后面所有库（Pandas、SciPy、Scikit-learn）的共同基石。
Pandas：一切「表格数据」的第一选择
- 索引、数据清洗、缺失值处理、分组聚合、时间序列，练到顺手为止。
- 做数据工程时，大量临时转换、对账、检查质量都会用到。
Matplotlib + 衍生可视化库
- Matplotlib 是「底座」，几乎所有 Python 可视化库都依赖它。
- 在此基础上了解：
  - Seaborn：统计图更顺手；
  - Plotly：交互式图表，方便做 demo / 仪表盘。
SciPy & Scikit-learn（点到为止）
- SciPy：数值优化、插值、信号处理等，遇到复杂算法可以来这里找。
- Scikit-learn：掌握基础模型（线性回归、树模型、特征工程管线）就够用，大部分数据工程任务只要会「调一个简单模型」就能跑通实验。
xarray / Dask（进阶，可选）
- 面向多维时序、气象、遥感等大数组数据，可以把它们看作「带标签的多维表格」。
- Dask 用来做「超出单机内存」的数据处理，是从「分析脚本」往「工程化」迈步的重要工具。

推荐这几场时长 1–2 小时的英文讲座：

这些视频有一个共同的特点：讲的是「怎么在实际工作中做数据项目」而不是「语法教学」。

演讲者通常是有多年一线经验的工程师 / 科学家，内容更偏：

建议：先在书本 + 实操打完基础后再看这些视频，会有哦，原来他们是这样串起来的的感觉。