Meng Zhou’s Website

跳槽面试题总结

2026-04-01T00:00:00-04:00

记录一下这次跳槽面试过程中遇到的面试题，供大家参考。

背景：2yoe，多大CS研究生，有paper。跳槽的时候在银行做Applied ML Scientist，海投的职位也类似比如Applied Scientist，Machine Learning Engineer，Machine Learning Scientist，Research Engineer和AI Scientist。下面按公司总结一些遇到的面试题：

某V开头的投资公司，MLE岗：

General ML
- L1 and L2 regularization
- data drift vs model drift, detection method (PSI)
- end-to-end flow from ideation to productionization of ML model
- model serving
Agent related
- agent-to-agent communication, MCP
- short-term vs long-term memory, how to design the memory module
- Agent RL
MLOps
- Docker (ML模型上线，docker因为访问量过大崩了，应该怎么处理), Kubernetes, MLflow

粉车，MLE岗：

General ML
- cross validation, ask you to look at training and validation curves and tell if the model is overfitting or underfitting, and how to fix it. What if in production the model is underperforming, how to handle it?
- Mathematically, why multicolinearity is a problem for linear regression, how L1 regularization can help with it? (multicolinearity -> linear dependence -> not full rank -> not invertible -> no unique solution)
- L1 and L2 regularization, how to choose between them?
Coding
- Numpy implementation of Kmeans and extended to Kmeans++
- LC 九八一，七六

某红色银行，AI Scientist岗：

Agent related
- discuss my RAG project for 1h, ask about the details of the retriever and generator, and how to evaluate the performance of the RAG system
- How to reduce the latency? How to improve the retriever performance?

某A开头的药企，Senior AI Scientist岗：

Deep Learning
- Transformer architecture, attention mechanism
- Position encoding
- Different inference sampling methods for diffusion (DDPM-Solver，DDIM)
- Image tokenizer for autoregressive image generation
Research Presentation
- 30min presentation on my research, followed by 30min Q&A. Questions are mostly about the details of the model architecture and training process, i.e. what if the loss is not converging or goes to NaN, how to debug?
Coding
- implement a very simple agentic or LLM-based framework to generate questions and answers for a given topic, and then evaluate the quality of the generated questions and answers.

某O开头的养老金公司，MLE岗：

General ML
- lightgbm vs xgboost
Deep Learning / LLM
- Transformer architecture, attention mechanism
- LoRA PEFT
- preprocessing for LLM post-training data
- how to preprocess long docs, OCR on long docs, how to align table data and text analysis if the content span multiple pages, how to handle the page breaks in the middle of a table, etc.
Agent related
- Design an agentic system to automate the process of financial report analysis, including data extraction, summarization, etc. Discuss the data pipeline, generation pipeline, and how to evaluate its performance.

最后祝大家跳槽顺利！

记最强大脑第八季最终轮线下测试

2021-12-01T00:00:00-05:00

前言

在2020年9月份的时候通过邮箱报名了最强大脑第八季的海选。在10月9日，最强大脑导演通过微信找到我并给我发了第一轮初试的测试链接，要求5天内做完。

10月10日完成测试，用了一个小时，有4个部分，每个部分限时15分钟，大概每个部分15-20道题（记不太清了）。题目有点像行测里面的逻辑推理题（但是是进阶版）。个人觉得时间挺紧的，有一两个部分最后几道题都没时间做。

10月16日的时候导演通知我通过初试，并且直接进入到最后一轮线下项目测试（我初试分80/100），在南京。

南京线下测试

线下测试是10月25日早上9点到下午6点。如果需要节目组会帮着定前一天的酒店，我24日到的南京就住的节目组订的酒店。

线下测试题目：

线下测试分为5个项目，感觉基本上计算，推理，空间，观察，记忆考了个遍。下面分别来细说一下各个项目。

第一个项目是经典数回，规则：
- 盘面由若干个数字和若干个点组成。每一个数字，代表其周围四边形划线的数目。
- 把点与点以直线相连，使之成为一个回路，且只能有一个回路。四点之间的数字代表在其四边形周围线的数目。
- 在没有数字的地方，划线的数目没有任何限制，而0的四周则不能有任何划线。路线不能交叉，也不能有分岔。
- 测试时是两道题，限时30分钟。纯计算+推理。
第二个项目是圆形之美，规则：
- 在给定的数十张动物图片里面，从中挑选一张作为目标图案
- 该目标图案是由若干个圆形通过布尔运算得出，你需要观察并记忆该动物图案的轮廓信息
- 在作答区，分布着几十张画着圆形的图片，这些图片随机进行 90、180、270度的旋转
- 你需要找到这唯一的圆形图片，使之能通过布尔运算成功拼出目标图案，就算作答成功
- 测试时是三道题，好像是限时1小时，逻辑推理+观察，有点小难
第三个项目是玲珑拼图和积木金字塔：
- 这两个规则就不过多赘述，都是给你几个碎片或小块，然后按照盘面的样式给拼好。必须用完所有碎片
- 测试时是一道拼图一道金字塔，好像也是限时1小时，都是观察+推理题
第四个项目是多米诺效应，规则：
- 在空白盘面上，分布着若干个蓝色和紫色的齿轮，左侧绿色块是多米诺的起始区域，右侧黄色块是多米诺的结束区域
- 其中蓝色齿轮每次顺时针旋转90度，紫色齿轮每次逆时针旋转90度
- 每个齿轮旋转结束时候，该齿轮箭头指向的下一个齿轮接着旋转
- 你通过在脑海中推理，找出左侧起始区域唯一正确的一个齿轮，并点击它，使得多米诺效应最终传递到右侧结束区域的某个齿轮，并且该齿轮箭头指向右边
- 测试时是5道题，好像只有30分钟。计算+推理，还挺有意思的
第五个项目是记二维码，给了三张二维码，先记忆，然后去答题区从100个干扰项里找出答案。给定的三张在答题区可能经过特定角度的旋转和翻转。只能记忆一次，去了答题区看完就写答案了，不能再回去重复看了。时间1小时，纯记忆。最后搞得我脑壳痛。
最后是面试，问问感觉怎么样，觉得自己能拿到什么样的成绩这些

虽说最后还是被淘汰了，但还是认识到很多小伙伴，还是蛮快乐的

Machine Learning / Algorithm Engineer Interview Question (Chinese)

2021-08-14T00:00:00-04:00

暑期即将告一段落，我暑期算法工程师实习也顺利结束了。在面试过程中面过不少公司，大多数都为技术面试。我总结了我所有遇到过的面试题供大家参考。面试职位大多数都是机器学习方向的算法工程师，绝大多数知识点都是和ML相关的。

机器学习相关（包括NLP，CV和推荐）：

基础知识
- 关于项目的问题，所有公司都会问，要对写在简历上的项目非常熟悉
- xgboost，random forest，lightGBM的区别
- 假设Random Forest有无穷个树，那么每个树的深度是越深越好还是越浅越好
- 走一遍GBDT算法的流程
- L1/L2正规区别，为什么L1比L2稀疏
- bagging和boosting的区别，bagging降低方差（variance）还是偏差（bias）
- xgboost怎么优化，叶子几点分裂准则，损失函数，正则
- Logistic regression公式推导，sigmoid和softmax区别
- Logistic regression怎么进行多分类（1v1，1 over rest）
- Logistic regression怎么拟合非线性模型，为什么可以用kernel trick？
- svm怎么处理非线性数据（kernel trick）以及和logistic regression的区别，loss推导
- precision，recall和F1-score区别
- AUC的解释
NLP相关
- 对于word2vec模型和word embedding的理解，有没有自己训练过word2vec模型？
- NLP里面的negative sampling是什么
- 计算词向量的相似度有哪些方法
- 解释一下N-gram, Bag-of-words(CBOW, Skip-gram)模型
- 简单说一下LSTM和GRU的区别
- LSTM真的可以解决梯度爆炸/消失的问题吗
- 介绍一下Transformer，attention机制，以及它和传统RNN的区别及优势
CV相关
- 简单说一下ResNet的bottleneck结构以及该模型是怎么解决的梯度爆炸的问题（short cut connection 推导）
- ResNet真的可以解决网络退化的问题吗
- 说一下Vision Transformer的结构，对于其他运用在视觉领域上的transformer based模型还有了解吗
- 1*1的卷积核有什么用
- 为什么两个33卷积的视野和一个55卷积的视野一样
- 池化层的反传播，以及平均池化和最大池化的区别
- 激活函数都有哪些？简单介绍，为什么要用非线性激活函数？
- Batch Normalization的作用，以及它和Layer Normalization的区别
- 数据归一化的作用，处理imbalanced data的方法
- 什么是过拟合和欠拟合，具体说一说在训练小样本量模型时防止过拟合的方法
- CNN为什么适用于图像分类
- 神经网络常见的激活函数有哪些
- categorical crossentropy，binary crossentropy公式
- Yolo模型里面的anchor的作用
- Yolov5, v4, v3 的区别有哪些，了解FPN吗
- 了解Focal loss吗，说一下intuition
- 有没有遇到过模型不收敛的情况，可能是什么原因，以及是怎么解决的
- 图像处理方面：bilinear interpolation和trilinear interpolation，高通低通滤波
推荐相关
- 推荐算法UCB应用场景及reward公式
- UCB存在的问题
- LinUCB 算法思路及reward公式
- 运用场景题：欧洲杯比赛日夜宵该怎么推荐？根据什么？用什么算法？

编程相关：

二叉树层序历遍（队列）
最大子序和（动规）
糖豆人（动规）
接雨水（双指针）
和为k的子数组（前缀和）
Leetcode 994 （DFS）
前K个高频元素（堆）

数学题：

一根不规则的绳子烧完要一小时整，问怎么用这跟绳子测量半小时的时间
岛上有m个男人和m个女人，一个男人和一个女人配对，共m对。假设每一对（i,1<=i<=m）都会繁衍后代。对于第i对，如果生到男孩，就停止；如果生到女孩，就接着生直到生到男孩为止。问经过n轮迭代，岛上男女总比例（包括生出来的男孩和女孩）

其他：

对Hadoop有了解吗
简单说一下Spark RDD是什么
Spark MLlib