- 相關推薦
網易數據面試試題
一、問答題
a) 欠擬合和過擬合的原因分別有哪些?如何避免?
欠擬合:模型過于簡單;過擬合:模型過于復雜,且訓練數據太少。
b) 決策樹的父節點和子節點的熵的大小?請解釋原因。
父節點的熵>子節點的熵
c) 衡量分類算法的準確率,召回率,F1值。
d) 舉例序列模式挖掘算法有哪些?以及他們的應用場景。
DTW(動態事件規整算法):語音識別領域,判斷兩端序列是否是同一個單詞。
Holt-Winters(三次指數平滑法):對時間序列進行預測。時間序列的趨勢、季節性。
Apriori
Generalized Sequential Pattern(廣義序貫模式)
PrefixSpan
二、計算題
1) 給你一組向量a,b
a) 計算二者歐氏距離
(a-b)(a-b)T
即:
b) 計算二者曼哈頓距離
2) 給你一組向量a,b,c,d
a) 計算a,b的Jaccard相似系數
b) 計算c,d的向量空間余弦相似度
c) 計算c、d的皮爾森相關系數
即線性相關系數。
或者
三、(題目記得不是很清楚)
一個文檔-詞矩陣,給你一個變換公式tfij’=tfij*log(m/dfi);其中tfij代表單詞i在文檔f中的頻率,m代表文檔數,dfi含有單詞i的文檔頻率。
1) 只有一個單詞只存在文檔中,轉換的結果?(具體問題忘記)
2) 有多個單詞存在在多個文檔中,轉換的結果?(具體問題忘記)
3) 公式變換的目的?
四、推導樸素貝葉斯分類P(c|d),文檔d(由若干word組成),求該文檔屬于類別c的概率,并說明公式中哪些概率可以利用訓練集計算得到。
五、給你五張人臉圖片。
可以抽取哪些特征?按照列出的特征,寫出第一個和最后一個用戶的特征向量。
六、考查ID3算法,根據天氣分類outlook/temperature/humidity/windy。(給你一張離散型的圖表數據,一般學過ID3的應該都知道)
a) 哪一個屬性作為第一個分類屬性?
b) 畫出二層決策樹。
七、購物籃事物(關聯規則)
一個表格:事物ID/購買項。
1) 提取出關聯規則的最大數量是多少?(包括0支持度的規則)
2) 提取的頻繁項集的最大長度(最小支持>0)
3) 找出能提取出4-項集的最大數量表達式
4) 找出一個具有最大支持度的項集(長度為2或更大)
5) 找出一對項a,b,使得{a}->{b}和{b}->{a}有相同置信度。
八、一個發布優惠劵的網站,如何給用戶做出合適的推薦?有哪些方法?設計一個合適的系統(線下數據處理,存放,線上如何查詢?)
http://salifelink.com/【網易數據面試試題】相關文章:
網易在線筆試題目10-19
網易面試技巧(2)07-25
網易筆試面試經歷(2)09-16
網易游戲部門面試問題(2)06-25
面試中常見的面試試題08-21
Microsoft面試題09-04
iOS面試題07-10
Spring面試試題09-19
經典常見的面試試題09-14