精品一区二区中文在线,无遮挡h肉动漫在线观看,国产99视频精品免视看9,成全免费高清大全

數據處理面試題(2)

時間:2024-07-19 09:48:11 學人智庫 我要投稿
  • 相關推薦

數據處理面試題(2)

  方案2:采用快速排序的思想,每次分割之后只考慮比軸大的一部分,知道比軸大的一部分在比100多的時候,采用傳統排序算法排序,取前100個。復雜度為O(100w*100)。

數據處理面試題(2)

  方案3:采用局部淘汰法。選取前100個元素,并排序,記為序列L。然后一次掃描剩余的元素x,與排好序的100個元素中最小的元素比,如果比這個最小的要大,那么把這個最小的元素刪除,并把x利用插入排序的思想,插入到序列L中。依次循環,知道掃描了所有的元素。復雜度為O(100w*100)。

  13. 尋找熱門查詢:

  搜索引擎會通過日志文件把用戶每次檢索使用的所有檢索串都記錄下來,每個查詢串的長度為1-255字節。假設目前有一千萬個記錄,這些查詢串的重復讀比較高,雖然總數是1千萬,但是如果去除重復和,不超過3百萬個。一個查詢串的重復度越高,說明查詢它的用戶越多,也就越熱門。請你統計最熱門的10個查詢串,要求使用的內存不能超過1G。

  (1) 請描述你解決這個問題的思路;

  (2) 請給出主要的處理流程,算法,以及算法的復雜度。

  方案1:采用trie樹,關鍵字域存該查詢串出現的次數,沒有出現為0。最后用10個元素的最小推來對出現頻率進行排序。

  14. 一共有N個機器,每個機器上有N個數。每個機器最多存O(N)個數并對它們操作。如何找到N^2個數中的中數?

  方案1:先大體估計一下這些數的范圍,比如這里假設這些數都是32位無符號整數(共有2^32個)。我們把0到2^32-1的整數劃分為N個范圍段,每個段包含(2^32)/N個整數。比如,第一個段位0到2^32/N-1,第二段為(2^32)/N到(2^32)/N-1,…,第N個段為(2^32)(N-1)/N到2^32-1。然后,掃描每個機器上的N個數,把屬于第一個區段的數放到第一個機器上,屬于第二個區段的數放到第二個機器上,…,屬于第N個區段的數放到第N個機器上。注意這個過程每個機器上存儲的數應該是O(N)的。下面我們依次統計每個機器上數的個數,一次累加,直到找到第k個機器,在該機器上累加的數大于或等于(N^2)/2,而在第k-1個機器上的累加數小于(N^2)/2,并把這個數記為x。那么我們要找的中位數在第k個機器中,排在第(N^2)/2-x位。然后我們對第k個機器的數排序,并找出第(N^2)/2-x個數,即為所求的中位數的復雜度是O(N^2)的。

  方案2:先對每臺機器上的數進行排序。排好序后,我們采用歸并排序的思想,將這N個機器上的數歸并起來得到最終的排序。找到第(N^2)/2個便是所求。復雜度是O(N^2*lgN^2)的。

  15. 最大間隙問題

  給定n個實數,求著n個實數在實軸上向量2個數之間的最大差值,要求線性的時間算法。

  方案1:最先想到的方法就是先對這n個數據進行排序,然后一遍掃描即可確定相鄰的最大間隙。但該方法不能滿足線性時間的要求。故采取如下方法:

  找到n個數據中最大和最小數據max和min。

  用n-2個點等分區間[min, max],即將[min, max]等分為n-1個區間(前閉后開區間),將這些區間看作桶,編號為,且桶i 的上界和桶i+1的下屆相同,即每個桶的大小相同。每個桶的大小為:。實際上,這些桶的邊界構成了一個等差數列(首項為min,公差為),且認為將min放入第一個桶,將max放入第n-1個桶。

  將n個數放入n-1個桶中:將每個元素x[i] 分配到某個桶(編號為index),其中,并求出分到每個桶的最大最小數據。

  最大間隙:除最大最小數據max和min以外的n-2個數據放入n-1個桶中,由抽屜原理可知至少有一個桶是空的,又因為每個桶的大小相同,所以最大間隙不會在同一桶中出現,一定是某個桶的上界和氣候某個桶的下界之間隙,且該量筒之間的桶(即便好在該連個便好之間的桶)一定是空桶。也就是說,最大間隙在桶i的上界和桶j的下界之間產生j>=i+1。一遍掃描即可完成。

  16. 將多個集合合并成沒有交集的集合

  給定一個字符串的集合,格式如:。要求將其中交集不為空的集合合并,要求合并完成的集合之間無交集,例如上例應輸。

  (1) 請描述你解決這個問題的思路;

  (2) 給出主要的處理流程,算法,以及算法的復雜度;

  (3) 請描述可能的改進。

  方案1:采用并查集。首先所有的字符串都在單獨的并查集中。然后依掃描每個集合,順序合并將兩個相鄰元素合并。例如,對于,首先查看aaa和bbb是否在同一個并查集中,如果不在,那么把它們所在的并查集合并,然后再看bbb和ccc是否在同一個并查集中,如果不在,那么也把它們所在的并查集合并。接下來再掃描其他的集合,當所有的集合都掃描完了,并查集代表的集合便是所求。復雜度應該是O(NlgN)的。改進的話,首先可以記錄每個節點的根結點,改進查詢。合并的時候,可以把大的和小的進行合,這樣也減少復雜度。

  17. 最大子序列與最大子矩陣問題

  數組的最大子序列問題:給定一個數組,其中元素有正,也有負,找出其中一個連續子序列,使和最大。

  方案1:這個問題可以動態規劃的思想解決。設b[i]表示以第i個元素a[i]結尾的最大子序列,那么顯然。基于這一點可以很快用代碼實現。

  最大子矩陣問題:給定一個矩陣(二維數組),其中數據有大有小,請找一個子矩陣,使得子矩陣的和最大,并輸出這個和。

  方案2:可以采用與最大子序列類似的思想來解決。如果我們確定了選擇第i列和第j列之間的元素,那么在這個范圍內,其實就是一個最大子序列問題。如何確定第i列和第j列可以詞用暴搜的方法進行。

  第二部分、海量數據處理之Bti-map詳解

  Bloom Filter已在上一篇文章海量數據處理之Bloom Filter詳解中予以詳細闡述,本文接下來著重闡述Bit-map。有任何問題,歡迎不吝指正。

  什么是Bit-map

  所謂的Bit-map就是用一個bit位來標記某個元素對應的Value, 而Key即是該元素。由于采用了Bit為單位來存儲數據,因此在存儲空間方面,可以大大節省。

  如果說了這么多還沒明白什么是Bit-map,那么我們來看一個具體的例子,假設我們要對0-7內的5個元素(4,7,2,5,3)排序(這里假設這些元素沒有重復)。那么我們就可以采用Bit-map的方法來達到排序的目的。要表示8個數,我們就只需要8個Bit(1Bytes),首先我們開辟1Byte的空間,將這些空間的所有Bit位都置為0(如下圖:)

  然后遍歷這5個元素,首先第一個元素是4,那么就把4對應的位置為1(可以這樣操作 p+(i/8)|(0×01<<(i%8)) 當然了這里的操作涉及到Big-ending和Little-ending的情況,這里默認為Big-ending),因為是從零開始的,所以要把第五位置為一(如下圖):

  然后再處理第二個元素7,將第八位置為1,,接著再處理第三個元素,一直到最后處理完所有的元素,將相應的位置為1,這時候的內存的Bit位的狀態如下:

  然后我們現在遍歷一遍Bit區域,將該位是一的位的編號輸出(2,3,4,5,7),這樣就達到了排序的目的。下面的代碼給出了一個BitMap的用法:排序。

  view plain

  //定義每個Byte中有8個Bit位

  #include

  #define BYTESIZE 8

  void SetBit(char *p, int posi)

  {

  for(int i=0; i < (posi/BYTESIZE); i++)

  {

  p++;

【數據處理面試題(2)】相關文章:

德國公司經典面試題(2)07-10

IT數據處理員英文求職信06-08

Microsoft面試題09-04

iOS面試題07-10

公司面試題09-12

hibernate面試題10-18

英語面試題精選06-13

小升初面試題06-10

PHP面試題10-14

IT行業有關數據處理的英文求職信09-25