目錄

20200718 想法源起 20200719 我們在做什麼(一) 20200722 我們在做什麼(二) 20200725 竟然成為數學家(一) 20200729 竟然成為數學家(二) 20200801 竟然成為數學家(三) 20200805 不同職級(一) 20200808 不同職級(二) 20200812 趕客系列(一)為什麼讀大學? 20200815 趕客系列(二)不同大學學位跟工作的關係 20200819 趕客系列(三)大學的目的 20200822 趕客系列(四)大學為什麼要有主修 20200826 趕客系列(五)要挑選一個什麼樣的主修 20200829 沒有無緣無故的恨(一) 20200831 科普系列 - 數學與電影動畫製作(一) 20200902 沒有無緣無故的恨(二) 20200905 沒有無緣無故的恨(三) 20200907 科普系列 - 數學與電影動畫製作(二) 20200909 終身職位的評核 20200912 學術界吸引人的地方 20200914 科普系列 - 數學與電影動畫製作 (三) 20200916 學術界辛苦的地方(一) 20200919 學術界辛苦的地方(二) 20200921 科普系列 - 數學與電影動畫製作 (四) 20200923 大學的讀書成績有多重要 20200926 本科生研究機會 20200928 科普系列 - 數學與圖像修復(一) 20200930 用創新的方法去教育科學 20201003 參加研討會的重要 20201005 科普系列 - 數學與圖像修復(二) 20201007 教授與教學 20201010 研究是什麼(一) 20201012 科普系列 - 數學與圖像修復(三) 20201014 研究是什麼(二) 20201017 研究是什麼(三) 20201019 科普系列 - 數學與圖像修復(四) 20201021 如何閱讀研究論文 20201024 研究生應該修什麼課 20201026 科普系列 - 數學與圖像修復(五) 20201029 本科生的多主修多副修 20201102 科普系列 - 數學與數獨(一) 20201105 幾位教授(一) 20201109 科普系列 - 數學與數獨(二) 20201112 幾位教授(二) 20201116 科普系列 - 數學與數獨(三) 20201119 幾位教授(三) 20

科普系列 - 數學與基因排序(三)


在2011年科大開始跟UCLA Institute of Applied and Pure Mathematics(IPAM)合作,舉辦了一個本科生暑期研究活動叫做Research in Industrial Projects for Students (RIPS)。每年有大約八名美國不同地方的本科生會跟我們科大找來的八名本地本科生,分成四組去做一些我們找來的公司提供的本科生研究項目。起初頭幾年,我們都也找來華大基因(BGI)提供一些應用數學的項目。這些題目都非常有趣,他們都有着生物科技的「包裝」,內裏都是一些數學問題。我還記得2011年他們提供的問題,就跟剛剛提到的有關。他們提供的問題是這樣子的。在一些沼澤裏面,他們可能採集到不同細菌樣本。裏面有的細菌種類可能有很多,有一些是已知的,有一些可能是新品種,而且裏面有多少不同物種也不清楚。項目的目的,是希望把這些樣本做DNA分析,了解到他們是什麼種類的生物。這個項目的難處有以下兩個,第一,我們根本不清楚樣本裏面有多少不同種類的生物。第二,當我們進行NGS時,我們會將好幾種不一樣的DNA樣本同時進行剪碎以及混合起來。當我們將這些從不同生物裏面得來的DNA小段進行排序,我們如何可以將它們組合會多條完整的DNA排序呢?有興趣了解裏面解決辦法的讀者,可以看一下我們同學最後得出來的研究成果 [3]。我們下面會簡單介紹一下原來NGS將不同DNA小塊組合的想法,然後簡單介紹一下這個本科生研究問題的複雜之處。


簡單的來說,這個從一小段組合邊會整組DNA排序的過程,就跟我們拼湊拼圖的原理是一樣的。我猜想大部份讀者都有組合拼圖的經驗,一份剛開始的拼圖,我們只可以看見每一小塊拼圖上面的圖畫。遊戲目的是將所有不同的小塊組合還原為原本的圖畫。當然,我們在玩拼圖時,我們有一幅完整正確的圖畫去加以比較,幫助我們將不同組件組合在一起。儘管如此,我們在拼圖時就算不看答案,也可以從每一小塊邊緣的形狀測試他們是否能合在一起。


DNA排序過程的原理也差不多。 DNA每一小段的兩端還是有一些特徵的。我們可以(編寫電腦程式,幫助我們)比較不同小段兩端的特徵,看看他們會否能拼合在一起。舉一個很簡單的例子,我現在給你3段數字組合,希望將這3段數字可以連接在一起成為一整段。他們分別是

X: 1-2-3-4-3,

Y: 3-1-2,

Z: 4-3-4-1。


有其中一個可能性,我們會將X跟Y連起來。因為我們看見在X的最後一個數字和Y的第一個數目字一樣,所以我們猜想他們應該有關。可是如果我們單憑一個數目字就將不同「DNA小段」連繫起來,而且很多時候我們就會得到一些錯的答案。第一個原因,在真實DNA排序的應用上,這些12345數字就只有四個,代表着ACGT的DNA組合成份。所以這麼多的小段末端,我們會見到大約有¼是1,¼是2,¼是3,亦都有¼是4。如果只看每一段的末端數字就將不同線段黏合起來,得到的組合就會非常多。亦會組合了很多沒有意義的東西出來。最大的問題,是沒有人說「3就是黏合劑,看見一樣的就黏合起來」。因為我們得到的這些「DNA」小段並不一定都來源於唯一一條DNA。所以當我們將這對DNA隨機剪裁,根本不可能剛好看見一個元素重複出現在兩小段來。


留言