目錄

20200718 想法源起 20200719 我們在做什麼(一) 20200722 我們在做什麼(二) 20200725 竟然成為數學家(一) 20200729 竟然成為數學家(二) 20200801 竟然成為數學家(三) 20200805 不同職級(一) 20200808 不同職級(二) 20200812 趕客系列(一)為什麼讀大學? 20200815 趕客系列(二)不同大學學位跟工作的關係 20200819 趕客系列(三)大學的目的 20200822 趕客系列(四)大學為什麼要有主修 20200826 趕客系列(五)要挑選一個什麼樣的主修 20200829 沒有無緣無故的恨(一) 20200831 科普系列 - 數學與電影動畫製作(一) 20200902 沒有無緣無故的恨(二) 20200905 沒有無緣無故的恨(三) 20200907 科普系列 - 數學與電影動畫製作(二) 20200909 終身職位的評核 20200912 學術界吸引人的地方 20200914 科普系列 - 數學與電影動畫製作 (三) 20200916 學術界辛苦的地方(一) 20200919 學術界辛苦的地方(二) 20200921 科普系列 - 數學與電影動畫製作 (四) 20200923 大學的讀書成績有多重要 20200926 本科生研究機會 20200928 科普系列 - 數學與圖像修復(一) 20200930 用創新的方法去教育科學 20201003 參加研討會的重要 20201005 科普系列 - 數學與圖像修復(二) 20201007 教授與教學 20201010 研究是什麼(一) 20201012 科普系列 - 數學與圖像修復(三) 20201014 研究是什麼(二) 20201017 研究是什麼(三) 20201019 科普系列 - 數學與圖像修復(四) 20201021 如何閱讀研究論文 20201024 研究生應該修什麼課 20201026 科普系列 - 數學與圖像修復(五) 20201029 本科生的多主修多副修 20201102 科普系列 - 數學與數獨(一) 20201105 幾位教授(一) 20201109 科普系列 - 數學與數獨(二) 20201112 幾位教授(二) 20201116 科普系列 - 數學與數獨(三) 20201119 幾位教授(三) 20

科普系列 - 數學與基因排序(四)



所以比較合理的,是我們需要看每一小段DNA頭尾兩到三個元素去進行比較。如果這樣, X連到Y是不合理的。因為在X裏面我們見到他的一端是4-3,可是在Y裏面,有3的一端應該是3-1。所以更合理的,是將X連到Z而得出

1-2-3-4-3-4-1。

然後我們將Y連到哪裏呢?一個合理的猜想,是將它放到最前面,我們就可以用「1-2」這個特徵將它跟X聯合起來。如果我們在「DNA排序」裏面得到X,Y和Z,我們猜想最終的組合將會是

3-1-2-3-4-3-4-1。


上面提到BGI在2011年給我們本科生進行的數學研究項目。由於我們根本不知道這堆DNA小塊來自於多少個不同物種,困難程度比剛剛提到的組合問題更高。如果再用拼圖作為例子,這就好像是我將不同圖案的拼圖混合在一起,再將所有原圖收起來,希望你將所有的拼圖還原一樣。


另外有一年BGI提供給我們同學另外一個非常有挑戰性的項目,裏面希望研究細胞突變跟發生癌症的關係。由於人類基因圖譜的完成,我們可以將病人的DNA排序跟這個基因圖譜的排序比較,看看不同基因位置會不會發生一點變化。從病人身上抽取的DNA會有兩個不同來源,一個是從血液裏面獲得的正常細胞,另外一個是癌細胞裏面組織的DNA。這裏有三個不同DNA排序。從病人身上抽取的DNA,有些位置可能跟基因圖譜有所不同,我們可以判別為自出世的時候從父母身上所獲得的基因突變特徵,叫做生髮突變(Germinal Mutation)。另外有些地方,可以見到從正常細胞的DNA排序跟基因圖譜的排序一樣,癌細胞內出現的DNA排序跟另外兩款不一樣,我們就可知道這個是病人由於癌細胞出現而導致的基因變化,這種突變叫做體細胞突變(Somatic Mutation)。聽起來好像很簡單,我們只需要將三條DNA排序比較就可以把所有體細胞突變的位置通通指出。可是,要記得這裏有30億個地方需要核對,而且在排序過程裏面都有可能發生計算錯誤。如何可以有一個快而且準確的方法解決這個問題就變得不太容易了。


又有一年,他們提供了我們同學一個有趣的項目。話說加拿大安大略省有兩個品種的水蚤(Daphnia pulex and pulicaria)。其中一款生長在Sudbury 附近Simon Lake的品種由於生長在長期受到金屬污染的環境,對重金屬鎘(Cadmium)已經有所適應。另外一個生長在Dorset的品種,由於並沒有接觸過這個污染物,並不能在這個受污染的環境生長。而這個研究項目的目的,就是比對這兩個品種生物的DNA排序,嘗試指出DNA上面那一個部份可以幫助物種對重金屬物質的適應。由於有海量的數據,同學就需要運用不同的數學方法去設計機械學習的程式,幫忙找出在DNA上面相應的位置。


同樣的技術在很多不同的生物科技問題上都可以見到。其中一個就是上文提到的基因測試去判別得到乳癌的機會。如果研究人員可以從DNA身上正確指出那一個部份可以幫助生物適應重金屬環境,研究員就可以運用同樣的技巧去指出DNA那一部份可能會令病人產生癌症。方法是找出好多患上乳癌的病人,然後將他們的基因作比對。如果有某一個基因突變的位置,頻繁出現在不同病人身上,這些地方就很可能跟這個基因疾病有所關連。研究員就可以從無數的基因位置裏面,挑選出少數個位置繼續進行研究。除了乳癌,其他基因相關的疾病,也可以運用同樣的數學或者計算技巧。


留言