這期內容當中小編將會給大家帶來有關GEO數據庫架構的原理是什么,文章內容豐富且以專業的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。
創新互聯公司2013年成立,是專業互聯網技術服務公司,擁有項目成都網站設計、做網站網站策劃,項目實施與項目整合能力。我們以讓每一個夢想脫穎而出為使命,1280元吉水做網站,已為上家服務,為吉水各地企業和個人服務,聯系電話:13518219792
GEO是一個國際化的開源項目,允許研究者提交自己的數據到該數據庫,在世界范圍內公開共享自己的數據,
該數據庫最開始主要用于分享芯片數據,后來隨著NGS技術的發展,也支持上傳高通量測序數據。
在該數據庫中,將所有相關信息分成以下幾類,示意如下
芯片平臺或者測序平臺,每個平臺有一個唯一的以GPL
開頭的編號,高通量測序平臺,示意如下
由測序儀和物種的組合構成了不同的platforn,芯片平臺示意如下
芯片平臺會給出探針相關信息,比如對應的基因,探針序列等,示意如下
sample代表的是一個樣本的數據,可以是任意platform產生的數據,有一個唯一的以GSM
開頭的編號,對于芯片數據,會給出探針的表達量值,示意如下
對于高通量測序數據,根據數據類型會給出不同種類的文件,如果原始的測序數據有上傳到SRA數據庫,也會給出對應SRA編號,示意如下
series代表屬于同一個實驗設計的一組樣本,通常情況下會給出該系列下所有樣本的附件文件的壓縮包,示意如下
以上這3種信息由數據的提交者提供,對于同一個series下的原始數據,GEO會對其進行簡單的挖掘,比如基于表達量進行聚類分析等,這些分析的結果對應的類型為DataSet
, 有一個唯一的以GDS
開頭的編號,GDS2225
示意如下
基于GSE3541
的數據得到,該數據是一套大鼠的芯片數據,樣本分為case和control兩組,每組3重復,基于表達量的聚類結果示意如下
根據DataSet中提供的表達譜數據,對于每個探針或者基因在所有樣本中表達量進行探究,就得到了Profile
數據,示意如下
數據共享使得基于公共數據庫的數據挖掘成為可能,也可以通過分析已有的同種類型數據來和自己的測序數據相互印證。
上述就是小編為大家分享的GEO數據庫架構的原理是什么了,如果剛好有類似的疑惑,不妨參照上述分析進行理解。如果想知道更多相關知識,歡迎關注創新互聯行業資訊頻道。