Analiza Ekspresji GenĂłw RNA-seq

1. Statystyki prĂłbek

Suma odczytĂłw

Histogram przedstawia sumę wszystkich odczytĂłw w odniesieniu dla zmapowanych genĂłw. W przypadku surowych danych moĆŒna zaobserwować, ĆŒe kaĆŒda prĂłbka ma inną liczbę odczytĂłw. NiektĂłre prĂłbki mogą posiadać więcej odczytĂłw co nie koniecznie oznacza większą ekspresję.
RĂłĆŒnice mogą wynikać z gƂębokoƛci sekwencjonowania (większa liczba odczytĂłw) jak rĂłwnieĆŒ dƂugoƛci genĂłw (dƂuĆŒsze geny będą miaƂy więcej odczytĂłw).
Ze względu na występowanie dysproporcji w liczbie odczytów pomiędzy próbkami, przed dalszą analizą ekspresji genów istnieje koniecznoƛć wykonania normalizacji danych.

Wykres gęstoƛci ekspresji genów

Po wstępnej selekcji danych (mającej na celu usunięcie genĂłw o niskich odczytach) oraz normalizowaniu odczytĂłw zastosowano tranformację logarytmiczną. Transformacje logarytmiczne wykorzystuje się w celu odwzorowania rĂłĆŒnic ekspresji genĂłw (w przypadku surowych danych taka analiza jest niemoĆŒliwa).
Wartoƛci w tej skali są bezwymiarowe, a najczęƛciej wykorzystywanym przeksztaƂceniem jest logarytm o podstawie 2 (log2). Taką funkcją jest rlog, ktĂłra przed przeksztaƂceniem log2 dodatkowo normalizuje dane (przeksztaƂca dane minimalizując rĂłĆŒnice między prĂłbkami dla wierszy o maƂych zliczeniach oraz normalizuje zliczenia w odniesieniu do wielkoƛci biblioteki).

PoniĆŒszy wykres przedstawia ekspresję funkcji gęstoƛci. Funkcja gęstoƛci profili ekspresji genĂłw okreƛla w jaki sposĂłb geny wykazują ekspresję (dla danej prĂłbki). Przyjmuje się, ĆŒe dla danych znormalizowanych wykresy gęstoƛci badanych prĂłbek powinny się pokrywać - ƛwiadczy to o podobnej dystrybucji odczytĂłw.

Interpretacja wykresu:

  • Zakres ekspresji od -1 do +1 opisuje geny nie wykazujące zmian w ekspresji. W tym przedziale zazwyczaj obserwuje się maksimum funkcji.
  • Zakres ekspresji od +1 opisuje geny wykazujące ekspresję rosnącą wraz ze skalą. W tym przedziale zazwyczaj moĆŒna zaobserwować lokalne maksimum funkcji.

2. PodobieƄstwo pomiędzy próbkami

Aby zbadać podobieƄstwo prĂłbek przeprowadzono kontrolę jakoƛci przy uĆŒyciu analizy gƂównych skƂadowych (PCA) oraz hierarchicznych metod klastrowania. Analiza jakoƛci na poziomie prĂłbki pozwala zobaczyć jak dobrze powtĂłrzenia z jednej grupy eksperymentalnej ukƂadają się razem, a takĆŒe sprawdzić czy warunki eksperymentalne stanowią gƂówne ĆșrĂłdƂo zmiennoƛci danych. Dzięki kontroli jakoƛci moĆŒna zidentyfikować rĂłwnieĆŒ wartoƛci odstające, ktĂłre mogą wymagać dalszego zbadania przed analizą zrĂłĆŒnicowanej ekspresji.

PCA

Analiza gƂownych skƂadowych (PCA) genów w badanej populacji.
Wynikiem analizy jest wykres przedstawiający zaleĆŒnoƛci/rĂłĆŒnice pomiędzy prĂłbkami (przedstawionymi jako indywidualne kropki) jak rĂłwnieĆŒ pomiędzy grupami (kaĆŒda grupa reprezentowana przez elipsę).

Korelacja pomiędzy próbkami

Macierz korelacji pomiędzy prĂłbkami daje przegląd podobieƄstw i rĂłĆŒnic między prĂłbkami. KtĂłre prĂłbki są do siebie podobne, a ktĂłre się rĂłĆŒnią?

PoĆŒÄ…danym wynikiem jest, aby prĂłbki z jednej grupy miaƂy większy stopieƄ korelacji niĆŒ te z rĂłĆŒnych grup.

3. Analiza Ekspresji GenĂłw

Wykresy poniĆŒej przedstawiają rozkƂad ekspresji genĂłw dla dwĂłch porĂłwnywanych grup. W celu selekcji najbardziej zrĂłĆŒnicowanych ekspresji pomiędzy grupami zastosowano dwa filtry:

  • skorygowana wartoƛć p < 0,05
  • zmiana ekspresji LFC ≀ -1 oraz LFC ≄ +1

Oƛ x “Ekspresja [LFC]” - opisuje zmianę ekspresji genów w skali log2 Oƛ y “Skorygowana wartoƛć p” - przedstawiaja zmianę wartoƛci p w skali -log10

RozkƂad danych przedstawiono w postaci dwóch wykresów:

  • Wykres typu punktowy
  • Wykres typu wulkan

Obszar szary charakteryzuje geny, ktĂłre nie wykazują zmian w ekspresji pomiędzy badanymi grupami. Geny o podwyĆŒszonej ekspresji względem drugiej grupy oznaczone są kolorem czerwonym, analogicznie kolor niebieski oznacza geny o obniĆŒonej ekspresji względem porĂłwnywanej grupy. Im dalej dany gen (kropka) znajduje się od przekątnej oznaczonej kolorem szarym tym ekspresja tego genu jest odpowienio niĆŒsza lub wyĆŒsza.

Grupa GL vs Con

Wykres Punktowy
Wykresy Analizy Ekspresji GenĂłw (kaĆŒda kropka charakteryzuje jeden gen).

Wykres typu Wulkan
Wykresy Analizy Ekspresji GenĂłw (kaĆŒda kropka charakteryzuje jeden gen).

Tabela

Tabele przedstawiają 10 genów, które wykazują najsilniejsze zmiany w poszczególnych porównaniach grup.

WytƂumaczenie danych zawartych w zbiorczych tabelach:

  • baseMean - ƛrednia ze znormalizowanych wartoƛci zliczeƄ
  • log2FoldChange - oszacowanie wielkoƛci efektu. Zmienna ta mĂłwi, jak bardzo ekspresja genu zmieniƂa się w jednej grupie w stosunku do drugiej. Wartoƛć ta jest przedstawiona w skali logarytmicznej do podstawy 2: na przykƂad log2 krotnoƛć zmiany 1,5 oznacza, ĆŒe ekspresja genu jest zwiększana przez wspóƂczynnik wynoszący 2^1,5, czyli w przybliĆŒeniu zmiana wynosi 2,82.
  • lfcSE - szacowana wartoƛć bƂędu dla log2 fold change
  • p-value - p wartoƛć dla log2 fold change
  • padj - skorygowana p wartoƛć

Tabela z genami o obniĆŒonej ekspresji
Tabela z genami o podwyĆŒszonej ekspresji
Szlak SygnaƂowy

Szlak sygnaƂowy opisuje szereg ĆŒyciowych procesĂłw biochemicznych pochodzącymi zarĂłwno z zewnątrz jak i wewnętrza komĂłrki.

Przedstawione poniĆŒej ƛcieĆŒki sygnaƂowe pochodzą z bazy danych KEGG (ang. Kyoto Encyclopedia of Genes and Genomes). Ilustracje KEGG Pathway zawierają informacje na temat sieci komĂłrkowych interakcji molekularnych i ich wariantĂłw na podstawie publikacji naukowych.

PeƂna nazwa szlaku sygnaƂowego znajduje się w lewym górym rogu.

Rodzaje KEGG Pathway:

  • Metabolizm
  • Przetwarzanie Informacji Genetycznej
  • Przetwarzanie Informacji ze Úrodowiska
  • Procesy na Poziomie KomĂłrki
  • Procesy na Poziomie Organizmu
  • Procesy ChorobotwĂłrcze
  • Projektowanie LekĂłw

Wykres szlaku sygnaƂowego wykonywany jest ręcznie w oprogramowanu o nazwie KegSketch. Domyƛlnie kaĆŒda mapa stanowi interaktyny szablon. Referencyjne mapy KEGG Pathway oznaczone są kolorem biaƂym. Zmiany przedstawiane są za pomocą palety kolorĂłw, np. zielony i czerwony ozanczają kolejno zmiejszoną i zwiększoną ekspresję.

Interaktywną i szczegóƂową interpretację ƛcieĆŒki KEGG moĆŒna znaleĆșć w bazie KEGG Pathway po podaniu peƂnej nazwy ƛcieĆŒki lub ID.
Interpretacja KEGG

PodwyĆŒszona Ekspresja
ObniĆŒona Ekspresja
Ontologia genĂłw

Baza GO skupia caƂą dotychczasową wiedze o genach z podziaƂem na 3 domeny: elementy komórkowe (CC), funkcje molekularne genów (MF) oraz procesy biologiczne, w których uczestniczą (BP).
Ontologię genĂłw stusuje się do lepszego zrozumienia procesĂłw biologicznych czy teĆŒ profilu funkcjonalnego zestawu genĂłw ulegających zrĂłĆŒnicowanej ekspresji w badanych warunkach. Ontologia genĂłw moĆŒe być zwizualizowana w następujący sposĂłb:

  • Wykres sƂupkowy jest najczęƛciej stosowaną metodą wizualizacji wzbogaconych terminĂłw.
  • Wykres punktowy rĂłwnieĆŒ przedstawia najbardziej wzbogacone terminy biologiczne.
  • Mapa organizuje wzbogacone terminy w sieć, ktĂłra Ƃączy geny w zestawy. Taka wizualizacja uƂatwia identyfikację genĂłw np. o podobnym znaczeniu biologicznym.
  • Sieć przedstawia poƂączenia genĂłw oraz pojęć biologicznych. Wykres pozwala na zobrazowanie zƂoĆŒonoƛci biologicznej, w ktĂłrej kaĆŒdy gen moze naleĆŒeć do wielu kategorii.
Elementy komĂłrkowe (CC)

Procesy biologiczne (BP)

Funkcje molekularne (MF)

Grupa GL vs Ova

Wykres Punktowy
Wykresy Analizy Ekspresji GenĂłw (kaĆŒda kropka charakteryzuje jeden gen).

Wykres typu Wulkan
Wykresy Analizy Ekspresji GenĂłw (kaĆŒda kropka charakteryzuje jeden gen).

Tabela

Tabele przedstawiają 10 genów, które wykazują najsilniejsze zmiany w poszczególnych porównaniach grup.

WytƂumaczenie danych zawartych w zbiorczych tabelach:

  • baseMean - ƛrednia ze znormalizowanych wartoƛci zliczeƄ
  • log2FoldChange - oszacowanie wielkoƛci efektu. Zmienna ta mĂłwi, jak bardzo ekspresja genu zmieniƂa się w jednej grupie w stosunku do drugiej. Wartoƛć ta jest przedstawiona w skali logarytmicznej do podstawy 2: na przykƂad log2 krotnoƛć zmiany 1,5 oznacza, ĆŒe ekspresja genu jest zwiększana przez wspóƂczynnik wynoszący 2^1,5, czyli w przybliĆŒeniu zmiana wynosi 2,82.
  • lfcSE - szacowana wartoƛć bƂędu dla log2 fold change
  • p-value - p wartoƛć dla log2 fold change
  • padj - skorygowana p wartoƛć

Tabela z genami o obniĆŒonej ekspresji
Tabela z genami o podwyĆŒszonej ekspresji
Szlak SygnaƂowy

Szlak sygnaƂowy opisuje szereg ĆŒyciowych procesĂłw biochemicznych pochodzącymi zarĂłwno z zewnątrz jak i wewnętrza komĂłrki.

Przedstawione poniĆŒej ƛcieĆŒki sygnaƂowe pochodzą z bazy danych KEGG (ang. Kyoto Encyclopedia of Genes and Genomes). Ilustracje KEGG Pathway zawierają informacje na temat sieci komĂłrkowych interakcji molekularnych i ich wariantĂłw na podstawie publikacji naukowych.

PeƂna nazwa szlaku sygnaƂowego znajduje się w lewym górym rogu.

Rodzaje KEGG Pathway:

  • Metabolizm
  • Przetwarzanie Informacji Genetycznej
  • Przetwarzanie Informacji ze Úrodowiska
  • Procesy na Poziomie KomĂłrki
  • Procesy na Poziomie Organizmu
  • Procesy ChorobotwĂłrcze
  • Projektowanie LekĂłw

Wykres szlaku sygnaƂowego wykonywany jest ręcznie w oprogramowanu o nazwie KegSketch. Domyƛlnie kaĆŒda mapa stanowi interaktyny szablon. Referencyjne mapy KEGG Pathway oznaczone są kolorem biaƂym. Zmiany przedstawiane są za pomocą palety kolorĂłw, np. zielony i czerwony ozanczają kolejno zmiejszoną i zwiększoną ekspresję.

Interaktywną i szczegóƂową interpretację ƛcieĆŒki KEGG moĆŒna znaleĆșć w bazie KEGG Pathway po podaniu peƂnej nazwy ƛcieĆŒki lub ID.
Interpretacja KEGG

PodwyĆŒszona Ekspresja
ObniĆŒona Ekspresja
Ontologia genĂłw

Baza GO skupia caƂą dotychczasową wiedze o genach z podziaƂem na 3 domeny: elementy komórkowe (CC), funkcje molekularne genów (MF) oraz procesy biologiczne, w których uczestniczą (BP).
Ontologię genĂłw stusuje się do lepszego zrozumienia procesĂłw biologicznych czy teĆŒ profilu funkcjonalnego zestawu genĂłw ulegających zrĂłĆŒnicowanej ekspresji w badanych warunkach. Ontologia genĂłw moĆŒe być zwizualizowana w następujący sposĂłb:

  • Wykres sƂupkowy jest najczęƛciej stosowaną metodą wizualizacji wzbogaconych terminĂłw.
  • Wykres punktowy rĂłwnieĆŒ przedstawia najbardziej wzbogacone terminy biologiczne.
  • Mapa organizuje wzbogacone terminy w sieć, ktĂłra Ƃączy geny w zestawy. Taka wizualizacja uƂatwia identyfikację genĂłw np. o podobnym znaczeniu biologicznym.
  • Sieć przedstawia poƂączenia genĂłw oraz pojęć biologicznych. Wykres pozwala na zobrazowanie zƂoĆŒonoƛci biologicznej, w ktĂłrej kaĆŒdy gen moze naleĆŒeć do wielu kategorii.
Elementy komĂłrkowe (CC)

Procesy biologiczne (BP)

Funkcje molekularne (MF)

Grupa Con vs Ova

Wykres Punktowy
Wykresy Analizy Ekspresji GenĂłw (kaĆŒda kropka charakteryzuje jeden gen).

Wykres typu Wulkan
Wykresy Analizy Ekspresji GenĂłw (kaĆŒda kropka charakteryzuje jeden gen).

Tabela

Tabele przedstawiają 10 genów, które wykazują najsilniejsze zmiany w poszczególnych porównaniach grup.

WytƂumaczenie danych zawartych w zbiorczych tabelach:

  • baseMean - ƛrednia ze znormalizowanych wartoƛci zliczeƄ
  • log2FoldChange - oszacowanie wielkoƛci efektu. Zmienna ta mĂłwi, jak bardzo ekspresja genu zmieniƂa się w jednej grupie w stosunku do drugiej. Wartoƛć ta jest przedstawiona w skali logarytmicznej do podstawy 2: na przykƂad log2 krotnoƛć zmiany 1,5 oznacza, ĆŒe ekspresja genu jest zwiększana przez wspóƂczynnik wynoszący 2^1,5, czyli w przybliĆŒeniu zmiana wynosi 2,82.
  • lfcSE - szacowana wartoƛć bƂędu dla log2 fold change
  • p-value - p wartoƛć dla log2 fold change
  • padj - skorygowana p wartoƛć

Tabela z genami o obniĆŒonej ekspresji
Tabela z genami o podwyĆŒszonej ekspresji
Szlak SygnaƂowy

Szlak sygnaƂowy opisuje szereg ĆŒyciowych procesĂłw biochemicznych pochodzącymi zarĂłwno z zewnątrz jak i wewnętrza komĂłrki.

Przedstawione poniĆŒej ƛcieĆŒki sygnaƂowe pochodzą z bazy danych KEGG (ang. Kyoto Encyclopedia of Genes and Genomes). Ilustracje KEGG Pathway zawierają informacje na temat sieci komĂłrkowych interakcji molekularnych i ich wariantĂłw na podstawie publikacji naukowych.

PeƂna nazwa szlaku sygnaƂowego znajduje się w lewym górym rogu.

Rodzaje KEGG Pathway:

  • Metabolizm
  • Przetwarzanie Informacji Genetycznej
  • Przetwarzanie Informacji ze Úrodowiska
  • Procesy na Poziomie KomĂłrki
  • Procesy na Poziomie Organizmu
  • Procesy ChorobotwĂłrcze
  • Projektowanie LekĂłw

Wykres szlaku sygnaƂowego wykonywany jest ręcznie w oprogramowanu o nazwie KegSketch. Domyƛlnie kaĆŒda mapa stanowi interaktyny szablon. Referencyjne mapy KEGG Pathway oznaczone są kolorem biaƂym. Zmiany przedstawiane są za pomocą palety kolorĂłw, np. zielony i czerwony ozanczają kolejno zmiejszoną i zwiększoną ekspresję.

Interaktywną i szczegóƂową interpretację ƛcieĆŒki KEGG moĆŒna znaleĆșć w bazie KEGG Pathway po podaniu peƂnej nazwy ƛcieĆŒki lub ID.
Interpretacja KEGG

PodwyĆŒszona Ekspresja
ObniĆŒona Ekspresja
Ontologia genĂłw

Baza GO skupia caƂą dotychczasową wiedze o genach z podziaƂem na 3 domeny: elementy komórkowe (CC), funkcje molekularne genów (MF) oraz procesy biologiczne, w których uczestniczą (BP).
Ontologię genĂłw stusuje się do lepszego zrozumienia procesĂłw biologicznych czy teĆŒ profilu funkcjonalnego zestawu genĂłw ulegających zrĂłĆŒnicowanej ekspresji w badanych warunkach. Ontologia genĂłw moĆŒe być zwizualizowana w następujący sposĂłb:

  • Wykres sƂupkowy jest najczęƛciej stosowaną metodą wizualizacji wzbogaconych terminĂłw.
  • Wykres punktowy rĂłwnieĆŒ przedstawia najbardziej wzbogacone terminy biologiczne.
  • Mapa organizuje wzbogacone terminy w sieć, ktĂłra Ƃączy geny w zestawy. Taka wizualizacja uƂatwia identyfikację genĂłw np. o podobnym znaczeniu biologicznym.
  • Sieć przedstawia poƂączenia genĂłw oraz pojęć biologicznych. Wykres pozwala na zobrazowanie zƂoĆŒonoƛci biologicznej, w ktĂłrej kaĆŒdy gen moze naleĆŒeć do wielu kategorii.
Elementy komĂłrkowe (CC)

Procesy biologiczne (BP)

Funkcje molekularne (MF)

4. Klastrowanie hierarchiczne

Hierarchiczne drzewo moĆŒe wskazywać, ktĂłre prĂłbki są bardziej do siebie podobne w oparciu o znormalizowane wartoƛci ekspresji genĂłw. Bloki kolorĂłw wskazują na strukturę danych i moĆŒna oczekiwać, ĆŒe powtĂłrzenia będą klastrować się razem jako blok dla kaĆŒdej grupy prĂłbek. Ponadto spodziewamy się, ĆŒe prĂłbki będą grupowane podobnie do grup obserwowanych na wykresie PCA.

Wiersze i kolumny matrycy są przestawiane (niezaleĆŒnie) zgodnie z wybraną metodą grupowania, tak aby geny lub grupy genĂłw o podobnych wzorach ekspresyjnych sąsiadowaƂy ze sobą. Obliczony dendrogram (drzewo) wynikający z grupowania jest dodany z boku obrazu, aby wskazać związki między genami.

metoda vst

metoda z-score

5. Analiza zrĂłĆŒnicowanej ekspresji

heatmapa

Na poniĆŒszym wykresie przedstawiono ekspresję 20 genĂłw, ktĂłre wykazują najmocniejsze zrĂłĆŒnicowanie pomiędzy badanymi grupami.

wykres pudeƂkowy

Analiza klastrowa pozwala na porĂłwnanie 10 genĂłw o największej rĂłĆŒnicy w ekspresji pomiędzy badanymi grupami.
 

Copyright © Genomika Polska

All rights reserved

Raport powstaƂ na podstawie: Plotly, DataTables