KHOA HỌC CÂY LÚA: Tìm kiếm gen chịu lạnh và những alen khả thi trong giống lúa nếp Kam ở nhiều giai đoạn tăng trưởng khác nhau

Tìm kiếm gen chịu lạnh và những alen khả thi trong giống lúa nếp Kam ở nhiều giai đoạn tăng trưởng khác nhau

Nguồn: Kunchi Yu, Chunhui Liu, Joohyun Lee, Xiaoding Ma, Bing Han, Zhengwu Zhao, Soon-Wook Kwon, Longzhi Han & Di Cui. 2026. Discovery of cold tolerance genes and favorable alleles in Kam sweet rice across various growth stages. Theoretical and Applied Genetics; 11 May 2026;Volume 139, article number 152

Tích hợp phương pháp “combined association” và “phân tích quét có chọn lọc” trong di truyền, người ta xác định được _OsCTD2_ and _OsLTPL159_ là 2 gen ứng cử viên chủ chốt gắn liền với tính chống chịu lạnh ở cả 2 giai đoạn nẩy mầm và giai đoạn mạ.

Tính trạng nhiễm lạnh của cây lúa dẫn đến kết quả mất năng suất đáng kể. Xác định nguồn vật liệu giống lúa chịu lạnh và khám phá những gen đích rất cần thiết để phát triển giống lúa cao sản chịu lạnh. Kam Sweet Rice (KSR) là giống lúa biểu hiện tính chống chịu lạnh đáng chú ý, là nguồn vật liệu di truyến vô giá để tiến hành xác định các gen đích. Tác giả đánh giả kiểu hình chống chịu mặn ở nhiều giai đoạn khác nhau trong tập đoàn bao gồm 104 mẫu giống lúa KSR và 268 mẫu giống lúa bản dịa khác. Kết quả GWAS (genome-wide association studies) xác định 89 loci gắn liền có ý nghĩa với chịu lạnh: 57 loci có ỡ giai đoạn nẩy mầm, 9 có ở giai đoạn đâm chồi thân, và 28 có ở giai đoạn mạ, với 61 loci (69%) là mới tìm thấy. Kết hợp di truyền association và phân tích di truyền quét chọn lọc, người ta xác định được hai gen ứng cử viên rất đáng tin cậy, OsCTD2 và OsLTPL159, gắn với tính chống chịu lạnh ở gđ nẩy mầm và gđ mạ. Kết quả phân tích haplotype cho thấy có khác biệt ý nghĩa thống kê về cấp độ chịu lạnh và mức độ cây sống sót trong nhiều haplotypes khác nhau của những gen này, với những haplotypes tối ưu đều có trong giống lúa KSR. Kết quả phân tích RNA-seq và qRT-PCR cho thấy những haplotypes tối ưu của gen OsCTD2 và OsLTPL159 biểu hiện đáng kể trong các mẫu giống lúa chịu lạnh giỏi, trong khi, không có khác biệt đáng kể nào được quan sát trong mẫu giống lúa nhiễm lạnh với những haplotypes yếu kém. Gen OsCTD2 và OsLTPL159 có trong phản ứng chịu lạnh của hệ gen cây lúa. Bên cạnh, người ta xác định được hai gen ứng cử viên triển vọng và những haplotypes ưu việt của chúng điều khiển tính trạng chịu lạnh: OsGRS7 ở giai đoạn nẩy mầm và OsBSR6 ở giai đoạn đâm chồi thân. Đây là cơ sở khoa học để dòng hóa gen chịu lạnh và là luận cứ khoa học cho chiến lược cải tiến giống lúa bằng pp phân tử.

Xem https://link.springer.com/article/10.1007/s00122-026-05246-1

GHI CHÚ

Combo tiếp cận cực kỳ mạnh mẽ và toàn diện trong di truyền học hiện đại (thường thấy trong các nghiên cứu bộ gen cây trồng, vật nuôi hoặc y sinh). Việc kết hợp giữa di truyền liên kết (GWAS/Haplotype), tiến hóa/chọn lọc (Selective Sweep) và biểu hiện gen (RNA-seq/qRT-PCR) giúp bạn đi từ một kiểu hình (phenotype) thô sơ đến việc xác định chính xác gen chức năng (causal gene) và cơ chế phân tử của nó.

Dưới đây là bức tranh toàn cảnh về cách các phương pháp này bổ trợ cho nhau theo một lộ trình nghiên cứu logic:

1. GWAS & Phân tích Quét chọn lọc (Selective Sweep)

Mục tiêu: Thu hẹp vùng gen ứng viên từ toàn bộ hệ gen.

Thông thường, nếu chỉ dùng GWAS, bạn sẽ tìm thấy rất nhiều SNP (Single Nucleotide Polymorphism) có ý nghĩa thống kê, nhưng chưa biết SNP nào thực sự là “chính chủ” hay chỉ là “ăn theo” (do liên kết di truyền). Việc kết hợp với quét chọn lọc sẽ giải quyết bài toán này.

GWAS (Genome-Wide Association Studies): Tìm các locus di truyền (QTL/SNP) liên kết chặt chẽ với kiểu hình quan tâm (ví dụ: năng suất, khả năng chịu hạn, kháng bệnh) dựa trên một quần thể đa dạng.
Phân tích quét chọn lọc (Selective Sweep Analysis): Tìm các vùng genomic bị áp lực chọn lọc (tự nhiên hoặc nhân tạo) làm thay đổi tần số alen mạnh mẽ (sử dụng các chỉ số như $F_{S T}$ , $π$ , XP-CLR).
Điểm giao thoa: Nếu một vùng gen vừa được GWAS gọi tên (liên quan đến kiểu hình), vừa nằm trong vùng quét chọn lọc (đang được tiến hóa giữ lại), thì 90% đây là vùng chứa gen đích thực sự quan trọng.

2. Phân tích Haplotype (Haplotype Analysis)

Mục tiêu: Đào sâu vào locus ứng viên để tìm alen tối ưu.

Sau khi GWAS và Selective Sweep khoanh vùng được một vài gen ứng viên (candidate genes), bạn không thể chỉ nhìn vào từng SNP đơn lẻ. Bạn cần nhìn vào Haplotype (tổ hợp các alen cùng tồn tại trên một nhiễm sắc thể và di truyền cùng nhau).

Phân nhóm quần thể: Dựa vào trình tự của gen ứng viên, bạn chia quần thể nghiên cứu thành các nhóm Haplotype khác nhau (ví dụ: Hap1, Hap2, Hap3).
Đánh giá kiểu hình: So sánh xem nhóm mang Hap nào có kiểu hình vượt trội nhất (ví dụ: Hap1 cho hạt to hơn hẳn Hap2 và Hap3).
Ứng dụng: Xác định được “Alen ưu việt” (Elite allele) phục vụ cho chọn giống phân tử (Molecular Breeding) sau này.

3. RNA-seq & qRT-PCR

Mục tiêu: Chứng minh gen ứng viên hoạt động như thế nào ở mức độ phân tử.

Có biến đổi di truyền (DNA) và kiểu hình (Phenotype) là chưa đủ, bạn cần một “chiếc cầu nối” để chứng minh gen đó thực sự hoạt động. Đó là lúc sinh học phân tử biểu hiện gen lên tiếng.

RNA-seq (Transcriptome Sequencing): * Thường được dùng để so sánh transcriptome giữa các mẫu đối lập (ví dụ: giống chịu hạn vs giống nhiễm hạn, hoặc mẫu trước và sau khi xử lý stress).
- Sự kết hợp: Kiểm tra xem gen ứng viên tìm thấy từ GWAS/Haplotype có sự thay đổi biểu hiện (Differentially Expressed Genes - DEG) một cách rõ rệt giữa các mẫu này hay không. Nếu có, bằng chứng gen chức năng càng thuyết phục.
qRT-PCR (Quantitative Real-Time PCR):
- RNA-seq là kỹ thuật giải trình tự diện rộng (sàng lọc). Bạn cần qRT-PCR như một bước “vàng” để xác thực lại xu hướng biểu hiện của riêng gen đích đó trên một cỡ mẫu rộng hơn hoặc ở các mô/thời điểm cụ thể khác nhau.

Tóm tắt Lộ trình Kết hợp (Pipeline Nghiên cứu)

Để bạn dễ hình dung, nghiên cứu của bạn sẽ đi theo dòng chảy logic sau:

[Quần thể kiểu hình + Kiểu gen]
         │
         ├──► GWAS ──────────────┐
         │                       ▼
         └──► Quét chọn lọc ──► Giao thoa (Khoanh vùng Gen ứng viên)
                                 │
                                 ▼
                         Phân tích Haplotype (Tìm Alen ưu việt)
                                 │
                                 ▼
                         RNA-seq (Sàng lọc biểu hiện gen toàn hệ thống)
                                 │
                                 ▼
                         qRT-PCR (Xác thực biểu hiện của gen đích)
                                 │
                                 ▼
                   [Xác định chính xác Gen Chức Năng]

Sự kết hợp này đi từ Vĩ mô (GWAS/Sweep trên toàn bộ gen) ➔ Vi mô (Haplotype của một gen) ➔ Cơ chế biểu hiện (RNA-seq/qRT-PCR). Đây là một khung nghiên cứu chuẩn mực, có độ tin cậy rất cao và rất dễ thuyết phục các tạp chí khoa học lớn.

PHẦN MỀM VÀ PACKAGES CẦN DÙNG

Tổng hợp các phần mềm, package phổ biến nhất hiện nay, được phân loại theo từng bước trong pipeline

1. Phần mềm cho GWAS & Quét chọn lọc (Selective Sweep)

Ở bước này, dữ liệu đầu vào thường là các file genotype định dạng VCF, PLINK (ped/map hoặc bed/bim/fam).

Cho GWAS

GAPIT (R package): Cực kỳ phổ biến trong nghiên cứu cây trồng. Hỗ trợ nhiều mô hình từ MLM, CMLM đến các mô hình đa locus tiên tiến như BLINK, FarmCPU (giúp kiểm soát tốt cấu trúc quần thể và giảm báo động giả).
PLINK (v1.9 / v2.0): Công cụ dòng lệnh (CLI) “quốc dân” để quản lý dữ liệu genotype, QC (Quality Control), tính toán LD (Linkage Disequilibrium), và chạy GWAS theo mô hình tuyến tính đơn giản.
TASSEL: Có giao diện đồ họa (GUI) trực quan, rất mạnh về tính toán ma trận di truyền thân thuộc (Kinship) và cấu trúc quần thể (PCA/Q-matrix) trước khi chạy MLM.

Cho Quét chọn lọc (Selective Sweep)

vcftools: Tiện lợi nhất để tính nhanh giá trị $F_{S T}$ và Nucleotide Diversity ( $π$ ) theo từng cửa sổ (sliding window) trực tiếp từ file VCF.
XP-CLR: Phần mềm chuyên dụng để phát hiện chọn lọc định hướng giữa hai quần thể dựa trên sự mất cân bằng liên kết (LD).
selscan: Hỗ trợ tính toán các chỉ số dựa trên haplotype như iHS, XP-EHH.

2. Phần mềm phân tích Haplotype

Mục tiêu là gom nhóm các SNP tại locus quan tâm và vẽ đồ thị liên kết / so sánh kiểu hình.

Haploview: Phần mềm kinh điển có giao diện (GUI) để xem cấu trúc các khối haplotype, tính toán D’ và $r^{2}$ , trực quan hóa sơ đồ liên kết LD.
Plink / Bcftools: Dùng để trích xuất riêng vùng gen ứng viên từ file VCF lớn trước khi phân tích sâu.
R packages (ggpubr, ggplot2): Sau khi chia nhóm mẫu theo các Haplotype (Hap1, Hap2…), bạn dùng R để chạy các kiểm định thống kê (ANOVA, Tukey-HSD) và vẽ biểu đồ hộp (Boxplot) so sánh giá trị kiểu hình giữa các nhóm.

3. Pipeline phân tích RNA-seq (Dòng lệnh Linux/R)

Dữ liệu RNA-seq thường rất lớn (file .fastq hoặc .fastq.gz), bắt buộc phải xử lý trên môi trường Linux (Ubuntu/Server).

[Raw Reads (.fastq)] ──► Trimming (FastQC / Trimmomatic) ──► Alignment (STAR / HISAT2) ──► Quantification (FeatureCounts) ──► DEGs (DESeq2 in R)

Tiền xử lý & Căn chỉnh (Alignment)

FastQC & Trimmomatic / Cutadapt: Kiểm tra chất lượng raw reads và cắt lọc các trình tự adapter, trình tự chất lượng kém.
HISAT2 / STAR: Phần mềm căn chỉnh (aligner) các đoạn đọc RNA-seq lên bộ gen tham chiếu (Reference Genome). STAR căn chỉnh rất nhanh và chính xác nhưng ngốn nhiều RAM.
StringTie / featureCounts: Đếm số lượng đoạn đọc (read counts) tương ứng với từng locus gen dựa trên file annotation (.gtf hoặc .gff).

Phân tích biểu hiện gen sai biệt (Differential Expression)

DESeq2 / edgeR (R packages): Hai công cụ chuẩn mực nhất hiện nay để chuẩn hóa dữ liệu read counts và tìm các gen biểu hiện sai biệt (DEGs) giữa các điều kiện thí nghiệm.

4. Công cụ cho qRT-PCR

Đối với qRT-PCR, phần lớn công việc tính toán diễn ra ở giai đoạn xử lý số liệu thô.

Phần mềm đi kèm máy Real-time PCR: (Ví dụ: Bio-Rad CFX Manager, Applied Biosystems QuantStudio…) dùng để xuất giá trị Cq/Ct.
Thiết kế mồi (Primer Design): Primer3Plus hoặc NCBI Primer-BLAST. Lưu ý: Khi thiết kế mồi từ dữ liệu RNA-seq/GWAS, nên thiết kế mồi bắc qua ranh giới giữa các exon (exon-exon junction) để tránh khuếch đại nhầm DNA tạp nhiễm.
Xử lý số liệu: Thường dùng Excel hoặc R để tính toán theo phương pháp định lượng tương đối $2^{- Δ Δ C_{T}}$ .

💡 Lời khuyên về mặt kỹ thuật (Bioinformatics Setup)

Nếu bạn là người chủ trì hoặc trực tiếp xử lý chuỗi phân tích này, cấu hình làm việc lý tưởng sẽ là:

Một máy trạm Linux (hoặc Server): Để chạy các tác vụ nặng như Alignment RNA-seq (STAR/HISAT2), xử lý file VCF lớn (vcftools/PLINK).
Môi trường RStudio: Nơi bạn gom tất cả kết quả lại. Bạn có thể import kết quả P-value từ GWAS, điểm số $F_{S T}$ , danh sách gen DEG từ DESeq2 vào R để vẽ các biểu đồ tích hợp phức tạp (như biểu đồ Manhattan kết hợp vùng quét chọn lọc, hoặc Heatmap biểu hiện gen).

Trang

Lưu trữ Blog

Thứ Hai, 1 tháng 6, 2026

Tìm kiếm gen chịu lạnh và những alen khả thi trong giống lúa nếp Kam ở nhiều giai đoạn tăng trưởng khác nhau