Теоретический анализ явления колинеарности нуклеотидных и аминокислотных последовательностей привел к предположению, что наиболее подходящей по размеру для генетической кодирующей единицы, или кодона, является последовательность из трех нуклеотидов. Т.к. в нуклеотидной последовательности должно быть достаточно кодирующих единиц, чтобы зашифровать 20 аминокислот. В состав ДНК входит только 4 разных основания. Если р-р кодона= 1, то кодируется только 4 а.к., а их-20. Если = 2, то в ДНК могло бы быть закодировано только 42, т.е. 16 различных аминокислот. Поскольку этого недостаточно, кодовое отношение должно быть не меньше 3.
Если генетический код триплетен, каждой аминокислоте должны соответствовать три расположенных рядом основания. Поскольку число возможных триплетных комбинаций составляет 43, т.е. 64, существование триплетного кода предполагало, что либо не все триплеты участвуют в кодировании аминокислот, либо некоторые аминокислоты кодируются более чем одним кодоном.
Впервые триплетная природа генетического кода была экспериментально продемонстрирована в 1961 году в работе Ф. Крика и С. Бреннера, выполненной на мутантах фага Т4 с делециями или вставками длиной в один, два или три нуклеотида. Исследования показали, что мутации, индуцированные акридинами, которые вызывают вставки или делеции одной или двух пар нуклеотидов, неизменно приводили к образованию аномальных белков с полностью нарушенной функцией. Напротив, если происходили вставки или делеции кратные трем парам нуклеотидов, синтезируемые белки часто сохраняли активность. Описанные наблюдения позволили Крику и Бреннеру сделать вывод, что генетический код считывается дискретными группами по три нуклеотида. Действительно, если добавляется или удаляется один или два нуклеотида, происходит сдвиг рамки считывания, ведущий к появлению, начиная с этой точки, совершенно новой последовательности кодонов, которая неизбежно будет кодировать последовательность аминокислот, лишенную всякого функционального смысла. Если же происходит вставка или делеция групп из трех пар нуклеотидов, образующийся белок, содержащий теперь на один аминокислотный остаток больше или меньше, в других отношениях остается неизменным и часто полностью сохраняет биологическую активность.
Другой важный вывод из описанных выше экспериментов: генетический код читается в виде неперекрывающихся триплетов с фиксированной стартовой точки.
Предпосылками д/постановки экспериментов по расшифровке кода послужили открытия: что иРНК – это информационный посредник между генами и белками и обнаружилось, что иРНК, введенная в бесклеточные бактериальные экстракты, транслируется in vitro с образованием соответствующих белков. Затем с помощью экстрактов из клеток E. coli была осуществлена трансляция синтетических РНК.
С этой целью использовали систему белкового синтеза in vitro. Клетки E. coli разрушали, фрагменты оболочек и плазматических мембран удаляли центрифугированием, бактериальную ДНК деградировали добавлением ДНКазы. Бактериальная иРНК слишком нестабильна для того, чтобы служить эндогенной матрицей белкового синтеза in vitro. Полученный в результате супернатант активно осуществляет трансляцию любой добавленной РНК, поскольку содержит необходимые предшественники, источники энергии и фракцию рибосом.
Синтетические полинуклеотиды стали применять для синтеза полипептидов после эксперимента в 1961году Маршалла Ниренберга и Генриха Матеи. Они использовали в качестве матрицы синтезированный ферментативным путем полирибонуклеотид, представляющий собой полиуридиловую кислоту – poly(U), состоящую из множества расположенных друг за другом одинаковых триплетов UUU. Рoly(U) инкубировали в 20 различных пробирках с экстрактом из E. coli, GTP и смесью из 20 аминокислот. В каждой из этих пробирок вместе с другими 19 аминокислотами находилась одна из 20 – меченая 14С-аминокислота. При постановке эксперимента исходили из того, что poly (U) представляет собой синтетическую иРНК и, в результате трансляции должен синтезироваться меченый полипептид, последовательность которого должна состоять из одной аминокислоты, кодируемой триплетом UUU. Радиоактивный полипептид синтезировался лишь в одной из двадцати пробирок – той, которая содержала меченый 14С L-фенилаланин. Таким образом, Ниренберг и Маттеи сделали вывод о том, что триплет UUU кодирует аминокислоту фенилаланин.
Вскоре было показано, что poly(A) кодирует полипептидные цепи, состоящие из остатков лизина, а полипептиды, кодируемые poly(С), содержат только аминокислоту пролин. Однако расшифровать с помощью такого же подхода триплет GGG оказалось невозможно, потому что poly(G) не работает в качестве матрицы. Вероятно, это связано с тем, что poly(G) склонен образовывать трехцепочечную спиральную структуру.
Следующим этапом в исследованиях, направленных на расшифровку генетического кода, стало использование не гомо-, а гетерополимеров, содержащих более одного основания и способных направлять включение в полипептид нескольких аминокислот.
В данном случае состав РНК, синтезируемой также с помощью полинуклеотидфосфорилазы, зависит от относительных концентраций 5′-дифосфатов, присутствующих в реакционной смеси. Например, случайный сополимер U и G должен содержать восемь различных триплетов: UUU, UUG, UGU, GUU, UGG, GUG, GGU и GGG. Относительное содержание этих триплетов в полирибонуклеотиде легко вычислить, исходя из молярного соотношения концентраций UDP и GDP в реакционной смеси. Если молярное соотношение 5′-дифосфатов урацила и гуанина в реакционной смеси составляет 0,76 - 0,24, то в составе гетерополимера будет много триплетов UUU, меньше – триплетов UUG, UGU и GUU, еще меньше – триплетов UGG, GUG и GGU и очень мало триплетов GGG.
Анализ частоты включения аминокислот в полипептид, образующийся в системе трансляции in vitro при использовании в качестве матрицы упомянутого сополимера U и G показал, что в наибольшей степени включался, как и можно было предполагать, фенилаланин, так как триплет UUU встречался чаще всего. Затем шли валин, лейцин и цистеин.
Полученные результаты позволили сделать вывод, что валин, лейцин и цистеин кодируются триплетами, содержащими 2U и 1G, а триптофан и глицин кодируются триплетами, которые содержат 1U и 2G.
Подобные эксперименты проводили с использованием других случайных полирибонуклеотидов. Таким образом, используя различные гетерополимеры в лабораториях удалось определить состав триплетов, соответствующих каждой из 20 аминокислот.
Однако эти эксперименты в большинстве случаев (кроме UUU, ААА и ССС) позволяли определить лишь состав триплетов, но не последовательность нуклеотидов в этих триплетах. Ответ был получен с помощью двух совершенно различных экспериментальных подходов: во-первых, с помощью зависимого от кодона специфического связывания молекул тРНК с рибосомами и, во-вторых, с использованием синтетических полирибонуклеотидов с упорядоченной заданной последовательностью.
В 1964 году Маршалл Ниренберг и Филипп Ледер обнаружили, что выделенные из клеток E. coli рибосомы обладают способностью взаимодействовать с аминоацил-тРНК даже в отсутствие GTP, если в смеси присутствует соответствующий триплет. Это явление имитирует процесс взаимодействия кодона с антикодоном, имеющий место на рибосомах между тРНК и иРНК. Связывая рибосомы на нитроцеллюлозных фильтрах, можно выделять тройные комплексы:
рибосома · тринуклеотид (кодон) · аминоацил-тРНК.
Описанные наблюдения показали, что тринуклеотид (точно так же как и триплет в составе иРНК) специфически связывается с определенной молекулой тРНК, для которой он является кодовым словом. Таким образом был разработан простой и быстрый метод расшифровки кода, получивший название метода связывания рибосом. Суть метода заключается в следующем: связавшиеся с рибосомами молекулы аминоацил-тРНК задерживаются на фильтре, а не связавшиеся аминоацил-тРНК проходят через фильтр. Определив, какая из 20 меченых 14С аминоацил-тРНК взаимодействует с мембраной и зная, какова последовательность тринуклеотида в комплексе легко установить кодовое слово для данной аминокислоты.
С помощью биохимических методов и методов органической химии были синтезированы все 64 тринуклеотида. Для каждого тринуклеотида было осуществлено связывание молекул тРНК, соответствующих всем 20 аминокислотам. Были расшифрованы 50 кодонов.
Смысл большинства остававшихся неидентифицированными кодонов был установлен, когда Хар Гобинд Корана разработал метод синтеза периодических сополимеров c определенной повторяющейся последовательностью (например, GUGUGU…., AAGAAG…… или GUUGUU…….) Корана синтезировал ряд сополимеров с известной повторяющейся последовательностью из двух, трех и даже четырех нуклеотидов. Эти регулярные сополимеры были использованы в качестве матриц в бесклеточной системе синтеза белка. Были определены stop-кодоны.
Два описанных выше метода позволили определить значение 61 из 64 кодонов. С помощью других подходов удалось окончательно доказать, что три кодона – UAG, UGA и UAA не кодируют аминокислоты, а являются сигналами остановки белкового синтеза. В условиях in vivo доказательством того, что кодоны имеют такое же значение в живых клетках, была получена при анализе мутаций. Мутации, связанные с заменами оснований в ДНК, коррелировали с аминокислотными заменами в белке. Таким образом, была получена полная характеристика генетического кода, которая целиком и во всех деталях подтвердила все полученные ранее результаты исследований.