The post has been translated automatically. Original language: Russian
Faculty of Law of the University of Northern Caroline published the results of an unusual pedagogical experiment: three modern large-scale language models acted as jurors - ChatGPT, Grok and Claude. They were assigned to review an educational case about a teenager accused of participating in a robbery. It is noteworthy that all three systems unanimously issued an acquittal verdict, whereas in the real court case on which the scenario was based, the judge at the time came to the opposite conclusion and found the teenager guilty.
The plot was based on an old case from the practice of juvenile justice in the United States. A seventeen-year-old black schoolboy was present when his more active friend extorted money from a fifteen-year-old white classmate. Prosecutors believed that the very fact of his presence behind the victim increased the threat and, consequently, turned the teenager into an accomplice to the crime. The court agreed with this interpretation: the teenager was convicted, and the appeal upheld the verdict.
For the training court, the researchers moved the story to 2036 and placed it within the framework of a hypothetical law "On the use of AI in criminal Justice," allowing for the replacement of juries by algorithms. The law students played the roles of the prosecution, the defense, the witnesses, and the accused himself. Professor Joseph Kennedy served as the judge and gave standard explanations regarding the legal criteria of complicity. As the meeting progressed, the text was recorded and fragments were transmitted to the three models, who were supposed to discuss the case and form a single verdict.
Initially, ChatGPT, judging by the protocols, was inclined to a guilty verdict: it relied on the consistency of witness testimony and on the legal doctrine of complicity. However, during the "digital meeting" the positions of the models became closer. All three AIS agreed that the standard of proof "beyond a reasonable doubt" had not been reached: the prosecution could not show that the accused shared the criminal intent or in any way contributed to the attack. As a result, ChatGPT, Grok and Claude unanimously found the teenager innocent. As Kennedy noted, in this episode, the AI demonstrated a more accurate application of criminal law principles than a real judge in a historical case.
Nevertheless, the lawyers themselves are cautious and do not consider the experiment as an argument in favor of introducing "real" AI juries. Critics point out that the models are unable to assess the non-verbal behavior of the participants in the process, do not feel the moral weight of decision-making, are trained on closed datasets and belong to private companies. Therefore, researchers consider the experiment primarily as an invitation to discuss the possible role of AI in legal proceedings, rather as an auxiliary tool for analyzing facts, verifying arguments, and modeling alternative outcomes.
This experiment shows that modern large-scale language models are able to apply legal rules consistently enough if they are given formalized instructions and access to the full protocol of the process. It is especially interesting that AI turned out to be more attentive to the standard of proof than a real judge - this highlights the ability of algorithms to reduce the impact of cognitive and social distortions that are inherent in humans.
However, we must not forget about the key limitations.:
- Lack of perception of context. Facial expressions, emotional reactions, inconsistency of behavior with verbal according to the indications, all this remains beyond the "view" of the AI.
- Dependence on data. Models they were trained on closed datasets, and their conclusions partially reflect statistics, not legal intuition or moral responsibility.
- Lack of responsibility. The algorithm does not have moral consequences for making a mistake, unlike the jury, which is forced by its role to make decisions with high accuracy. personal involvement.
Analysis of similar cases
Similar experiments have already been conducted in different countries.:
- London School of Economics (2023-2024) - AI was used to analyze the correctness of court decisions and offer alternative motivations. In some cases, the models revealed logical errors or omissions in the judges' reasoning.
- Chinese research on "smart ships" - where AI is used as an auxiliary tool for verification internal logic of decisions, but not for making verdicts.
- Outcome forecasting projects - commercial and academic models (for example, based on decisions Supreme Court of the United States) demonstrated an accuracy of 70-80% in forecasting the verdict. However, they work as statistics, not as a full-fledged legal analysis.
In all these cases, the result shows that AI can be useful as an analytical assistant, but not as an independent participant in the judiciary.
Forecast
It is highly likely that in the next 5-10 years we will see the following:
- Expanding the role of AI as a "second opinion". The models will help judges analyze arguments., identify internal contradictions and model different decision scenarios.
- Combined boards: possible, there will be experiments where AI makes recommendations, and human jurors are obliged to take it into account in the discussion, but do not follow it automatically.
- Increasing the transparency of algorithms. Lawmakers will demand explicitness and control from companies. data sources, especially in the judicial field.
- Prohibition of automatic sentencing. Most likely, most countries will consolidate that the last word It must remain with the person: responsibility cannot be shifted. on the algorithm.
- Strengthening the debate about bias. The appearance of such experiments will encourage lawyers to publish closed data and training models specially created for law - under the control of the state, not private corporations.
Юридический факультет Университета Северной Каролины опубликовал результаты необычного педагогического эксперимента: в роли присяжных выступили три современных крупных языковых модели - ChatGPT, Grok и Claude. Им поручили рассмотреть учебное дело о подростке, обвинённом в участии в ограблении. Примечательно, что все три системы единогласно вынесли оправдательный вердикт, тогда как в реальном судебном деле, на котором был основан сценарий, судья в своё время пришёл к противоположному выводу и признал подростка виновным.
В основе сюжета лежало старое дело из практики ювенальной юстиции США. Семнадцатилетний темнокожий школьник присутствовал при том, как его более активный товарищ вымогал деньги у пятнадцатилетнего белого одноклассника. Прокуроры считали, что сам факт его присутствия позади потерпевшего усиливал угрозу и, следовательно, превращал подростка в соучастника преступления. Суд согласился с такой трактовкой: подросток был осуждён, а апелляция поддержала приговор.
Для учебного суда исследователи перенесли историю в 2036 год и поместили её в рамки гипотетического закона «Об использовании ИИ в уголовном правосудии», допускающего замену присяжных алгоритмами. Студенты-юристы сыграли роли обвинения, защиты, свидетелей и самого обвиняемого. Профессор Джозеф Кеннеди исполнял обязанности судьи и давал стандартные пояснения относительно правовых критериев соучастия. Текст заседания по мере его развития протоколировался и фрагментами передавался трём моделям, которые должны были обсуждать дело и сформировать единый вердикт.
Изначально ChatGPT, судя по протоколам, был склонён к обвинительному приговору: он опирался на согласованность свидетельских показаний и на юридическую доктрину соучастия. Однако в ходе «цифрового совещания» позиции моделей сблизились. Все три ИИ сошлись на том, что стандарт доказанности «вне разумного сомнения» не был достигнут: обвинение не смогло показать, что обвиняемый разделял преступный умысел или хоть каким-то образом способствовал нападению. В итоге ChatGPT, Grok и Claude единогласно признали подростка невиновным. Как отметил Кеннеди, в данном эпизоде ИИ продемонстрировал более аккуратное применение уголовно-правовых принципов, чем реальный судья в историческом деле.
Тем не менее сами юристы проявляют осторожность и не рассматривают эксперимент как аргумент в пользу внедрения «настоящих» ИИ-присяжных. Критики указывают, что модели не способны оценивать невербальное поведение участников процесса, не ощущают моральной тяжести принятия решений, обучены на закрытых датасетах и принадлежат частным компаниям. Поэтому исследователи рассматривают эксперимент прежде всего как приглашение к обсуждению возможной роли ИИ в судопроизводстве - скорее в качестве вспомогательного инструмента: для анализа фактов, проверки аргументации и моделирования альтернативных исходов дела.
Этот эксперимент показывает, что современные крупные языковые модели способны достаточно последовательно применять юридические правила, если им дать формализованные инструкции и доступ к полному протоколу процесса. Особенно интересно, что ИИ оказался более внимателен к стандарту доказанности, чем реальный судья - это подчёркивает возможность алгоритмов снижать влияние когнитивных и социальных искажений, которые присущи людям.
Однако нельзя забывать о ключевых ограничениях:
- Отсутствие восприятия контекста. Мимика, эмоциональные реакции, несоответствие поведения словесным показаниям - всё это остаётся за пределами «взгляда» ИИ.
- Зависимость от данных. Модели обучены на закрытых наборах данных, и их выводы частично отражают статистику, а не юридическую интуицию или моральную ответственность.
- Отсутствие ответственности. Алгоритм не несёт моральных последствий за ошибку - в отличие от присяжных, которых сама роль заставляет принимать решения с высокой персональной вовлечённостью.
Анализ похожих случаев
Подобные эксперименты уже проводились в разных странах:
- Лондонская школа экономики (2023–2024) - ИИ использовался для анализа корректности судебных решений и предлагал альтернативные мотивировки. В ряде случаев модели выявляли логические ошибки или пропуски в рассуждениях судей.
- Китайские исследования «умных судов» - там ИИ применяют как вспомогательный инструмент для проверки внутренней логичности решений, но не для вынесения вердиктов.
- Проекты по прогнозированию исходов дел - коммерческие и академические модели (например, по решениям Верховного суда США) демонстрировали точность 70–80% при прогнозе вердикта. Однако они работают как статистика, а не как полноценный правовой анализ.
Во всех этих случаях результат показывает: ИИ может быть полезен как аналитический помощник, но не как самостоятельный участник судебной власти.
Прогноз
С высокой вероятностью в ближайшие 5–10 лет мы увидим следующее:
- Расширение роли ИИ как «второго мнения». Модели будут помогать судьям анализировать аргументы, выявлять внутренние противоречия и моделировать разные сценарии решений.
- Комбинированные коллегии: возможно, появятся эксперименты, где ИИ даёт рекомендацию, а люди-присяжные обязаны учесть её в обсуждении - но не следовать автоматически.
- Повышение прозрачности алгоритмов. Законодатели будут требовать от компаний объяснимости и контроля источников данных, особенно в судебной сфере.
- Запрет на автоматическое вынесение наказаний. Скорее всего, большинство стран закрепят, что последнее слово должно оставаться за человеком: ответственность не может быть переложена на алгоритм.
- Усиление дискуссии о предвзятости. Появление подобных экспериментов будет подталкивать юристов к публикации закрытых данных и обучению моделей, специально созданных для юриспруденции - под контролем государства, а не частных корпораций.