Die neue russische Plattform Neurolab soll Entwickler künstlicher Intelligenz, Unternehmen und die Regierung zusammenbringen, indem sie ihnen Rechenleistung, Finanzierung und Beratung bietet. Das Projekt verbindet die Leistungsfähigkeit russischer Kryptominer mit ressourcenintensiven Projekten im Bereich der großen Sprachmodelle (Large Language Models, LLM). Es soll auch ein landesweites LLM auf der Grundlage russischer Sprachtexte erstellen. Die Entwickler gehen davon aus, dass dieses Modell weniger politisch voreingenommen sein wird als Modelle, die von großen Unternehmen erstellt werden. Dies teilten Vertreter des Zentrums für Technologien der künstlichen Intelligenz (CATI) auf der Pressekonferenz „Schaffung eines nationalen KI-Modells: Ergebnisse der Arbeit von Neurolab“ mit.
Neurolab arbeitet seit Ende September im Testbetrieb. Es wird erwartet, dass große Unternehmen und Agenturen im Rahmen der KMU-Plattform gezielte Unterstützung erhalten können, darunter verschiedene Finanzierungsinstrumente, Beratung über den Einsatz von KI in der Arbeit der Organisation, Schulungsmaterialien und Zugang zu Rechenleistung. Der Zugang zu den Kapazitäten wird von Organisationen aus dem Krypto-Mining bereitgestellt: Bitriver Rus, Intelion Data Systems und die Industrial Mining Association.
Die Neurolab-Plattform arbeitet als gemeinnützige Organisation, deren Hauptziel die Schaffung und Unterstützung des KI-Marktes in Russland ist, betonte Anton Tkatschew, erster stellvertretender Vorsitzender des Staatsduma-Ausschusses für Informationspolitik, Informationstechnologien und Kommunikation, auf einer Pressekonferenz. Die Plattform könne jedem Entwickler kostenlos Rechenleistung zur Verfügung stellen – dafür müsse jedes einzelne Projekt bewertet werden, sagte Timofei Semenov, CEO der Plattform Intelion Data Systems. Bereits 2026 soll die gesamte Rechenleistung für die Entwicklung von KI im Rahmen des Projekts 1 Exaflops (Billionen Rechenoperationen pro Sekunde) erreichen, sagte Igor Runets, Gründer und CEO von Bitriver Rus. „Neurolab“ hat keine festgelegte Finanzierungsobergrenze, es wird auf Projektbasis durchgeführt.
Die Entwickler von Neurolab sehen eines der Ziele der Schaffung eines nationalen LLM darin, die technologische Unabhängigkeit Russlands zu stärken und die politische Voreingenommenheit zu beseitigen, die sich in den von großen Unternehmen entwickelten Modellen manifestieren kann. Zu diesem Zweck planen sie, ihr Modell nur auf russischsprachigen Texten zu trainieren.
Es wird erwartet, dass dieses LLM im Laufe der Zeit durch das schrittweise Hinzufügen von Texten im Rahmen einer Multi-Agenten-Architektur erweitert wird, so Daniel Polowinka, Investment Director bei Bitriver Management Company, in einem Interview mit der russischen Zeitung Expert. Das Modell wird nicht nur auf russischsprachige Texte beschränkt sein, sondern auch auf fremdsprachige Texte, die ins Russische übersetzt wurden, trainiert werden. Die erste Version des Modells wird 7 Milliarden Parameter enthalten, später werden es 60 Milliarden sein. Zum Vergleich: Die Anzahl der Parameter in ChatGPT 3.5 beträgt 175 Milliarden. Das Modell wird Werkzeuge zur Verbesserung der Antworten verwenden, die nicht von der Anzahl der Parameter abhängen. Die Möglichkeit, mit dem Modell über APIs zu interagieren, könnte Entwicklern bereits in einem Jahr zur Verfügung stehen, berichtet er.
„Russischen Entwicklern fehlen oft die Ressourcen und die Infrastruktur, die ihren ausländischen Kollegen zur Verfügung stehen, so dass Neurolab zu einer notwendigen Basis für den Start und die Umsetzung innovativer Projekte werden kann“, ist Dmitri Anaschkin, Mitglied des Bildungs- und Wissenschaftskomitees der Nationalen Stiftung für Künstliche Intelligenz und Gründer der Online-Schule NEURODA, in einem Kommentar gegenüber Expert überzeugt. Darüber hinaus werde die Gründung einer „Bank der Ideen“ mit Unterstützung und Finanzierung den Entwicklern helfen, ihre Ideen in reale Produkte umzusetzen, was letztlich den russischen KI-Markt stärken könnte, glaubt er.
Die Plattform könne zu einem Bindeglied zwischen Wirtschaft, Wissenschaft und staatlichen Stellen werden und Entwicklern und Unternehmern Möglichkeiten zur Zusammenarbeit, zur Teilnahme an Förderprogrammen und zu Vergünstigungen bieten, fügt Anashkin hinzu.
Heute gibt es 42 LLMs in der russischen SuperGLUE-Qualitätsprüfung russischer SuperGLUE-Modelle, zum Beispiel von Sber, Yandex und unabhängigen Teams wie dem Saiga-Team, bemerkt Alexey Kalaburdin, Leiter des Data Science AdTech-Ökosystems Hybrid: „Sie werden auf Daten aus russischsprachigen Ressourcen trainiert, insbesondere auf Pikabu.ru, Habr-Beiträgen, Gedichten und Nachrichten. Die neuronalen Netze und ihre Daten sind öffentlich zugänglich. Nutzer können sie kostenlos herunterladen und verwenden. Auf der Plattform Hugging Face Hub beispielsweise, auf der Forscher, darunter auch Russen, ihre Modelle hochladen können, gibt es bereits mehr als 3.638 neuronale Netze in russischer Sprache“.
Es sei daher unwahrscheinlich, dass Neurolab einen qualitativ neuen Ansatz für das LLM-Training erfunden habe, bezweifelt Alexei Kalaburdin. Heute werden neuronale Netze nicht mehr nur auf Russisch trainiert, sondern es wird mehr für ihr zusätzliches Training getan – wahrscheinlich, weil die Qualität des Outputs besser ist, wenn man Benchmarks wie den russischen SuperGLUE heranzieht, argumentiert er.
Das nationale Sprachmodell ist ein notwendiger Teil der kritischen Infrastruktur für künstliche Intelligenz, ist Alexander Rodin überzeugt, ein führender Experte des Kompetenzzentrums „Künstliche Intelligenz“ der Nationalen Technologieinitiative (NTI), das auf dem MIPT basiert: „Angesichts der Geschwindigkeit, mit der KI-Technologien in den Alltag und die Praxis von Unternehmen und der öffentlichen Verwaltung eindringen, besteht die Gefahr, die technologische Souveränität zu verlieren, nicht nur durch falsche Entscheidungen, sondern auch durch den Verfall der russischen Sprache und der russischen Identität insgesamt“. Natürlich sei die Aufgabe äußerst ehrgeizig und erfordere nicht nur erhebliche finanzielle Mittel, sondern auch ein äußerst kompetentes Team, erklärte er gegenüber Expert.
Das nationale Modell wird erhebliche Investitionen und Unterstützung benötigen, um wettbewerbsfähig zu bleiben. Es müsse zugänglich und flexibel sein, um sich an verschiedene Aufgaben anpassen zu können – von der Unternehmensanalyse bis hin zu Bildungs- und Regierungsprojekten, so Anaschkin. Es ist unmöglich, politische Voreingenommenheit völlig auszuschließen, da jeder Textkorpus bestimmte Ansichten und Werte der Gesellschaft widerspiegelt, in der er entstanden ist.
Heute werden Modelle mit bis zu 7 Milliarden Parametern allmählich zur Kategorie der Mikromodelle – zu klein und zu spät, um am Rennen teilzunehmen, meint Dmitri Tonkich, Entwickler bei der DataRu Group. Die einheimischen LLMs von Yandex und Sber entsprechen dem aktuellen Entwicklungsstand der Branche, und in diesem Fall reicht es seiner Meinung nach aus, ihre Ausbildung auf der Grundlage nationaler Interessen durchzuführen, um „politische Voreingenommenheit zu beseitigen“. Und die Öffentlichkeit könnte von einem qualitativ hochwertigen Textkorpus in russischer Sprache profitieren, was der vielversprechendste Bereich für ein nationales Projekt ist.
Kommentare