KI-Podcast Analyse - Teil 2


Teil 1 der Serie befasste sich mit der Motivation und den ersten naiven Ansätzen und Problemen die mich auf meiner KI getriebenen DIY Podcast Analyse begegneten.
Heute nun möchte ich die ersten Ergebnisse der Transkription mittels Google’s LLM “gemini-1.5-flash-002” mitteilen. Um es kurz zu machen, die Reise ist noch nicht zu Ende …
Tim Gabel und Hr. Lindner
Als erste zu transkribierende Audiodatei wählte ich die ersten 10 Minuten des Tim Gabler Interviews mit Christian Lindner.
Der Prompt für das Gemini 1.5 Flash Large Language Model war
prompt = """
Can you transcribe this interview, in the format of timecode, speaker, caption.
Use speaker A, speaker B, etc. to identify speakers.
"""
Zuerst war das Ergebnis vielversprechend
Okay, here's a transcription of the provided audio in the requested format.
00:00 Speaker A: Freunde, willkommen zu einer neuen Folge Podcast. Heute ist Christian Lindner zu Gast und das ganze heute ist eine kleine Sonderfolge, weil ich ja eigentlich bei politischen Themen, ich habe eine Meinung dazu, aber ich habe nicht mit vielen Politikern gesprochen und ich habe ja gesagt, ich möchte das …
Gemini 1.5 Flash übersetzte das Dokument zuerst “relativ” gut, aber dann tauchten solche Passagen auf
08:21 Speaker B: Christian, nach drei Jahren sehen wir uns wieder.
08:23 Speaker B: Vielen Dank für die Einladung. Ich freue mich.
08:25 Speaker A: Sehr gerne. Auch danke, dass du vorbeigekommen bist hierher. Das machen wenige Politiker. Äh nehmen den Weg auf sich. Ähm, wir haben Ich könnte ja andere sagen, der Lindner hat jetzt ja auch viel Zeit.
Gemini verwechselt also die beiden Protagonisten (Speaker B: … Speaker B: …)
Auch mit einer deutschen Promptvorgabe ändert sich daran nichts.
prompt_de = """
Transkribiere dieses Interview im Format von Timecode, Sprecher und Untertitel.
Verwende Sprecher A, Sprecher B usw., um die Sprecher zu identifizieren.
"""
00:08:21] Sprecher B: Christian, nach drei Jahren sehen wir uns wieder.
[00:08:23] Sprecher B: Vielen Dank für die Einladung. Ich freue mich.
[00:08:25] Sprecher A: Sehr gerne. Auch danke, dass du vorbeigekommen bist hierher. Das machen weniger Politiker.
[00:08:31] Sprecher A: nehmen den Weg auf sich. Ähm, wir haben Ich könnte ja andere sagen, der Lindner hat jetzt ja auch viel Zeit.
Tim Gabel und Frau Wagenknecht
Frau Wagenknecht’s Auftritt bei Tim Gabel war wesentlich länger als der von Herrn Lindner. Zum Glück hatte ich schon entsprechende Vorarbeit für die Audiodateisegmentierung geleistet.
Eine erste Durchsicht der Transkription ergab für mich keine Inkonsistenzen, was wahrscheinlich der unterschiedlichen Tonlage der Sprecher zu schulden ist.
06:29-06:38 Sprecher A: Ähm und das, da finde ich ganz spannend, was du so für Prinzipien für dich selber an Politik anlegst.
06:38-06:52 Sprecher B: Ja, was ist mein Grundprinzip? Ich finde, man darf sich nie verbeugen. Also egal, ob die eigene Partei, egal, ob die Mehrheit auch anders denkt, wenn man von bestimmten Dingen überzeugt ist, sollte man die nicht äh über Bord werfen. Also es war z.B. bei mir schon öfter mal in meinem Leben so, dass ich gegen ganz klare Mehrheiten mich positioniert habe, was dann auch unpopulär war. So, ich erinnere mich, das letzte Mal in der Coronazeit z.B.
06:52-07:23 Sprecher B: Ich habe wollte niemandem vorschreiben, dass er sich nicht impfen lassen darf. Also jeder, der das wollte, sollte das machen. Ich habe es für mich anders entschieden. Ich fand auch diese Lockdowns und diese Angstmache irgendwie völlig schräg und habe das öffentlich vertreten und habe da wirklich selbst bei meiner eigenen Fanbase teilweise massive Gegenreaktionen bekommen und ich finde trotzdem darf man da nicht klein beigeben. Und genauso natürlich auch bei anderen wichtigen Fragen, Krieg und Frieden oder soziale Gerechtigkeit, man sollte sich nie verbeugen.
Elon Musk und Frau Weidel
Und wie schlägt sich Gemini 1.5 Flash bei der Transkription des Interviews von Frau Weidel durch Herrn Musk?
Ein schnelles manuelles Überfliegen der ersten 10 Minuten der Transkription erbrachte keine Sprecherverwechselung auch wenn das Interview etwas gewöhnungsbedürftig zu lesen ist. Hier zeigt sich meiner Meinung nach, dass Gemini 1.5 Flash besser mit der englischen als mit der deutschen Sprache umgehen kann.
[00:00:51] Speaker A: I can hear you. Yes.
[00:00:52] Speaker B: Perfect, perfect. Um, to start with, um, who we are. Um, the AFD is uh, the alternative for Germany. It is a relatively new party, um, founded 11 years ago, uh, during the course of um, the um, the euro um, um, problems. Um, so um, unfortunately, I have to start um, when I shed some light on our party with uh, the quite negative circumstances um, in Germany. Our country is a great country with highly motivated people. But our country um, has been governed not in a proper way within the last 20, 25 years. Um, we had the Angela Merkel administration for 16 years, and then the so-called traffic light coalition that imploded last year, and now we're having elections. Um, in my point of view, uh, Angela Merkel, the first green chancellor, um, she ruined basically our country. She enforced without asking the people, she enforced to open our borders for illegal immigration in 2015. She wrecked and destroyed our uh, backbone in terms of abnoxious energy policy. Um, for um, the foreign uh, listeners here in this audience, um, Germany is the only industrial country, the only industrial country that um, um, unplugged the nuclear power plant. So the aim of Angela Merkel, um, was to um, to enforce just solar and wind energy. And you don't need to be very smart um, to encounter that you cannot run an industrial country with just wind and solar, because you don't have any energy, an electric electricity, you know, when the sun doesn't shine and when the wind uh, doesn't blow. And this is a major problem.
Schlussfolgerung
Die Probleme beim Interview mit Herrn Lindner sind wahrscheinlich der relativ gleichen Tonlage der Sprecher und der Schwäche von Gemini 1.5 Flash beim deutschen Sprachverständnis geschuldet.
Ich werde hier noch andere LLM testen, aber auch einen Test mit Whisper durchführen.
Weiterhin muß der Transkriptionsprozess automatisiert werden, ich denke hier an die Verwendung von der LangGraph Bibliothek von LangChain.
Falls ihr weitere Empfehlungen oder Anregungen habt, dann lasst mich dies bitte wissen. Ihr könnt wie immer den Projektquellcode von meinem Github Repo klonen.
git clone https://github.com/siegfriedschaefer/gcloud.git
Schlussbemerkung
Ich hoffe, dass weder Frau Wagenknecht noch Frau Weidel, Herr Lindner oder Tim Gabel etwas dagegen haben, dass ich ihre öffentlich zugänglichen Interviews für diese KI getriebene Podcast Analyse verwende. Am Ende könnte dieses Verfahren einen Weg aufzeigen um eine objektive Zusammenfassung von getroffenen Aussagen zu erhalten und vielleicht dazu beitragen die politische Meinungsbildung zu versachlichen. KIs können nämlich nicht subjektiv sein, oder?!
Interview Tim Gabel mit Christian Lindner
Subscribe to my newsletter
Read articles from SiggiS directly inside your inbox. Subscribe to the newsletter, and don't miss out.
Written by
