Python script to extract metadata from patterns in text, segment text, save new files (python, regex)
New here? Learn about Bountify and follow @bountify to get notified of new bounties! x

I (very much a novice programmer) need a python script that will do the following for a very large amount of un-pre-processed text (txt files):

1) Extract page numbers and other metadata from patterns in the text;

2) Delete page numbers and other metadata from the body of the text;

3) Cut the text up into small sections at points determined by particular patterns in the text (regex - see below for details);

4) Extract metadata based on the values in that regex pattern;

5) Save each new (smaller) file with this metadata in the file name.

Finally, I am looking to adapt this script to different (albeit similar) text so notes explaining what you're doing at each major step, such that a novice programmer could plausibly tweak the code, will earn a substantial tip.

About the project:

I have a large amount of transcript files from legislative debates, which I am ultimately trying to break down into individual txt files for each distinct speech given by a legislator, with each new filename reflecting the legislator's LASTNAME_FIRSTNAME_PARTY_LEGSESSION_DATE.

LASTNAME = The last name of the speaker

FIRSTNAME = The first name of the speaker

PARTY = Party affiliation

LEGSESSION = Wahlperiode and Sitzung numbers

DATE = Date

The text pasted below is a subset of the larger text file(s) that need to be split up, but should serve as a template.

Obviously, the text is in German. Knowledge of the language shouldn't be necessary for the task, however. The document should be split every time a new speaker begins a speech. This (usually) happens at the following pattern:

FIRST LAST (PARTY): text of speech

Example:

Rudolf Dreßler (SPD): Herr Präsident! ...

So, the new file should start with the word "Rudolf", and be saved as rudolf_dressler_spd_12_70_01161992

This indicates that Rudolf Dressler is the speaker, is a member of the SPD party, in the 12th voting period (Wahlperiode), 70th session (Sitzung) on January 16, 1992.

The only further hiccup is that, as you may notice in the text, some new speakers are introduced differently than "FIRST LAST (PARTY):" when they have some additional position in the government. They may be thus introduced as "Dr. FIRST LAST, Bundesminister... :" or, alternately, Vizepräsident FIRST LAST:"

If there is a new line, some text, and then a : it always indicates a new speaker; however, different metadata (position in place of party) needs to be extracted.

Finally, with respect to date and legislative session, this information is repeated periodically in the text at each page break in the following format:

Deutscher Bundestag -- 12. Wahlperiode -- 70. Sitzung. Bonn, Donnerstag, den 16. Januar 1992

These metadata (12 Wahlperiode, 70 Sitzung, Date) need to be extracted and included in the output filenames, but also need to be deleted from the body of the text.

*PASTED*

Der Kollege Dreßler hat das Wort.
Rudolf Dreßler (SPD): Herr Präsident! Meine Damen und Herren! Bundesregierung und Koalitionsfraktionen veranstalten derzeit ein bemerkenswertes Schauspiel.
(Lachen und Widerspruch bei der CDU/CSU und der FDP)
Wenn die zweitgrößte Fraktion des Hauses die Geschäftsordnung bemühen muß, um zu ihrem parlamentarischen Recht zu kommen und zu bewirken, daß ein von ihr vorgelegter Gesetzentwurf in erster Lesung behandelt wird, offenbart die Mehrheit aus CDU/CSU und FDP, die das bisher verhindert hat und weiter verhindern will,
(Michaela Geiger [CDU/CSU]: Sehr richtig!)
ein gestörtes Verhältnis zu den Regeln des gesitteten Parlamentarismus.
(Beifall bei der SPD -- Lachen bei der CDU/ CSU und der FDP)
Parlamentarische Qualität beweist sich nämlich vor allem darin, wie die Mehrheit die Rechte und Anliegen der Minderheit achtet und behandelt.
(Beifall bei der SPD) Unser Anliegen, den Gesetzentwurf der SPD-Fraktion zur Erhöhung des Erstkindergeldes heute endlich in erster Lesung zu behandeln,
(Zuruf von der CDU/CSU: Schauspieler!) nimmt doch nicht eine Entscheidung des Hauses in der Sache vorweg und macht auch nicht aus einer Minderheit eine Mehrheit. Ich frage: Wovor fürchten sich die Koalitionsfraktionen eigentlich, wenn sie durch Verfahrensheckmeck eine Debatte in der Sache verhindern?
(Beifall bei der SPD)

5874

Deutscher Bundestag -- 12. Wahlperiode -- 70. Sitzung. Bonn, Donnerstag, den 16. Januar 1992

Rudolf Dreßler
Die in der Öffentlichkeit von CDU/CSU und FDP erhobene Behauptung, die SPD blockiere die Verbesserung des Familienlastenausgleichs,
(Beifall bei der CDU/CSU sowie bei Abge ordneten der FDP)
wird durch den Schwindel, einen von uns vorgelegten Gesetzentwurf zur Erhöhung des Kindergeldes nicht auf die Tagesordnung zu setzen, entlarvt.
(Beifall bei der SPD -- Dr. Wolfgang Schäuble [CDU/CSU]: Was wollen Sie denn
mit Ihrem Schwindel entlarven?) Wahr ist nämlich das Gegenteil -- und die Notwendigkeit der heutigen Geschäftsordnungsdebatte beweist das --: CDU/CSU und FDP verhindern mit ihrer Verfahrensblockade im Parlament, daß den Familien schnell geholfen und das Kindergeld schnell erhöht wird.
(Beifall bei der SPD) Aber das ist nicht alles. Wer dem Ganzen auf den Grund gehen will, findet weitere üble Absichten. Das derzeit im Vermittlungsausschuß liegende Steueränderungsgesetz der Koalitionsfraktionen ist ein Musterbeispiel steuerpolitischer Einseitigkeit. Mehrwertsteuererhöhung für alle und Vermögensteuersenkung für wenige -- das ist ein weiterer Meilenstein in der Politik der sozialen Ungerechtigkeit der CDU/ CSU und der FDP.
(Beifall bei der SPD -- Widerspruch bei der CDU/CSU)
Und nun kommen Sie daher und knüpfen die verfassungsrechtlich gebotene Erhöhung des Familienlastenausgleichs an die Bedingung, zugleich müßten dann auch die steuerpolitischen Grobheiten wie Mehrwertsteuererhöhung und Vermögensteuersenkung von der SPD in Bund und Ländern geschluckt werden. Ich sage Ihnen klipp und klar: Dieses Manöver machen wir nicht mit. Den darin liegenden Versuch einer politischen Erpressung weisen wir zurück.
(Beifall bei der SPD -- Dr. Hermann Otto Sohns [FDP]: Wer erpreßt wen?)
Wir wollen eine Erhöhung des Kindergeldes, ohne daß den Familien gleichzeitig ein guter Teil davon durch die Mehrwertsteuererhöhung wieder aus der Tasche gezogen wird. Wir wollen eine Erhöhung des Kindergeldes, ohne daß Rentnerinnen und Rentner durch die Mehrwertsteuererhöhung zusätzlich bestraft werden. Wir wollen eine Erhöhung des Kindergeldes, ohne daß die Besitzer des großen Geldes, Graf Lambsdorff, durch die Vermögensteuersenkung dabei ein zusätzliches Geschäft machen.
(Beifall bei der SPD) Das alles geht nur, wenn Sie Ihre Blockade gegen unseren Gesetzentwurf endlich aufgeben. Ich nenne es ein schamloses Spiel mit den Familien, wenn Sie deren berechtigte Anliegen mit denen des großen Geldes verknüpfen, wenn Sie die Kindergeldempfänger gleichsam für die Vermögensteuerzahler politisch in Beugehaft nehmen. Sie gefährden den sozialen Frieden in Deutschland, meine Damen und Herren.
(Beifall bei der SPD)

Wir wollen, daß das Erstkindergeld von 50 DM auf 125 DM erhöht wird, und das rückwirkend zum 1. Januar. Die SPD-Fraktion appelliert nochmals an CDU/ CSU und FDP: Machen Sie endlich den Weg frei, machen Sie Schluß damit, Mehrwertsteuererhöhung und Vermögensteuersenkung mit der Verbesserung des Familienlastenausgleichs zu verknüpfen. Stimmen Sie endlich der Aufsetzung unseres Gesetzentwurfs auf die Tagesordnung heute morgen zu.
(Beifall bei der SPD)

Vizepräsident Hans Klein: Das Wort hat der Abgeordnete Dr. Heribert Blens.

Dr. Heribert Blens (CDU/CSU): Herr Präsident! Meine Damen und Herren! Wer den Familien helfen will und wer ihnen schnell helfen will, der muß den Antrag der SPD heute ablehnen.

(Beifall bei der CDU/CSU und der FDP -- Lachen bei der SPD -- Zuruf von der SPD:
Das ist unglaublich!)

Er muß statt dessen endlich die Blockade der Sozialdemokraten im Vermittlungsausschuß aufgeben.

(Beifall bei der CDU/CSU und der FDP -- Zurufe von der SPD: Oh!)

Der Deutsche Bundestag hat Anfang Dezember 1991 eine Verbesserung des Familienlastenausgleichs um 7 Milliarden DM beschlossen. Dem hat der Bundesrat nicht zugestimmt und den Vermittlungsausschuß angerufen.

(Rudolf Dreßler [SPD]: Sie wissen sehr gut, warum!)

Im Vermittlungsausschuß Beratung

blockieren

Sie

die

weite-re

(Zurufe von der CDU/CSU: Jawohl!)

und verhindern dadurch, daß diese 7 Milliarden DM den Familien vom 1. Januar 1992 an zugute kommen. Das sind die Tatsachen.

(Beifall bei der CDU/CSU und der FDP)

Wenn Sie diese Blockade aufgeben, dann ist den Familien viel schneller, nämlich bis zum 14. Februar, der nächsten Sitzung des Bundesrates, Klarheit zu verschaffen. Das geht dann viel schneller, als Ihren Gesetzentwurf, den Sie jetzt neu eingebracht haben, durch das Parlament zu bringen. Wer schnell helfen will, muß Ihren Antrag heute ablehnen.

(Zurufe von der SPD: Unmöglich!)

Aber das setzt voraus, daß Sie mit Vernunft und Verantwortungsbewußtsein im Vermittlungsverfahren weiter verhandeln,

(Dr. Peter Struck [SPD]: Haben wir immer gemacht!)

d. h. die Entscheidung über die Mehrausgaben des Steueränderungsgesetzes 1992 und die Entscheidung über die dafür erforderlichen Mehreinnahmen durch Erhöhung der Mehrwertsteuer zusammenzuhalten. Das Spiel, das Sie vorhaben -- die Opposition verteilt die Wohltaten, und die Koalition kann dann sehen, wie das finanziert wird --, spielen Sie nicht mit uns.

(Beifall bei der CDU/CSU und der FDP)

Deutscher Bundestag -- 12. Wahlperiode -- 70. Sitzung. Bonn, Donnerstag, den 16. Januar 1992

5875

Dr. Heribert Blens
Ich sage Ihnen hier -- das gilt für heute, und das gilt für das gesamte Vermittlungsverfahren --: Die beiden Dinge bleiben für uns zusammen.
Worum es konkret geht, ist sehr einfach. Ich nenne Ihnen ein paar Zahlen. Die Sozialdemokraten verlangen im Vermittlungsausschuß für die Jahre 1992 bis 1994 Mehrausgaben des Bundes von 64 Milliarden DM. Dann kommt die Frage der Finanzierung. Dabei hören wir von den Sozialdemokraten einen einsamen Solisten aus Niedersachsen, den Finanzminister, der sagt: Die Mehrwertsteuererhöhung ist notwendig. Er ist der einzig Vernünftige, der bei Ihnen den Mut hat, das offen zu sagen. Und dann kommt der Chor der Kanzlerkandidaten. Engholm: Mit den Sozialdemokraten keine Mehrwertsteuererhöhung. Dann kommt der nächste Kanzlerkandidat, Klose: Mit der sozialdemokratischen Bundestagsfraktion keine Mehrwertsteuererhöhung.
(Rudolf Dreßler [SPD]: Alles einvernehm lich!)
Dann kommt der Kanzlerkandidat Lafontaine: Mit der SPD keine Mehrwertsteuererhöhung. Aber der Listenreiche von der Saar fügt noch etwas hinzu, nämlich das Wörtchen ,,jetzt". Er sagt: Jetzt keine Mehrwertsteuererhöhung. Dann ist die Frage: Wann denn, wenn nicht jetzt? Da sagt er: Wenn die Harmonisierung der Mehrwertsteuersätze in der EG kommt. Das versteht kein Mensch draußen. Die Leute behalten nur: Die wollen jetzt nicht die Mehrwertsteuererhöhung. Nur Eingeweihte wissen, was gemeint ist.
Die EG-Richtlinie liegt auf dem Tisch, den Mindestsatz der Mehrwertsteuer in der EG auf 15 % anzuheben. Über diese Richtlinie wird im April entschieden.
(Zuruf von der CDU/CSU: Richtig!) Dann ist das für uns verbindliches, geltendes Recht, das wir umsetzen müssen.
(Widerspruch bei der SPD) In Klarschrift heißt das, was Lafontaine sagt: Mehrwertsteuererhöhung jetzt nicht, aber im April.
(Beifall bei der CDU/CSU -- Dr. Alfred Dregger [CDU/CSU]: April! Ap ril!)
Ich frage Sie: Wie kommt er auf den Ap ril? Das will ich Ihnen auch beantworten: Am 5. April 1992 sind Landtagswahlen, und zwar u. a. in Schleswig-Holstein, wo einer Ihrer Kanzlerkandidaten auf dem Präsentierteller steht. Er hat sich in der Sache Mehrwertsteuer auf ein sehr hohes Pferd gesetzt. Er kommt jetzt vor der Wahl nicht mehr davon herunter. Vielleicht danach; denn vorher ist ja der 1. April. Das kann er seinen Wählern sagen.
(Heiterkeit und Beifall bei der CDU/CSU und der FDP)
Meine Damen und Herren, wir werden Ihnen dieses Spiel nicht so einfach machen. Wir werden Finanzierung und Ausgabenentscheidung zusammenhalten. Ich fordere Sie auf: Spielen Sie nicht auf Opposition, die weder hier noch im Bundesrat eine Mehrheit hat. Die kann nämlich einfach fordern und sagen, finanzieren müssen dann die anderen. Sie haben im Bun

desrat die Mehrheit. Sie tragen damit auch Verantwortung für das Ganze mit.
(Peter Conradi [SPD]: Deswegen! Genau! Wir lassen uns nicht erpressen!)
Ich fordere Sie auf: Werden Sie dieser Verantwortung gerecht, und stimmen Sie im Vermittlungsausschuß möglichst schnell einem Ergebnis zu, das den Familien gerecht wird und die nötigen und sinnvollen Ausgaben umfaßt, das aber auch die notwendige Finanzierung und damit die Mehrwertsteuererhöhung enthält.
Wenn Sie das tun, kommen wir zugunsten der Familien sehr schnell weiter. Aber Ihrem Antrag zu folgen hieße, parteitaktische Spielchen Ihrer Seite auf Kosten der Familien zu unterstützen. Dafür kriegen Sie uns niemals.
(Beifall bei der CDU/CSU und der FDP)
Vizepräsident Hans Klein: Frau Abgeordnete Dr. Ursula Fischer, Sie haben das Wo rt .
Dr. Ursula Fischer (PDS/Linke Liste): Herr Präsident! Meine Damen und Herren! Ich wundere mich darüber, warum man diese Debatte nicht einfach mit der Debatte über den Subventionsbericht verbindet. Dann hätte man unter Umständen auch eine Idee, woher man Geld bekommen könnte.
Für mich ist ohnehin sehr zweifelhaft, warum eine Debatte über Vermögen- und Mehrwertsteuer mit einer Debatte über Kindergeld verknüpft wird.
(Dr. Wolfgang Freiherr von Stetten [CDU/ CSU]: Von Steuern verstehen Sie nichts!)
-- Es mag sein, daß ich dabei etwas nicht verstehe. Ich verstehe es an dieser Stelle sogar sehr gerne nicht. -
Vermögensteuer spielt für die Bürger in den östlichen Bundesländern mit Sicherheit nicht die Rolle, aber eine schnelle, unkomplizierte und unbürokratische Kindergeldregelung auf alle Fälle. Die 125 DM sind aus meiner Sicht noch zu niedrig. Es gab auch schon andere zahlen.
Ich schlage vor, wir sollten dem Antrag der SPD zustimmen, diesen Entwurf auf die Tagesordnung zu setzen.
Danke. (Beifall bei der PDS/Linke Liste)
Vizepräsident Hans Klein: Herr Kollege Heinz Hübner, ich erteile Ihnen das Wort.
Heinz Werner Hübner (FDP): Herr Präsident! Meine sehr verehrten Damen und Herren! Wir haben uns schon mehrfach mit der Verbesserung des verfassungsrechtlich gebotenen Familienlastenausgleichs ausführlich befaßt, zuletzt erst bei der Verabschiedung des Steueränderungsgesetzes in verbundener Debatte mit dem Antrag der SPD.
Die SPD hat sich mit ihren Vorstellungen im Finanzausschuß und im Plenum nicht durchsetzen können, und das aus guten Gründen, wie sich aus dem Bericht des Finanzausschusses zum Steueränderungsgesetz 1992 ergibt, der ausführlich auf diesen Problembereich eingeht.

5876

Deutscher Bundestag -- 12. Wahlperiode -- 70. Sitzung. Bonn, Donnerstag, den 16. Januar 1992

Heinz Werner Hübner
Nun beschäftigt man sich damit im Vermittlungsausschuß. Es ist also Sache dieses Ausschusses, zu entscheiden und nach Kompromißmöglichkeiten zu suchen. Sie suchen diese anscheinend nicht.
Wenn ich die Signale aus den anfänglichen Beratungen im Vermittlungsausschuß jedoch richtig verstanden habe, erscheint dort ein Kompromiß möglich, und zwar im Sinne einer weiteren Aufstockung des Kindergeldes für Erstkinder und einer entsprechenden Regelung des Kinderfreibetrages zur Wahrung möglichst weitgehender Aufkommensneutralität. Ich frage mich also, was der erneute Antrag auf Änderung des Bundeskindergeldgesetzes zum gegenwärtigen Zeitpunkt soll.
Das Aufbrechen oder der Versuch des Aufbrechens eines greifbaren Kompromisses bedeutet doch nur -- das wurde schon erwähnt --, daß die Familien noch länger auf die einvernehmliche Regelung warten müssen, weil sich die SPD querstellt.
Ihre ignorante Selbstdarstellung und Ihre populistische Marktschreierei
(Widerspruch bei der SPD -- Beifall bei der FDP und der CDU/CSU)
sollen dabei überdecken, daß Sie u. a. die Fortführung der Zusatzabgabe zur Lohnsteuer über den 30. Juni dieses Jahres hinaus anstreben, damit Ihr Abkoppelungsgesetz letztendlich finanzierbar wird. Wenn Sie dieses Paket also aufschnüren wollen, dann wird Ihnen der Inhalt um die Ohren fliegen. Niemand kann sagen, wie lange das geordnete Einsammeln dann dauern wird. Warten muß allemal der Bürger. Aber das scheint Sie nicht zu stören.
Dieser Antrag bringt nur neue Nuancen, neue Akzente gegenüber den bisherigen Forderungen der SPD. Was ist das für ein Verständnis vom Vermittlungsausschuß, in dem die Problematik zur Zeit behandelt wird? Aufgabe dieses Ausschusses ist es -- das wissen Sie genausogut --, vertraulich und in aller Offenheit und Flexibilität die unterschiedlichen Vorstellungen, Forderungen und Wünsche so zur Dekkung zu bringen, daß es zu einem vernünftigen Ausgleich kommt.
Durch die permanente Vorabfestlegung der Verhandlungsführer im Vermittlungsausschuß von außen durch politische Entscheidungsgremien und auch aus dem Parlament heraus wird die verfassungsrechtliche Funktion des Vermittlungsausschusses mißachtet.
(Beifall bei der FDP und der CDU/CSU -- Zuruf von der SPD: Ach!)
Es hat den Eindruck, als ob manche den Vermittlungsausschuß nur als Vollzugsorgan ihrer politischen Interessen betrachten. Der Wunsch der SPD, ihren Entwurf zur Änderung des Bundeskindergeldgesetzes auf die Tagesordnung des Plenums zu setzen, ist beredter Ausdruck für diese -- ich sagte es schon -- den Vermittlungsausschuß mißachtende Haltung.
(Zuruf von der SPD: Keine Ahnung!) Hier wird aus parteipolitischem Kalkül und wegen vermeintlicher taktischer Vorteile in Kauf genommen,

daß die Partei- und Staatsverdrossenheit bei den Bürgern wächst.
(Beifall bei der FDP und der CDU/CSU -- Zurufe von der SPD: Ach!)
Denn die Bürger haben es schließlich auszubaden, wenn Fronten aufgebaut werden und die längst fällige Verbesserung des Familienlastenausgleichs immer weiter hinausgezögert wird.
Was Sache des Vermittlungsausschusses ist, muß Sache dieses Ausschusses bleiben. Für die FDP ist das eine grundlegende verfassungsrechtliche Aussage. Sie wird daher Ihrem Antrag nicht zustimmen.
Ich danke Ihnen. (Beifall bei der FDP und der CDU/CSU)
Vizepräsident Hans Klein: Wir kommen zur Abstimmung. Wer stimmt für den Aufsetzungsantrag der Fraktion der SPD? -- Gegenprobe! --
(Dr. Peter Struck [SPD]: Das ist ja unglaublich! Unerhört! -- Weiterer Zuruf von der
SPD: Kinderfeinde!) Enthaltungen? -- Der Aufsetzungsantrag ist abgelehnt.
(V o r s i t z: Vizepräsident Helmuth Becker)
Vizepräsident Helmuth Becker: Meine sehr verehrten Damen und Herren, wir kommen jetzt zu einer Reihe von Abstimmungen im vereinfachten Verfahren. Ich bitte daher, eine Situation herzustellen, die es erlaubt, das Abstimmungsverhalten zu erkennen. -- Vielen Dank.
Ich rufe Tagesordnungspunkt 2 auf: Überweisung im vereinfachten Verfahren Beratung der Unterrichtung durch die Bundesregierung Bericht der Bundesregierung über Umweltradioaktivität und Strahlenbelastung im Jahr 1989 -- Drucksache 12/69 --
Überweisungsvorschlag: Ausschuß für Umwelt, Naturschutz und Reaktorsicherheit (federführend) Ausschuß für Arbeit und Sozialordnung Ausschuß für Gesundheit Ausschuß für Forschung, Technologie und Technikfolgenabschätzung
Interfraktionell wird vorgeschlagen, die Vorlage an die in der Tagesordnung aufgeführten Ausschüsse zu überweisen. Sind Sie damit einverstanden? -- Dann ist die Überweisung so beschlossen.
Ich rufe Tagesordnungspunkt 3 a bis 3 f, 3h und 3i sowie den zu Beginn der Sitzung aufgesetzten Zusatzpunkt auf:
Beratungen ohne Aussprache a) Zweite Beratung und Schlußabstimmung des
von der Bundesregierung eingebrachten Entwurfs eines Gesetzes zu dem Abkommen vom 18. September 1985 zwischen der Bundesrepu-

Deutscher Bundestag -- 12. Wahlperiode -- 70. Sitzung. Bonn, Donnerstag, den 16. Januar 1992

5877

Vizepräsident Helmuth Becker
blik Deutschland und der Argentinischen Republik über den Luftverkehr -- Drucksache 12/759 -- Beschlußempfehlung und Bericht des Ausschusses für Verkehr (16. Ausschuß) -- Drucksache 12/1848 (neu) -- Berichterstattung: Abgeordneter Ferdi Tillmann (Erste Beratung 41. Sitzung) b) Zweite Beratung und Schlußabstimmung des von der Bundesregierung eingebrachten Entwurfs eines Gesetzes zu dem Abkommen vom 2. November 1987 zwischen der Bundesrepublik Deutschland und Neuseeland über den Luftverkehr -- Drucksache 12/938 -- Beschlußempfehlung und Bericht des Ausschusses für Verkehr (16. Ausschuß) -- Drucksache 12/1849 -- Berichterstattung: Abgeordneter Lothar Ibrügger (Erste Beratung 41. Sitzung) c) Zweite Beratung und Schlußabstimmung des von der Bundesregierung eingebrachten Entwurfs eines Gesetzes zu dem Abkommen vom
8.April197zwschendBurpblik Deutschland und der Republik Venezuela über den Luftverkehr -- Drucksache 12/1057 -- Beschlußempfehlung und Bericht des Ausschusses für Verkehr (16. Ausschuß) -- Drucksache 12/1850 -- Berichterstattung: Abgeordneter Ekkehard Gries (Erste Beratung 41. Sitzung) d) Zweite Beratung und Schlußabstimmung des von der Bundesregierung eingebrachten Entwurfs eines Gesetzes zu dem Abkommen vom 25. April 1989 zwischen der Regierung der Bundesrepublik Deutschland und der Regierung der Vereinigten Staaten von Amerika zur Ergänzung des Abkommens vom 7. Juli 1955 über den Luftverkehr -- Drucksache 12/1058 -- Beschlußempfehlung und Bericht des Ausschusses für Verkehr (16. Ausschuß) -- Drucksache 12/1851 (neu) -- Berichterstattung: Abgeordneter Ferdi Tillmann (Erste Beratung 41. Sitzung) e) Zweite Beratung und Schlußabstimmung des von der Bundesregierung eingebrachten Entwurfs eines Gesetzes zu dem Abkommen vom 28. Januar 1986 zwischen der Bundesrepublik

Deutschland und der Gabunischen Republik über den Luftverkehr -- Drucksache 12/1258 -- Beschlußempfehlung und Bericht des Ausschusses für Verkehr (16. Ausschuß) -- Drucksache 12/1852 -- Berichterstattung: Abgeordneter Dr. Ulrich Janzen (Erste Beratung 50. Sitzung) f) Zweite und dritte Beratung des von der Bundesregierung eingebrachten Entwurfs eines Dritten Gesetzes zur Änderung des Eichgesetzes -- Drucksache 12/746 -- Beschlußempfehlung und Bericht des Ausschusses für Wirtschaft (9. Ausschuß) -- Drucksache 12/1741 -- Berichterstattung: Abgeordneter Dr. Heinrich L. Kolb (Erste Beratung 41. Sitzung) h) Beratung der Beschlußempfehlung und des Berichts des Ausschusses für Verkehr (16. Ausschuß) zu der Unterrichtung durch die Bundesregierung Vorschlag für eine Verordnung (EWG) des Rates über Konsultationen zwischen Flughäfen und Flughafenbenutzern sowie über Gebührengrundsätze von Flughäfen -- Drucksachen 12/210 Nr. 165, 12/1771 -- Berichterstattung: Abgeordneter Lothar Ibrügger i) Beratung derund Beschlußempfehlung und des Berichts des Haushaltsausschusses (8. Ausschuß) zu der Unterrichtung durch die Bundesregierung Überplanmäßige Ausgabe bei Kapitel 60 04 Titel 686 82 -- Transportkosten für den Abzug der Westgruppe der sowjetischen Streitkräfte aus dem in Artikel 3 des Einigungsvertrages genannten Gebiet -- -- Drucksachen 12/1383, 12/1808 -- Berichterstattung: Abgeordnete Adolf Roth (Gießen) Dr. Wolfgang Weng (Gerlingen) Helmut Wieczorek (Duisburg) ZP Zweite und dritte Beratung des von der Bundesregierung eingebrachten Entwurfs eines Gesetzes zur Änderung der Bundesärzteordnung und weiterer Bundesgesetze für Heilberufe -- Drucksache 12/1524 -- Beschlußempfehlung und Bericht des Ausschusses für Gesundheit (15. Ausschuß) -- Drucksache 12/1934 --

5878

Deutscher Bundestag -- 12. Wahlperiode -- 70. Sitzung. Bonn, Donnerstag, den 16. Januar 1992

Vizepräsident Helmuth Becker
Berichterstattung: Abgeordneter Dr. Hans-Joachim Sopart (Erste Beratung 57. Sitzung) Zweite Beratungen und Schlußabstimmungen über die von der Bundesregierung eingebrachten Gesetzentwürfe zu Abkommen über den Luftverkehr mit der Argentinischen Republik, mit Neuseeland, der Republik Venezuela, den Vereinigten Staaten von Amerika und der Gabunischen Republik: Der Ausschuß für Verkehr empfiehlt auf den Drucksachen 12/1848 (neu), 12/1849, 12/1850, 12/1851 (neu) und 12/1852, die Gesetzentwürfe unverändert anzunehmen. Wenn Sie damit einverstanden sind, stimmen wir über diese fünf Gesetzentwürfe gemeinsam ab. -- Ich höre und sehe keinen Widerspruch. Dann können wir so verfahren. Ich bitte diejenigen, die den Gesetzentwürfen zustimmen wollen, sich zu erheben. -- Wer stimmt dagegen? -- Stimmenthaltungen? -- Die Gesetzentwürfe sind einstimmig angenommen. Wir kommen jetzt zur Einzelberatung und Abstimmung über den von der Bundesregierung eingebrachten Gesetzentwurf zur Änderung des Eichgesetzes, Drucksache 12/746. Der Ausschuß für Wirtschaft empfiehlt auf Drucksache 12/1741, den Gesetzentwurf unverändert anzunehmen. Ich bitte diejenigen, die dem Gesetzentwurf zustimmen wollen, um das Handzeichen. -- Wer stimmt dagegen? -- Stimmenthaltungen? -- Der Gesetzentwurf ist damit in zweiter Beratung angenommen. Wir treten in die
dritte Beratung ein und kommen zur Schlußabstimmung. Ich bitte diejenigen, die dem Gesetzentwurf zustimmen wollen, sich zu erheben. -- Wer stimmt dagegen? -- Stimmenthaltungen? -- Damit ist auch dieser Gesetzentwurf einstimmig angenommen.
Meine Damen und Herren, wir kommen nunmehr zur Beratung der Beschlußempfehlung des Ausschusses für Verkehr zu einem Vorschlag der EG über Konsultationen zwischen Flughäfen und Flughafenbenutzern sowie über Gebührengrundsätze von Flughäfen, Drucksache 12/1771. Wer stimmt für diese Beschlußempfehlung? -- Wer stimmt dagegen? -- Stimmenthaltungen? -- Die Beschlußempfehlung ist einstimmig angenommen.
Wir kommen nun zur Beratung der Beschlußempfehlung des Haushaltsausschusses zu einer überplanmäßigen Ausgabe. Es handelt sich um Transportkosten für den Abzug der Westgruppe der sowjetischen Streitkräfte, Drucksachen 12/1383 und 12/1808. Wer stimmt für diese Beschlußempfehlung? -- Gegenprobe! -- Stimmenthaltungen? -- Die Beschlußempfehlung ist einstimmig angenommen.
Wir kommen jetzt zur Einzelberatung und zur Abstimmung über den von der Bundesregierung eingebrachten Gesetzentwurf zur Änderung der Bundesärzteordnung und weiterer Bundesgesetze für Heilberufe, Drucksache 12/1524. Der Ausschuß für Gesundheit empfiehlt auf Drucksache 12/1934, den Gesetzentwurf unverändert anzunehmen. Ich bitte diejenigen, die dem Gesetzentwurf zustimmen wol

len, um das Handzeichen. -- Wer stimmt dagegen? -- Stimmenthaltungen? -- Der Gesetzentwurf ist einstimmig angenommen.
Wir treten in die dritte Beratung
ein und kommen zur Schlußabstimmung. Ich bitte diejenigen, die dem Gesetzentwurf zustimmen wollen, sich zu erheben. -- Wer stimmt dagegen? -- Wer enthält sich der Stimme? -- Auch dieser Gesetzentwurf ist einstimmig angenommen.
Ich rufe Tagesordnungspunkt 4 auf: Vereinbarte Debatte zum Bericht der unabhängigen Kommission für die künftigen Aufgaben der Bundeswehr
Dazu liegen je ein Entschließungsantrag der Fraktionen der CDU/CSU und FDP sowie der Fraktion der SPD vor.
Nach einer Vereinbarung im Ältestenrat sind für die Aussprache zwei Stunden vorgesehen. Ich höre und sehe keinen Widerspruch. -- Dann ist das so beschlossen.
Ich eröffne die Aussprache und erteile zunächst dem Minister Dr. Gerhard Stoltenberg das Wort.
(Walter Kolbow [SPD]: Das ist aber unüblich; denn das ist ein Antrag des Parlaments! Aber
Sie werden wissen, was Sie tun!)

You only mention page numbers in the beginning. Should they only be deleted or have they more relevance?
daphee 7 months ago
Another question: The line beginning where the vice president asks for a vote "Vizepräsident Hans Klein: Wir kommen zur Abstimmung." would be included in "Heinz Werner Hübner"'s section. Is this okay? I guess you would prefer the vote be included in its own section but if we split the file also at lines beginning with Vizepräsident there would be a lot of one line sections where the Vizepräsident is just introducing a new speaker
daphee 7 months ago
Thanks for the feedback. You're right - page #s should be retained as metadata as well if possible, then deleted. I'm okay with having a lot of one-line files, even with the clutter.
Matt_E 7 months ago
By retained as metadata you mean included in the file name? Hmm, a Problem is if we want to match lines like Vizepräsident as well our only heuristic really is "newline followed by text and a colon" the problem is that lines like "und macht auch nicht aus einer Minderheit eine Mehrheit. Ich frage:" would match that as well. A simplification woul be to only match a limited number of words for first and last name but what about multiple first or last names?
daphee 7 months ago
Yes, I mean included in the file name. I've found there aren't too many instances where a newline character, plus 6-8 separate words, should separate on anything but a new speaker. I'm willing to have the results a little messy in that regard if need be.
Matt_E 7 months ago
Is Vizepräsident the only special words which isn't followed by (PARTY)? Do the lines containing the LEGPERIOD in the same in a file?
daphee 7 months ago
There may be a few others but I'm reasonably sure I can figure out how to add them in as I review. Yes, in a given file LEGPERIOD should be the same. Thanks for the quick turnaround. I can't immediately return the favor - may not be able to review until morning. Look forward to seeing the rest.
Matt_E 7 months ago
I am working on it. I will try my best but I guess the first version I can give you won't probably work completely like expected but I am happy to help you fix it. BTW can you provide an archive with all the files you want to parse or are those confidental?
daphee 7 months ago
Currently in a Box folder, email for invite?
Matt_E 7 months ago
I just checked the "let other users contact me privately" box in the Account settings. I never used this feature, can you try if it works?
daphee 7 months ago
awarded to daphee

Crowdsource coding tasks.

1 Solution


Here is my preliminary solution. https://gist.github.com/daphee/3544a71719ca390ec1256dabf87ec0e4

It isn't very fast so it might need tweaking for a very large dataset. I will try to maybe use less regular expressions.

See if it works how you expected with the sample you provided here(make sure to enter the correct encoding. If the umlauts in the file name are displayed weird try another encoding maybe latin-1). It will certainly crash when you use it on all your data.

EDIT: Updated the script. It should be much much faster now. New and old output should be the same for the sample in the bounty description

EDIT2:

  • remove lines like "Deutscher Bundestag -- 12. Wahlperiode -- 70. Sitzung. Bonn, Donnerstag, den 16. Januar 1992"
  • added "Präsident" to special words
  • option to include or emit empty lines
  • exclude lines only including the current speaker's name (removes all such lines not only ones preceded by "Deutscher Bundestag...")
  • add additional incrementing numbers for speakers on the same page (haha) so that sorted output files are in the correct order

TODO:

  • fix 17500, 17907, 17053 and 17169

QUESTION:

  • are the output files sorted correctly in the File explorer you use?
Updated script is running well, though it does still stop on one file over a filename. Only thing I noticed is that the page number/whalperiode/speaker name patterns are still in the text at each page break. How easy would it be to tweak the code to remove them (after extracting metadata)? Also, is there a way to tweak the code so that it measures a number of characters before the colon, thus stopping the potential issue of the occasional hyper-long names (probably from OCR issues)? Happy to top up the tip if addressing these issues takes substantial time/effort of course.
Matt_E 7 months ago
Page numbers: Do you mean the empty lines with just the page number in it? Those shouldn't be included in the output already. Could you provide a sample file(name) and line number? Wahlperiode...: Easy to remove. Done. Speaker name: Do you mean a line like "Heinz Werner Hübner" in your example above? I can try removing lines containing nothing but the current speakers name. Probably wont be very reliable. Question: Should I include "Präsident" as another special word?
daphee 7 months ago
Präsident would be good as a special word, yes. The "current speaker names" should appear in the text only immediately after the "Wahlperiode etc." page breaks. Those are the ones I'd like to get rid of (as they don't actually reflect speech). So in the text above where it says: Deutscher Bundestag -- 12. Wahlperiode -- 70. Sitzung. Bonn, Donnerstag, den 16. Januar 1992 Vizepräsident Helmuth Becker I'd like to get rid of the speaker name. Thanks!
Matt_E 7 months ago
Okay, will submit the edits in a moment. Regarding the max file length: there already is a constant at the top NAMEMAXLENGTH. IT is currently set to 100 characters. The operating system's limit is a limit on the whole filename. So it doesn't only depend on the OS but also where you store the files. If they are already stored in a subolder with a long filename the filename has to be shorter. I think there is a way to read this limit and calculate how much characters the files can use depending on your local "out" folder but I don't know how to do that without looking it up. Could you try first to just tweak NAME_MAX _LENGTH? If that doesn't work properly I can look into doing that automatically
daphee 7 months ago
Should work fine. I figured out there was actually something messed up with the particular file that was causing the error, so it was actually a good thing to catch. This has been great work.
Matt_E 7 months ago
Thanks for another tip! I found a problem with the four files 17500, 17907, 17503, 17169. The first two don't contain a line "Deutscher Bundestag ..." but "Bundesversammlung". I can't extract legPeriod and session from them therefore the script skips them completely. The lattern two don't seem to contain any "new speaker"-lines BTW: You should make sure that you read the scripts output and look for lines containing "Skipping this file". You can either pipe the (quite verbose) oiutput into a seperate file or comment out all other (debug) messages to only see the "Skipping this file" ones
daphee 7 months ago
View Timeline